Wang, Kaiwen

15 publications

NeurIPS 2025 $Q\sharp$: Provably Optimal Distributional RL for LLM Post-Training Jin Peng Zhou, Kaiwen Wang, Jonathan Daniel Chang, Zhaolin Gao, Nathan Kallus, Kilian Q Weinberger, Kianté Brantley, Wen Sun

ICML 2025 A Reductions Approach to Risk-Sensitive Reinforcement Learning with Optimized Certainty Equivalents Kaiwen Wang, Dawen Liang, Nathan Kallus, Wen Sun

TMLR 2025 Divide and Merge: Motion and Semantic Learning in End-to-End Autonomous Driving Yinzhe Shen, Omer Sahin Tas, Kaiwen Wang, Royden Wagner, Christoph Stiller

NeurIPS 2025 Value-Guided Search for Efficient Chain-of-Thought Reasoning Kaiwen Wang, Jin Peng Zhou, Jonathan Daniel Chang, Zhaolin Gao, Nathan Kallus, Kianté Brantley, Wen Sun

NeurIPSW 2024 Conditional Language Policy: A General Framework for Steerable Multi-Objective Finetuning Kaiwen Wang, Rahul Kidambi, Ryan Sullivan, Alekh Agarwal, Christoph Dann, Andrea Michi, Marco Gelmi, Yunxuan Li, Raghav Gupta, Kumar Avinava Dubey, Alexandre Rame, Johan Ferret, Geoffrey Cideron, Le Hou, Hongkun Yu, Amr Ahmed, Aranyak Mehta, Leonard Hussenot, Olivier Bachem, Edouard Leurent

NeurIPS 2024 Efficient and Sharp Off-Policy Evaluation in Robust Markov Decision Processes Andrew Bennett, Nathan Kallus, Miruna Oprescu, Wen Sun, Kaiwen Wang

ICML 2024 More Benefits of Being Distributional: Second-Order Bounds for Reinforcement Learning Kaiwen Wang, Owen Oertell, Alekh Agarwal, Nathan Kallus, Wen Sun

ICML 2024 Switching the Loss Reduces the Cost in Batch Reinforcement Learning Alex Ayoub, Kaiwen Wang, Vincent Liu, Samuel Robertson, James Mcinerney, Dawen Liang, Nathan Kallus, Csaba Szepesvari

ICML 2023 Near-Minimax-Optimal Risk-Sensitive Reinforcement Learning with CVaR Kaiwen Wang, Nathan Kallus, Wen Sun

COLT 2023 Provable Benefits of Representational Transfer in Reinforcement Learning Alekh Agarwal, Yuda Song, Wen Sun, Kaiwen Wang, Mengdi Wang, Xuezhou Zhang

NeurIPS 2023 The Benefits of Being Distributional: Small-Loss Bounds for Reinforcement Learning Kaiwen Wang, Kevin Zhou, Runzhe Wu, Nathan Kallus, Wen Sun

NeurIPS 2022 Deep Multi-Modal Structural Equations for Causal Effect Estimation with Unstructured Proxies Shachi Deshpande, Kaiwen Wang, Dhruv Sreenivas, Zheng Li, Volodymyr Kuleshov

ICML 2022 Doubly Robust Distributionally Robust Off-Policy Evaluation and Learning Nathan Kallus, Xiaojie Mao, Kaiwen Wang, Zhengyuan Zhou

ICML 2022 Learning Bellman Complete Representations for Offline Policy Evaluation Jonathan Chang, Kaiwen Wang, Nathan Kallus, Wen Sun

NeurIPSW 2022 Provable Benefits of Representational Transfer in Reinforcement Learning Alekh Agarwal, Yuda Song, Kaiwen Wang, Mengdi Wang, Wen Sun, Xuezhou Zhang