Liu, Boyi

17 publications

ICML 2025 BRiTE: Bootstrapping Reinforced Thinking Process to Enhance Language Model Reasoning Han Zhong, Yutong Yin, Shenao Zhang, Xiaojun Xu, Yuanxin Liu, Yifei Zuo, Zhihan Liu, Boyi Liu, Sirui Zheng, Hongyi Guo, Liwei Wang, Mingyi Hong, Zhaoran Wang

ICML 2025 Reward-Augmented Data Enhances Direct Preference Alignment of LLMs Shenao Zhang, Zhihan Liu, Boyi Liu, Yufeng Zhang, Yingxiang Yang, Yongfei Liu, Liyu Chen, Tao Sun, Zhaoran Wang

ICLRW 2025 Reward-Augmented Data Enhances Direct Preference Alignment of LLMs Shenao Zhang, Zhihan Liu, Boyi Liu, Yufeng Zhang, Yingxiang Yang, Yongfei Liu, Liyu Chen, Tao Sun, Zhaoran Wang

ICLR 2024 Let Models Speak Ciphers: Multiagent Debate Through Embeddings Chau Pham, Boyi Liu, Yingxiang Yang, Zhengyu Chen, Tianyi Liu, Jianbo Yuan, Bryan A. Plummer, Zhaoran Wang, Hongxia Yang

NeurIPS 2024 Provably Mitigating Overoptimization in RLHF: Your SFT Loss Is Implicitly an Adversarial Regularizer Zhihan Liu, Miao Lu, Shenao Zhang, Boyi Liu, Hongyi Guo, Yingxiang Yang, Jose Blanchet, Zhaoran Wang

ICMLW 2024 Provably Mitigating Overoptimization in RLHF: Your SFT Loss Is Implicitly an Adversarial Regularizer Zhihan Liu, Miao Lu, Shenao Zhang, Boyi Liu, Hongyi Guo, Yingxiang Yang, Jose Blanchet, Zhaoran Wang

ICML 2024 Reason for Future, Act for Now: A Principled Architecture for Autonomous LLM Agents Zhihan Liu, Hao Hu, Shenao Zhang, Hongyi Guo, Shuqi Ke, Boyi Liu, Zhaoran Wang

ICML 2023 Achieving Hierarchy-Free Approximation for Bilevel Programs with Equilibrium Constraints Jiayang Li, Jing Yu, Boyi Liu, Yu Nie, Zhaoran Wang

JMLR 2023 Double Duality: Variational Primal-Dual Policy Optimization for Constrained Reinforcement Learning Zihao Li, Boyi Liu, Zhuoran Yang, Zhaoran Wang, Mengdi Wang

NeurIPS 2023 Model-Based Reparameterization Policy Gradient Methods: Theory and Practical Algorithms Shenao Zhang, Boyi Liu, Zhaoran Wang, Tuo Zhao

NeurIPSW 2023 Reason for Future, Act for Now: A Principled Architecture for Autonomous LLM Agents Zhihan Liu, Hao Hu, Shenao Zhang, Hongyi Guo, Shuqi Ke, Boyi Liu, Zhaoran Wang

IJCAI 2022 Dynamic Graph Learning Based on Hierarchical Memory for Origin-Destination Demand Prediction Ruixing Zhang, Liangzhe Han, Boyi Liu, Jiayuan Zeng, Leilei Sun

NeurIPS 2022 Inducing Equilibria via Incentives: Simultaneous Design-and-Play Ensures Global Convergence Boyi Liu, Jiayang Li, Zhuoran Yang, Hoi-To Wai, Mingyi Hong, Yu Nie, Zhaoran Wang

NeurIPS 2022 Relational Reasoning via Set Transformers: Provable Efficiency and Applications to MARL Fengzhuo Zhang, Boyi Liu, Kaixin Wang, Vincent Tan, Zhuoran Yang, Zhaoran Wang

NeurIPS 2021 BooVI: Provably Efficient Bootstrapped Value Iteration Boyi Liu, Qi Cai, Zhuoran Yang, Zhaoran Wang

NeurIPS 2019 Neural Trust Region/Proximal Policy Optimization Attains Globally Optimal Policy Boyi Liu, Qi Cai, Zhuoran Yang, Zhaoran Wang

ICLR 2019 Off-Policy Evaluation and Learning from Logged Bandit Feedback: Error Reduction via Surrogate Policy Yuan Xie, Boyi Liu, Qiang Liu, Zhaoran Wang, Yuan Zhou, Jian Peng