Yuan, Lifan

16 publications

ICLR 2026 From F(x) and G(x) to F(g(x)): LLMs Learn New Skills in RL by Composing Old Ones Lifan Yuan, Weize Chen, Yuchen Zhang, Ganqu Cui, Hanbin Wang, Ziming You, Ning Ding, Zhiyuan Liu, Maosong Sun, Hao Peng

ICLR 2026 How Far Can Unsupervised RLVR Scale LLM Training? Bingxiang He, Yuxin Zuo, Zeyuan Liu, Shangziqi Zhao, Zixuan Fu, Junlin Yang, Cheng Qian, Kaiyan Zhang, Yuchen Fan, Ganqu Cui, Xiusi Chen, Youbang Sun, Xingtai Lv, Xuekai Zhu, Li Sheng, Ran Li, Huan-ang Gao, Yuchen Zhang, Lifan Yuan, Bowen Zhou, Zhiyuan Liu, Ning Ding

ICLR 2025 Advancing LLM Reasoning Generalists with Preference Trees Lifan Yuan, Ganqu Cui, Hanbin Wang, Ning Ding, Xingyao Wang, Boji Shan, Zeyuan Liu, Jia Deng, Huimin Chen, Ruobing Xie, Yankai Lin, Zhenghao Liu, Bowen Zhou, Hao Peng, Zhiyuan Liu, Maosong Sun

ICML 2025 Free Process Rewards Without Process Labels Lifan Yuan, Wendi Li, Huayu Chen, Ganqu Cui, Ning Ding, Kaiyan Zhang, Bowen Zhou, Zhiyuan Liu, Hao Peng

NeurIPS 2025 Reinforcement Learning Finetunes Small Subnetworks in Large Language Models Sagnik Mukherjee, Lifan Yuan, Dilek Hakkani-Tür, Hao Peng

NeurIPS 2025 TTRL: Test-Time Reinforcement Learning Yuxin Zuo, Kaiyan Zhang, Li Sheng, Shang Qu, Ganqu Cui, Xuekai Zhu, Haozhan Li, Yuchen Zhang, Xinwei Long, Ermo Hua, Biqing Qi, Youbang Sun, Zhiyuan Ma, Lifan Yuan, Ning Ding, Bowen Zhou

NeurIPS 2025 The Unreasonable Effectiveness of Entropy Minimization in LLM Reasoning Shivam Agarwal, Zimin Zhang, Lifan Yuan, Jiawei Han, Hao Peng

ICMLW 2024 Advancing LLM Reasoning Generalists with Preference Trees Lifan Yuan, Ganqu Cui, Hanbin Wang, Ning Ding, Xingyao Wang, Jia Deng, Boji Shan, Huimin Chen, Ruobing Xie, Yankai Lin, Zhenghao Liu, Bowen Zhou, Hao Peng, Zhiyuan Liu, Maosong Sun

ICLR 2024 CRAFT: Customizing LLMs by Creating and Retrieving from Specialized Toolsets Lifan Yuan, Yangyi Chen, Xingyao Wang, Yi Fung, Hao Peng, Heng Ji

ICML 2024 Executable Code Actions Elicit Better LLM Agents Xingyao Wang, Yangyi Chen, Lifan Yuan, Yizhe Zhang, Yunzhu Li, Hao Peng, Heng Ji

ICLRW 2024 Executable Code Actions Elicit Better LLM Agents Xingyao Wang, Yangyi Chen, Lifan Yuan, Yizhe Zhang, Yunzhu Li, Hao Peng, Heng Ji

ICLR 2024 MINT: Evaluating LLMs in Multi-Turn Interaction with Tools and Language Feedback Xingyao Wang, Zihan Wang, Jiateng Liu, Yangyi Chen, Lifan Yuan, Hao Peng, Heng Ji

NeurIPS 2024 Noise Contrastive Alignment of Language Models with Explicit Rewards Huayu Chen, Guande He, Lifan Yuan, Ganqu Cui, Hang Su, Jun Zhu

ICML 2024 ULTRAFEEDBACK: Boosting Language Models with Scaled AI Feedback Ganqu Cui, Lifan Yuan, Ning Ding, Guanming Yao, Bingxiang He, Wei Zhu, Yuan Ni, Guotong Xie, Ruobing Xie, Yankai Lin, Zhiyuan Liu, Maosong Sun

NeurIPS 2023 Revisiting Out-of-Distribution Robustness in NLP: Benchmarks, Analysis, and LLMs Evaluations Lifan Yuan, Yangyi Chen, Ganqu Cui, Hongcheng Gao, FangYuan Zou, Xingyi Cheng, Heng Ji, Zhiyuan Liu, Maosong Sun

NeurIPS 2022 A Unified Evaluation of Textual Backdoor Learning: Frameworks and Benchmarks Ganqu Cui, Lifan Yuan, Bingxiang He, Yangyi Chen, Zhiyuan Liu, Maosong Sun