Wang, Guangju

3 publications

ICML 2024 Is DPO Superior to PPO for LLM Alignment? a Comprehensive Study Shusheng Xu, Wei Fu, Jiaxuan Gao, Wenjie Ye, Weilin Liu, Zhiyu Mei, Guangju Wang, Chao Yu, Yi Wu

ICLR 2024 SRL: Scaling Distributed Reinforcement Learning to over Ten Thousand Cores Zhiyu Mei, Wei Fu, Jiaxuan Gao, Guangju Wang, Huanchen Zhang, Yi Wu

ICMLW 2023 SRL: Scaling Distributed Reinforcement Learning to over Ten Thousand Cores Zhiyu Mei, Wei Fu, Guangju Wang, Huanchen Zhang, Yi Wu