Dingqian, Hong

1 publications

NeurIPS 2025 GVPO: Group Variance Policy Optimization for Large Language Model Post-Training Kaichen Zhang, Yuzhong Hong, Junwei Bao, Hongfei Jiang, Yang Song, Hong Dingqian, Hui Xiong