Jiang, Hongfei

3 publications

ICML 2025 Energy-Based Preference Model Offers Better Offline Alignment than the Bradley-Terry Preference Model Yuzhong Hong, Hanshan Zhang, Junwei Bao, Hongfei Jiang, Yang Song

NeurIPS 2025 GVPO: Group Variance Policy Optimization for Large Language Model Post-Training Kaichen Zhang, Yuzhong Hong, Junwei Bao, Hongfei Jiang, Yang Song, Hong Dingqian, Hui Xiong

AAAI 2025 Preference-Oriented Supervised Fine-Tuning: Favoring Target Model over Aligned Large Language Models Yuchen Fan, Yuzhong Hong, Qiushi Wang, Junwei Bao, Hongfei Jiang, Yang Song