Wu, Junkang

11 publications

ICLR 2026 Beyond Magnitude: Leveraging Direction of RLVR Updates for LLM Reasoning Kexin Huang, Haoming Meng, Junkang Wu, Jinda Lu, Chiyu Ma, Ziqian Chen, Xue Wang, Bolin Ding, Jiancan Wu, Xiang Wang, Xiangnan He, Guoyin Wang, Jingren Zhou

ICLR 2026 Quantile Advantage Estimation: Stabilizing RLVR for LLM Reasoning Junkang Wu, Kexin Huang, Jiancan Wu, An Zhang, Xiang Wang, Xiangnan He

ICML 2025 AlphaDPO: Adaptive Reward Margin for Direct Preference Optimization Junkang Wu, Xue Wang, Zhengyi Yang, Jiancan Wu, Jinyang Gao, Bolin Ding, Xiang Wang, Xiangnan He

ICML 2025 DAMA: Data- and Model-Aware Alignment of Multi-Modal LLMs Jinda Lu, Junkang Wu, Jinghan Li, Xiaojun Jia, Shuo Wang, Yifan Zhang, Junfeng Fang, Xiang Wang, Xiangnan He

ICML 2025 Larger or Smaller Reward Margins to Select Preferences for LLM Alignment? Kexin Huang, Junkang Wu, Ziqian Chen, Xue Wang, Jinyang Gao, Bolin Ding, Jiancan Wu, Xiangnan He, Xiang Wang

ICML 2025 MM-RLHF: The Next Step Forward in Multimodal LLM Alignment Yifan Zhang, Tao Yu, Haochen Tian, Chaoyou Fu, Peiyan Li, Jianshu Zeng, Wulin Xie, Yang Shi, Huanyu Zhang, Junkang Wu, Xue Wang, Yibo Hu, Bin Wen, Tingting Gao, Zhang Zhang, Fan Yang, Di Zhang, Liang Wang, Rong Jin

NeurIPS 2025 RePO: Understanding Preference Learning Through ReLU-Based Optimization Junkang Wu, Kexin Huang, Xue Wang, Jinyang Gao, Bolin Ding, Jiancan Wu, Xiangnan He, Xiang Wang

ICLR 2025 Towards Robust Alignment of Language Models: Distributionally Robustifying Direct Preference Optimization Junkang Wu, Yuexiang Xie, Zhengyi Yang, Jiancan Wu, Jiawei Chen, Jinyang Gao, Bolin Ding, Xiang Wang, Xiangnan He

NeurIPS 2024 $\beta$-DPO: Direct Preference Optimization with Dynamic $\beta$ Junkang Wu, Yuexiang Xie, Zhengyi Yang, Jiancan Wu, Jinyang Gao, Bolin Ding, Xiang Wang, Xiangnan He

IJCAI 2023 Discriminative-Invariant Representation Learning for Unbiased Recommendation Hang Pan, Jiawei Chen, Fuli Feng, Wentao Shi, Junkang Wu, Xiangnan He

NeurIPS 2023 Understanding Contrastive Learning via Distributionally Robust Optimization Junkang Wu, Jiawei Chen, Jiancan Wu, Wentao Shi, Xiang Wang, Xiangnan He