Wang, Weinong

2 publications

ICLR 2026 Uni-DPO: A Unified Paradigm for Dynamic Preference Optimization of LLMs Shangpin Peng, Weinong Wang, Zhuotao Tian, Senqiao Yang, Xing W, Haotian Xu, Chengquan Zhang, Takashi Isobe, Baotian Hu, Min Zhang

NeurIPS 2025 Agentic RL Scaling Law: Spontaneous Code Execution for Mathematical Problem Solving Xinji Mai, Haotian Xu, Xing W, Weinong Wang, Yingying Zhang, Wenqiang Zhang