Xie, Zhihui

10 publications

ICLR 2026 Attention as a Compass: Efficient Exploration for Process-Supervised RL in Reasoning Models Runze Liu, Jiakang Wang, Yuling Shi, Zhihui Xie, Chenxin An, Kaiyan Zhang, Jian Zhao, Xiaodong Gu, Lei Lin, Wenping Hu, Xiu Li, Fuzheng Zhang, Guorui Zhou, Kun Gai

ICLR 2026 DreamOn: Diffusion Language Models for Code Infilling Beyond Fixed-Size Canvas Zirui Wu, Lin Zheng, Zhihui Xie, Jiacheng Ye, Jiahui Gao, Shansan Gong, Yansong Feng, Zhenguo Li, Wei Bi, Guorui Zhou, Lingpeng Kong

ICLR 2025 Jailbreaking as a Reward Misspecification Problem Zhihui Xie, Jiahui Gao, Lei Li, Zhenguo Li, Qi Liu, Lingpeng Kong

ICML 2025 Teaching Language Models to Critique via Reinforcement Learning Zhihui Xie, Jie Chen, Liyu Chen, Weichao Mao, Jingjing Xu, Lingpeng Kong

ICLRW 2025 Teaching Language Models to Critique via Reinforcement Learning Zhihui Xie, Jie Chen, Liyu Chen, Weichao Mao, Jingjing Xu, Lingpeng Kong

CVPR 2025 VL-RewardBench: A Challenging Benchmark for Vision-Language Generative Reward Models Lei Li, Yuancheng Wei, Zhihui Xie, Xuqing Yang, Yifan Song, Peiyi Wang, Chenxin An, Tianyu Liu, Sujian Li, Bill Yuchen Lin, Lingpeng Kong, Qi Liu

NeurIPS 2024 Calibrating Reasoning in Language Models with Internal Consistency Zhihui Xie, Jizhou Guo, Tong Yu, Shuai Li

NeurIPS 2024 Learning Versatile Skills with Curriculum Masking Yao Tang, Zhihui Xie, Zichuan Lin, Deheng Ye, Shuai Li

ICML 2023 Future-Conditioned Unsupervised Pretraining for Decision Transformer Zhihui Xie, Zichuan Lin, Deheng Ye, Qiang Fu, Yang Wei, Shuai Li

ECCV 2020 Layered Neighborhood Expansion for Incremental Multiple Graph Matching Zixuan Chen, Zhihui Xie, Junchi Yan Yinqiang Zheng, Xiaokang Yang