He, Zhiwei

17 publications

ICLR 2026 DeepCompress: A Dual Reward Strategy for Dynamically Exploring and Compressing Reasoning Chains Tian Liang, Wenxiang Jiao, Zhiwei He, Jiahao Xu, Haitao Mi, Dong Yu

ICLR 2026 DeepMath-103k: A Large-Scale, Challenging, Decontaminated, and Verifiable Mathematical Dataset for Advancing Reasoning Zhiwei He, Tian Liang, Jiahao Xu, Qiuzhi Liu, Xingyu Chen, Yue Wang, Linfeng Song, Dian Yu, Zhenwen Liang, Wenxuan Wang, Zhuosheng Zhang, Rui Wang, Zhaopeng Tu, Haitao Mi, Dong Yu

ICLR 2026 RLVER: Reinforcement Learning with Verifiable Emotion Rewards for Empathetic Agents Peisong Wang, Ruotian Ma, Bang Zhang, Xingyu Chen, Zhiwei He, Kang Luo, Qingsong Lv, Qingxuan Jiang, Zheng Xie, Shanyi Wang, Cixing Li, Yuan Li, Fanghua Ye, Jian Li, Yifan Yang, Jia Li, Zhaopeng Tu, Xiaolong Li

ICML 2025 Do NOT Think That Much for 2+3=? on the Overthinking of Long Reasoning Models Xingyu Chen, Jiahao Xu, Tian Liang, Zhiwei He, Jianhui Pang, Dian Yu, Linfeng Song, Qiuzhi Liu, Mengfei Zhou, Zhuosheng Zhang, Rui Wang, Zhaopeng Tu, Haitao Mi, Dong Yu

ICLR 2025 RaSA: Rank-Sharing Low-Rank Adaptation Zhiwei He, Zhaopeng Tu, Xing Wang, Xingyu Chen, Zhijie Wang, Jiahao Xu, Tian Liang, Wenxiang Jiao, Zhuosheng Zhang, Rui Wang

NeurIPS 2025 The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models Ke Ji, Jiahao Xu, Tian Liang, Qiuzhi Liu, Zhiwei He, Xiaoyuan Liu, Xingyu Chen, Junying Chen, Benyou Wang, Zhaopeng Tu, Haitao Mi, Dong Yu

NeurIPS 2025 Thoughts Are All over the Place: On the Underthinking of Long Reasoning Models Yue Wang, Qiuzhi Liu, Jiahao Xu, Tian Liang, Xingyu Chen, Zhiwei He, Linfeng Song, Dian Yu, Juntao Li, Zhuosheng Zhang, Rui Wang, Zhaopeng Tu, Haitao Mi, Dong Yu

NeurIPS 2025 Trust, but Verify: A Self-Verification Approach to Reinforcement Learning with Verifiable Rewards Xiaoyuan Liu, Tian Liang, Zhiwei He, Jiahao Xu, Wenxuan Wang, Pinjia He, Zhaopeng Tu, Haitao Mi, Dong Yu

NeurIPS 2025 Two Experts Are All You Need for Steering Thinking: Reinforcing Cognitive Effort in MoE Reasoning Models Without Additional Training Mengru Wang, Xingyu Chen, Yue Wang, Zhiwei He, Jiahao Xu, Tian Liang, Qiuzhi Liu, Yunzhi Yao, Wenxuan Wang, Ruotian Ma, Haitao Mi, Ningyu Zhang, Zhaopeng Tu, Xiaolong Li, Dong Yu

AAAI 2025 UAWTrack: Universal 3D Single Object Tracking in Adverse Weather Yuxiang Yang, Hongjie Gu, Yingqi Deng, Zhekang Dong, Zhiwei He, Jing Zhang

ICLR 2025 Weak-to-Strong Preference Optimization: Stealing Reward from Weak Aligned Model Wenhong Zhu, Zhiwei He, Xiaofeng Wang, Pengfei Liu, Rui Wang

ICML 2024 Improving Open-Ended Text Generation via Adaptive Decoding Wenhong Zhu, Hongkun Hao, Zhiwei He, Yiming Ai, Rui Wang

ICMLW 2024 Is Self-Knowledge and Action Consistent or Not: Investigating Large Language Model's Personality Yiming Ai, Zhiwei He, Ziyin Zhang, Wenhong Zhu, Hongkun Hao, Kai Yu, Lingjun Chen, Rui Wang

ICLRW 2024 R-Judge: Benchmarking Safety Risk Awareness for LLM Agents Tongxin Yuan, Zhiwei He, Lingzhong Dong, Yiming Wang, Ruijie Zhao, Tian Xia, Lizhen Xu, Binglin Zhou, Li Fangqi, Zhuosheng Zhang, Rui Wang, Gongshen Liu

ICLR 2024 Towards Category Unification of 3D Single Object Tracking on Point Clouds Jiahao Nie, Zhiwei He, Xudong Lv, Xueyi Zhou, Dong-Kyu Chae, Fei Xie

AAAI 2023 GLT-T: Global-Local Transformer Voting for 3D Single Object Tracking in Point Clouds Jiahao Nie, Zhiwei He, Yuxiang Yang, Mingyu Gao, Jing Zhang

IJCAI 2023 OSP2B: One-Stage Point-to-Box Network for 3D Siamese Tracking Jiahao Nie, Zhiwei He, Yuxiang Yang, Zhengyi Bao, Mingyu Gao, Jing Zhang