Yue, Xiang

25 publications

ICLRW 2025 CodeEditorBench: Evaluating Code Editing Capability of LLMs Jiawei Guo, Ziming Li, Xueling Liu, Kaijing Ma, Tianyu Zheng, Zhouliang Yu, Ding Pan, Yizhi Li, Ruibo Liu, Yue Wang, Shuyue Guo, Xingwei Qu, Xiang Yue, Ge Zhang, Wenhu Chen, Jie Fu

ICML 2025 Demystifying Long Chain-of-Thought Reasoning Shiming Yang, Yuxuan Tong, Xinyao Niu, Graham Neubig, Xiang Yue

ICLRW 2025 Demystifying Long Chain-of-Thought Reasoning in LLMs Edward Yeo, Yuxuan Tong, Xinyao Niu, Graham Neubig, Xiang Yue

CVPR 2025 Evaluating Vision-Language Models as Evaluators in Path Planning Mohamed Aghzal, Xiang Yue, Erion Plaku, Ziyu Yao

ICLR 2025 Harnessing Webpage UIs for Text-Rich Visual Understanding Junpeng Liu, Tianyue Ou, Yifan Song, Yuxiao Qu, Wai Lam, Chenyan Xiong, Wenhu Chen, Graham Neubig, Xiang Yue

ICLR 2025 KOR-Bench: Benchmarking Language Models on Knowledge-Orthogonal Reasoning Tasks Kaijing Ma, Xeron Du, Yunran Wang, Haoran Zhang, ZhoufutuWen, Xingwei Qu, Jian Yang, Jiaheng Liu, Minghao Liu, Xiang Yue, Wenhao Huang, Ge Zhang

TMLR 2025 Long-Context LLMs Struggle with Long In-Context Learning Tianle Li, Ge Zhang, Quy Duc Do, Xiang Yue, Wenhu Chen

ICLR 2025 MEGA-Bench: Scaling Multimodal Evaluation to over 500 Real-World Tasks Jiacheng Chen, Tianhao Liang, Sherman Siu, Zhengqing Wang, Kai Wang, Yubo Wang, Yuansheng Ni, Ziyan Jiang, Wang Zhu, Bohan Lyu, Dongfu Jiang, Xuan He, Yuan Liu, Hexiang Hu, Xiang Yue, Wenhu Chen

ICLR 2025 MixEval-X: Any-to-Any Evaluations from Real-World Data Mixture Jinjie Ni, Yifan Song, Deepanway Ghosal, Bo Li, David Junhao Zhang, Xiang Yue, Fuzhao Xue, Yuntian Deng, Zian Zheng, Kaichen Zhang, Mahir Shah, Kabir Jain, Yang You, Michael Shieh

ICLR 2025 MuPT: A Generative Symbolic Music Pretrained Transformer Xingwei Qu, Yuelin Bai, Yinghao Ma, Ziya Zhou, Ka Man Lo, Jiaheng Liu, Ruibin Yuan, Lejun Min, Xueling Liu, Tianyu Zhang, Xeron Du, Shuyue Guo, Yiming Liang, Yizhi Li, Shangda Wu, Junting Zhou, Tianyu Zheng, Ziyang Ma, Fengze Han, Wei Xue, Gus Xia, Emmanouil Benetos, Xiang Yue, Chenghua Lin, Xu Tan, Wenhao Huang, Jie Fu, Ge Zhang

ICML 2025 Overtrained Language Models Are Harder to Fine-Tune Jacob Mitchell Springer, Sachin Goyal, Kaiyue Wen, Tanishq Kumar, Xiang Yue, Sadhika Malladi, Graham Neubig, Aditi Raghunathan

ICLRW 2025 Overtrained Language Models Are Harder to Fine-Tune Jacob Mitchell Springer, Sachin Goyal, Kaiyue Wen, Tanishq Kumar, Xiang Yue, Sadhika Malladi, Graham Neubig, Aditi Raghunathan

ICLR 2025 Pangea: A Fully Open Multilingual Multimodal LLM for 39 Languages Xiang Yue, Yueqi Song, Akari Asai, Seungone Kim, Jean de Dieu Nyandwi, Simran Khanuja, Anjali Kantharuban, Lintang Sutawika, Sathyanarayanan Ramamoorthy, Graham Neubig

NeurIPS 2025 SuperGPQA: Scaling LLM Evaluation Across 285 Graduate Disciplines Xeron Du, Yifan Yao, Kaijing Ma, Bingli Wang, Tianyu Zheng, King Zhu, Minghao Liu, Yiming Liang, Xiaolong Jin, Zhenlin Wei, Chujie Zheng, Kaixin Deng, Shuyue Guo, Shian Jia, Sichao Jiang, Yiyan Liao, Rui Li, Qinrui Li, Sirun Li, Yizhi Li, Yunwen Li, Dehua Ma, Yuansheng Ni, Haoran Que, Qiyao Wang, Zhoufutu Wen, Siwei Wu, Tianshun Xing, 许明, Zhenzhu Yang, Zekun Moore Wang, Junting Zhou, Yuelin Bai, Xingyuan Bu, Chenglin Cai, Liang Chen, Yifan Chen, Cheng Chengtuo, Tianhao Cheng, Keyi Ding, Siming Huang, Huang Yun, Yaoru Li, Yizhe Li, Zhaoqun Li, Tianhao Liang, Chengdong Lin, Hongquan Lin, Yinghao Ma, Z.Y. Peng, Zifan Peng, Qige Qi, Shi Qiu, Xingwei Qu, Shanghaoran Quan, Yizhou Tan, Zili Wang, 王晨清, Hao Wang, Yiya Wang, Yubo Wang, Jiajun Xu, Kexin Yang, Ruibin Yuan, Yuanhao Yue, Tianyang Zhan, Chun Zhang, Jinyang Zhang, Xiyue Zhang, Owen Xingjian Zhang, Yue Zhang, Yongchi Zhao, Xiangyu Zheng, ChenghuaZhong, Yang Gao, Zhoujun Li, Dayiheng Liu, Qian Liu, Tianyu Liu, Shiwen Ni, Junran Peng, Yujia Qin, Wenbo Su, Guoyin Wang, Shi Wang, Jian Yang, Min Yang, Meng Cao, Xiang Yue, Zhaoxiang Zhang, Wangchunshu Zhou, Jiaheng Liu, Qunshu Lin, Wenhao Huang, Ge Zhang

ICML 2025 Underestimated Privacy Risks for Minority Populations in Large Language Model Unlearning Rongzhe Wei, Mufei Li, Mohsen Ghassemi, Eleonora Kreacic, Yifan Li, Xiang Yue, Bo Li, Vamsi K. Potluru, Pan Li, Eli Chien

ICML 2024 Data Engineering for Scaling Language Models to 128k Context Yao Fu, Rameswar Panda, Xinyao Niu, Xiang Yue, Hannaneh Hajishirzi, Yoon Kim, Hao Peng

ICMLW 2024 Grokked Transformers Are Implicit Reasoners: A Mechanistic Journey to the Edge of Generalization Boshi Wang, Xiang Yue, Yu Su, Huan Sun

NeurIPS 2024 Grokking of Implicit Reasoning in Transformers: A Mechanistic Journey to the Edge of Generalization Boshi Wang, Xiang Yue, Yu Su, Huan Sun

NeurIPS 2024 MAmmoTH2: Scaling Instructions from the Web Xiang Yue, Tuney Zheng, Ge Zhang, Wenhu Chen

ICLR 2024 MAmmoTH: Building Math Generalist Models Through Hybrid Instruction Tuning Xiang Yue, Xingwei Qu, Ge Zhang, Yao Fu, Wenhao Huang, Huan Sun, Yu Su, Wenhu Chen

NeurIPS 2024 MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark Yubo Wang, Xueguang Ma, Ge Zhang, Yuansheng Ni, Abhranil Chandra, Shiguang Guo, Weiming Ren, Aaran Arulraj, Xuan He, Ziyan Jiang, Tianle Li, Max Ku, Kai Wang, Alex Zhuang, Rongqi Fan, Xiang Yue, Wenhu Chen

CVPR 2024 MMMU: A Massive Multi-Discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI Xiang Yue, Yuansheng Ni, Kai Zhang, Tianyu Zheng, Ruoqi Liu, Ge Zhang, Samuel Stevens, Dongfu Jiang, Weiming Ren, Yuxuan Sun, Cong Wei, Botao Yu, Ruibin Yuan, Renliang Sun, Ming Yin, Boyuan Zheng, Zhenzhu Yang, Yibo Liu, Wenhao Huang, Huan Sun, Yu Su, Wenhu Chen

NeurIPS 2024 MixEval: Deriving Wisdom of the Crowd from LLM Benchmark Mixtures Jinjie Ni, Fuzhao Xue, Xiang Yue, Yuntian Deng, Mahir Shah, Kabir Jain, Graham Neubig, Yang You

NeurIPSW 2024 Worse than Random? an Embarrassingly Simple Probing Evaluation of Large Multimodal Models in Medical VQA Qianqi Yan, Xuehai He, Xiang Yue, Xin Eric Wang

IJCAI 2020 Towards Making the Most of Context in Neural Machine Translation Zaixiang Zheng, Xiang Yue, Shujian Huang, Jiajun Chen, Alexandra Birch