Sun, Huan

32 publications

ICLR 2026 Agent Data Protocol: Unifying Datasets for Diverse, Effective Fine-Tuning of LLM Agents Yueqi Song, Ketan Ramaneti, Zaid Sheikh, Ziru Chen, Boyu Gou, Tianbao Xie, Yiheng Xu, Danyang Zhang, Apurva Gandhi, Fan Yang, Joseph Liu, Tianyue Ou, Zhihao Yuan, Frank F. Xu, Shuyan Zhou, Xingyao Wang, Xiang Yue, Tao Yu, Huan Sun, Yu Su, Graham Neubig

ICLR 2026 Holistic Agent Leaderboard: The Missing Infrastructure for AI Agent Evaluation Sayash Kapoor, Benedikt Stroebl, Peter Kirgis, Nitya Nadgir, Zachary S Siegel, Boyi Wei, Tianci Xue, Ziru Chen, Felix Chen, Saiteja Utpala, Franck Ndzomga, Dheeraj Oruganty, Sophie Luskin, Kangheng Liu, Botao Yu, Amit Arora, Dongyoon Hahm, Harsh Trivedi, Huan Sun, Juyong Lee, Tengjun Jin, Yifan Mai, Yifei Zhou, Yuxuan Zhu, Rishi Bommasani, Daniel Kang, Dawn Song, Peter Henderson, Yu Su, Percy Liang, Arvind Narayanan

ICLR 2026 Improving Code Localization with Repository Memory Boshi Wang, Weijian Xu, Yunsheng Li, Xuemei Gao, Yujia Xie, Huan Sun, Dongdong Chen

ICLR 2026 Is the Reversal Curse a Binding Problem? Uncovering Limitations of Transformers from a Basic Generalization Failure Boshi Wang, Huan Sun

ICLR 2026 REMem: Reasoning with Episodic Memory in Language Agent Yiheng Shu, Saisri Padmaja Jonnalagedda, Xiang Gao, Bernal Jiménez Gutiérrez, Weijian Qi, Kamalika Das, Huan Sun, Yu Su

ICLR 2026 RedTeamCUA: Realistic Adversarial Testing of Computer-Use Agents in Hybrid Web-OS Environments Zeyi Liao, Jaylen Jones, Linxi Jiang, Yuting Ning, Eric Fosler-Lussier, Yu Su, Zhiqiang Lin, Huan Sun

ICLR 2026 SciNav: A General Agent Framework for Scientific Coding Tasks Tianshu Zhang, Huan Sun

ICLR 2026 TrustGen: A Platform of Dynamic Benchmarking on the Trustworthiness of Generative Foundation Models Yue Huang, Chujie Gao, Siyuan Wu, Haoran Wang, Xiangqi Wang, Jiayi Ye, Yujun Zhou, Yanbo Wang, Jiawen Shi, Qihui Zhang, Han Bao, Zhaoyi Liu, Yuan Li, Tianrui Guan, Peiran Wang, Haomin Zhuang, Dongping Chen, Kehan Guo, Andy Zou, Bryan Hooi, Caiming Xiong, Elias Stengel-Eskin, Hongyang Zhang, Hongzhi Yin, Huan Zhang, Huaxiu Yao, Jieyu Zhang, Jaehong Yoon, Kai Shu, Ranjay Krishna, Swabha Swayamdipta, Weijia Shi, Xiang Li, Yuexing Hao, Zhihao Jia, Zhize Li, Xiuying Chen, Zhengzhong Tu, Xiyang Hu, Tianyi Zhou, Jieyu Zhao, Lichao Sun, Furong Huang, Or Cohen-Sasson, Prasanna Sattigeri, Anka Reuel, Max Lamparth, Yue Zhao, Nouha Dziri, Yu Su, Huan Sun, Heng Ji, Chaowei Xiao, Mohit Bansal, Nitesh V Chawla, Jian Pei, Jianfeng Gao, Michael Backes, Philip S. Yu, Neil Zhenqiang Gong, Pin-Yu Chen, Bo Li, Dawn Song, Xiangliang Zhang

ICML 2025 AdvAgent: Controllable Blackbox Red-Teaming on Web Agents Chejian Xu, Mintong Kang, Jiawei Zhang, Zeyi Liao, Lingbo Mo, Mengqi Yuan, Huan Sun, Bo Li

ICLR 2025 AutoDAN-Turbo: A Lifelong Agent for Strategy Self-Exploration to Jailbreak LLMs Xiaogeng Liu, Peiran Li, G. Edward Suh, Yevgeniy Vorobeychik, Zhuoqing Mao, Somesh Jha, Patrick McDaniel, Huan Sun, Bo Li, Chaowei Xiao

ICLR 2025 Eia: Environmental Injection Attack on Generalist Web Agents for Privacy Leakage Zeyi Liao, Lingbo Mo, Chejian Xu, Mintong Kang, Jiawei Zhang, Chaowei Xiao, Yuan Tian, Bo Li, Huan Sun

TMLR 2025 Is Your LLM Secretly a World Model of the Internet? Model-Based Planning for Web Agents Yu Gu, Kai Zhang, Yuting Ning, Boyuan Zheng, Boyu Gou, Tianci Xue, Cheng Chang, Sanjari Srivastava, Yanan Xie, Peng Qi, Huan Sun, Yu Su

NeurIPS 2025 Mind2Web 2: Evaluating Agentic Search with Agent-as-a-Judge Boyu Gou, Zanming Huang, Yuting Ning, Yu Gu, Michael Lin, Weijian Qi, Andrei Kopanev, Botao Yu, Bernal Jimenez Gutierrez, Yiheng Shu, Chan Hee Song, Jiaman Wu, Shijie Chen, Hanane Nour Moussa, Tianshu Zhang, Jian Xie, Yifei Li, Tianci Xue, Zeyi Liao, Kai Zhang, Boyuan Zheng, Zhaowei Cai, Viktor Rozgic, Morteza Ziyadi, Huan Sun, Yu Su

ICLR 2025 Navigating the Digital World as Humans Do: Universal Visual Grounding for GUI Agents Boyu Gou, Ruohan Wang, Boyuan Zheng, Yanan Xie, Cheng Chang, Yiheng Shu, Huan Sun, Yu Su

ICLR 2025 ScienceAgentBench: Toward Rigorous Assessment of Language Agents for Data-Driven Scientific Discovery Ziru Chen, Shijie Chen, Yuting Ning, Qianheng Zhang, Boshi Wang, Botao Yu, Yifei Li, Zeyi Liao, Chen Wei, Zitong Lu, Vishal Dey, Mingyi Xue, Frazier N. Baker, Benjamin Burns, Daniel Adu-Ampratwum, Xuhui Huang, Xia Ning, Song Gao, Yu Su, Huan Sun

ICLR 2024 AgentBench: Evaluating LLMs as Agents Xiao Liu, Hao Yu, Hanchen Zhang, Yifan Xu, Xuanyu Lei, Hanyu Lai, Yu Gu, Hangliang Ding, Kaiwen Men, Kejuan Yang, Shudan Zhang, Xiang Deng, Aohan Zeng, Zhengxiao Du, Chenhui Zhang, Sheng Shen, Tianjun Zhang, Yu Su, Huan Sun, Minlie Huang, Yuxiao Dong, Jie Tang

ICML 2024 GPT-4V(ision) Is a Generalist Web Agent, if Grounded Boyuan Zheng, Boyu Gou, Jihyung Kil, Huan Sun, Yu Su

ICLRW 2024 GPT-4V(ision) Is a Generalist Web Agent, if Grounded Boyuan Zheng, Boyu Gou, Jihyung Kil, Huan Sun, Yu Su

ICMLW 2024 Grokked Transformers Are Implicit Reasoners: A Mechanistic Journey to the Edge of Generalization Boshi Wang, Xiang Yue, Yu Su, Huan Sun

NeurIPS 2024 Grokking of Implicit Reasoning in Transformers: A Mechanistic Journey to the Edge of Generalization Boshi Wang, Xiang Yue, Yu Su, Huan Sun

ICLR 2024 MAmmoTH: Building Math Generalist Models Through Hybrid Instruction Tuning Xiang Yue, Xingwei Qu, Ge Zhang, Yao Fu, Wenhao Huang, Huan Sun, Yu Su, Wenhu Chen

CVPR 2024 MMMU: A Massive Multi-Discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI Xiang Yue, Yuansheng Ni, Kai Zhang, Tianyu Zheng, Ruoqi Liu, Ge Zhang, Samuel Stevens, Dongfu Jiang, Weiming Ren, Yuxuan Sun, Cong Wei, Botao Yu, Ruibin Yuan, Renliang Sun, Ming Yin, Boyuan Zheng, Zhenzhu Yang, Yibo Liu, Wenhao Huang, Huan Sun, Yu Su, Wenhu Chen

ICML 2024 eCeLLM: Generalizing Large Language Models for E-Commerce from Large-Scale, High-Quality Instruction Data Bo Peng, Xinyi Ling, Ziru Chen, Huan Sun, Xia Ning

NeurIPS 2023 MagicBrush: A Manually Annotated Dataset for Instruction-Guided Image Editing Kai Zhang, Lingbo Mo, Wenhu Chen, Huan Sun, Yu Su

NeurIPS 2023 Mind2Web: Towards a Generalist Agent for the Web Xiang Deng, Yu Gu, Boyuan Zheng, Shijie Chen, Sam Stevens, Boshi Wang, Huan Sun, Yu Su

ICLR 2023 Multitask Prompt Tuning Enables Parameter-Efficient Transfer Learning Zhen Wang, Rameswar Panda, Leonid Karlinsky, Rogerio Feris, Huan Sun, Yoon Kim

ICLRW 2023 Towards Understanding Chain-of-Thought Prompting: An Empirical Study of What Matters Boshi Wang, Sewon Min, Xiang Deng, Jiaming Shen, You Wu, Luke Zettlemoyer, Huan Sun

ICLR 2021 Learning Structural Edits via Incremental Tree Transformations Ziyu Yao, Frank F. Xu, Pengcheng Yin, Huan Sun, Graham Neubig

IJCAI 2020 EndCold: An End-to-End Framework for Cold Question Routing in Community Question Answering Services Jiankai Sun, Jie Zhao, Huan Sun, Srinivasan Parthasarathy

AAAI 2020 Question-Driven Purchasing Propensity Analysis for Recommendation Long Chen, Ziyu Guan, Qibin Xu, Qiong Zhang, Huan Sun, Guangyue Lu, Deng Cai

AAAI 2019 Answer Identification from Product Reviews for User Questions by Multi-Task Attentive Networks Long Chen, Ziyu Guan, Wei Zhao, Wanqing Zhao, Xiaopeng Wang, Zhou Zhao, Huan Sun

AAAI 2019 Interactive Semantic Parsing for If-Then Recipes via Hierarchical Reinforcement Learning Ziyu Yao, Xiujun Li, Jianfeng Gao, Brian M. Sadler, Huan Sun