Chiang, Wei-Lin

18 publications

ICLR 2026 Computer Agent Arena: Toward Human-Centric Evaluation and Analysis of Computer-Use Agents Bowen Wang, Xinyuan Wang, Jiaqi Deng, Tianbao Xie, Ryan Li, Yanzhe Zhang, Junli Wang, Dunjie Lu, Zicheng Gong, Gavin Li, Toh Jing Hua, Wei-Lin Chiang, Ion Stoica, Diyi Yang, Yu Su, Yi Zhang, Zhiguo Wang, Victor Zhong, Tao Yu

ICLR 2026 EDIT-Bench: Evaluating LLM Abilities to Perform Real-World Instructed Code Edits Wayne Chi, Valerie Chen, Ryan Shar, Aditya Mittal, Jenny Liang, Wei-Lin Chiang, Anastasios Nikolas Angelopoulos, Ion Stoica, Graham Neubig, Ameet Talwalkar, Chris Donahue

ICLR 2026 Search Arena: Analyzing Search-Augmented LLMs Mihran Miroyan, Tsung-Han Wu, Logan King, Tianle Li, Jiayi Pan, Xinyan Hu, Wei-Lin Chiang, Anastasios Nikolas Angelopoulos, Trevor Darrell, Narges Norouzi, Joseph E. Gonzalez

ICML 2025 Copilot Arena: A Platform for Code LLM Evaluation in the Wild Wayne Chi, Valerie Chen, Anastasios Nikolas Angelopoulos, Wei-Lin Chiang, Aditya Mittal, Naman Jain, Tianjun Zhang, Ion Stoica, Chris Donahue, Ameet Talwalkar

ICML 2025 Exploring and Mitigating Adversarial Manipulation of Voting-Based Leaderboards Yangsibo Huang, Milad Nasr, Anastasios Nikolas Angelopoulos, Nicholas Carlini, Wei-Lin Chiang, Christopher A. Choquette-Choo, Daphne Ippolito, Matthew Jagielski, Katherine Lee, Ken Liu, Ion Stoica, Florian Tramèr, Chiyuan Zhang

ICML 2025 From Crowdsourced Data to High-Quality Benchmarks: Arena-Hard and Benchbuilder Pipeline Tianle Li, Wei-Lin Chiang, Evan Frick, Lisa Dunlap, Tianhao Wu, Banghua Zhu, Joseph E. Gonzalez, Ion Stoica

ICLR 2025 How to Evaluate Reward Models for RLHF Evan Frick, Tianle Li, Connor Chen, Wei-Lin Chiang, Anastasios Nikolas Angelopoulos, Jiantao Jiao, Banghua Zhu, Joseph E. Gonzalez, Ion Stoica

ICML 2025 OR-Bench: An Over-Refusal Benchmark for Large Language Models Justin Cui, Wei-Lin Chiang, Ion Stoica, Cho-Jui Hsieh

ICML 2025 Prompt-to-Leaderboard: Prompt-Adaptive LLM Evaluations Evan Frick, Connor Chen, Joseph Tennyson, Tianle Li, Wei-Lin Chiang, Anastasios Nikolas Angelopoulos, Ion Stoica

ICLR 2025 RouteLLM: Learning to Route LLMs from Preference Data Isaac Ong, Amjad Almahairi, Vincent Wu, Wei-Lin Chiang, Tianhao Wu, Joseph E. Gonzalez, M Waleed Kadous, Ion Stoica

CVPR 2025 VisionArena: 230k Real World User-VLM Conversations with Preference Labels Christopher Chou, Lisa Dunlap, Koki Mashita, Krishna Mandal, Trevor Darrell, Ion Stoica, Joseph E. Gonzalez, Wei-Lin Chiang

ICML 2024 Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference Wei-Lin Chiang, Lianmin Zheng, Ying Sheng, Anastasios Nikolas Angelopoulos, Tianle Li, Dacheng Li, Banghua Zhu, Hao Zhang, Michael Jordan, Joseph E. Gonzalez, Ion Stoica

ICLR 2024 LLM-Assisted Code Cleaning for Training Accurate Code Generators Naman Jain, Tianjun Zhang, Wei-Lin Chiang, Joseph E. Gonzalez, Koushik Sen, Ion Stoica

ICLR 2024 LMSYS-Chat-1m: A Large-Scale Real-World LLM Conversation Dataset Lianmin Zheng, Wei-Lin Chiang, Ying Sheng, Tianle Li, Siyuan Zhuang, Zhanghao Wu, Yonghao Zhuang, Zhuohan Li, Zi Lin, Eric Xing, Joseph E. Gonzalez, Ion Stoica, Hao Zhang

NeurIPSW 2023 Improving Code Style for Accurate Code Generation Naman Jain, Tianjun Zhang, Wei-Lin Chiang, Joseph E. Gonzalez, Koushik Sen, Ion Stoica

NeurIPS 2023 Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena Lianmin Zheng, Wei-Lin Chiang, Ying Sheng, Siyuan Zhuang, Zhanghao Wu, Yonghao Zhuang, Zi Lin, Zhuohan Li, Dacheng Li, Eric P. Xing, Hao Zhang, Joseph E Gonzalez, Ion Stoica

ICML 2020 Manifold Identification for Ultimately Communication-Efficient Distributed Optimization Yu-Sheng Li, Wei-Lin Chiang, Ching-Pei Lee

ACML 2018 Preconditioned Conjugate Gradient Methods in Truncated Newton Frameworks for Large-Scale Linear Classification Chih-Yang Hsia, Wei-Lin Chiang, Chih-Jen Lin