Zhao, Xuandong

33 publications

ICLR 2026 AgentSynth: Scalable Task Generation for Generalist Computer-Use Agents Jingxu Xie, Dylan Xu, Xuandong Zhao, Dawn Song

ICLR 2026 In-Context Watermarks for Large Language Models Yepeng Liu, Xuandong Zhao, Christopher Kruegel, Dawn Song, Yuheng Bu

ICLR 2026 Learning to Reason Without External Rewards Xuandong Zhao, Zhewei Kang, Aosong Feng, Sergey Levine, Dawn Song

ICLR 2026 Terminal-Bench: Benchmarking Agents on Hard, Realistic Tasks in Command Line Interfaces Mike A Merrill, Alexander Glenn Shaw, Nicholas Carlini, Boxuan Li, Harsh Raj, Ivan Bercovich, Lin Shi, Jeong Yeon Shin, Thomas Walshe, E. Kelly Buchanan, Junhong Shen, Guanghao Ye, Haowei Lin, Jason Poulos, Maoyu Wang, Marianna Nezhurina, Di Lu, Orfeas Menis Mastromichalakis, Zhiwei Xu, Zizhao Chen, Yue Liu, Robert Zhang, Leon Liangyu Chen, Anurag Kashyap, Jan-Lucas Uslu, Jeffrey Li, Jianbo Wu, Minghao Yan, Song Bian, Vedang Sharma, Ke Sun, Steven Dillmann, Akshay Anand, Andrew Lanpouthakoun, Bardia Koopah, Changran Hu, Etash Kumar Guha, Gabriel H. S. Dreiman, Jiacheng Zhu, Karl Krauth, Li Zhong, Niklas Muennighoff, Robert Kwesi Amanfu, Shangyin Tan, Shreyas Pimpalgaonkar, Tushar Aggarwal, Xiangning Lin, Xin Lan, Xuandong Zhao, Yiqing Liang, Yuanli Wang, Zilong Wang, Changzhi Zhou, David Heineman, Hange Liu, Harsh Trivedi, John Yang, Junhong Lin, Manish Shetty, Michael Yang, Nabil Omi, Negin Raoof, Shanda Li, Terry Yue Zhuo, Wuwei Lin, Yiwei Dai, Yuxin Wang, Wenhao Chai, Shang Zhou, Dariush Wahdany, Ziyu She, Jiaming Hu, Zhikang Dong, Yuxuan Zhu, Sasha Cui, Ahson Saiyed, Arinbjörn Kolbeinsson, Christopher Michael Rytting, Ryan Marten, Yixin Wang, Jenia Jitsev, Alex Dimakis, Andy Konwinski, Ludwig Schmidt

NeurIPS 2025 A Technical Report on “Erasing the Invisible”: The 2024 NeurIPS Competition on Stress Testing Image Watermarks Mucong Ding, Bang An, Tahseen Rabbani, Chenghao Deng, Anirudh Satheesh, Souradip Chakraborty, Mehrdad Saberi, Yuxin Wen, Kyle Rui Sang, Aakriti Agrawal, Xuandong Zhao, Mo Zhou, Mary-Anne Hartley, Lei Li, Yu-Xiang Wang, Vishal M. Patel, Soheil Feizi, Tom Goldstein, Furong Huang

ICLR 2025 An Undetectable Watermark for Generative Image Models Sam Gunn, Xuandong Zhao, Dawn Song

AAAI 2025 CodeHalu: Investigating Code Hallucinations in LLMs via Execution-Based Verification Yuchen Tian, Weixiang Yan, Qian Yang, Xuandong Zhao, Qian Chen, Wen Wang, Ziyang Luo, Lei Ma, Dawn Song

ICML 2025 DIS-CO: Discovering Copyrighted Content in VLMs Training Data André V. Duarte, Xuandong Zhao, Arlindo L. Oliveira, Lei Li

ICML 2025 Improving LLM Safety Alignment with Dual-Objective Optimization Xuandong Zhao, Will Cai, Tianneng Shi, David Huang, Licong Lin, Song Mei, Dawn Song

ICLR 2025 MMDT: Decoding the Trustworthiness and Safety of Multimodal Foundation Models Chejian Xu, Jiawei Zhang, Zhaorun Chen, Chulin Xie, Mintong Kang, Yujin Potter, Zhun Wang, Zhuowen Yuan, Alexander Xiong, Zidi Xiong, Chenhui Zhang, Lingzhi Yuan, Yi Zeng, Peiyang Xu, Chengquan Guo, Andy Zhou, Jeffrey Ziwei Tan, Xuandong Zhao, Francesco Pinto, Zhen Xiang, Yu Gai, Zinan Lin, Dan Hendrycks, Bo Li, Dawn Song

ICLR 2025 Multimodal Situational Safety Kaiwen Zhou, Chengzhi Liu, Xuandong Zhao, Anderson Compalas, Dawn Song, Xin Eric Wang

NeurIPS 2025 OVERT: A Benchmark for Over-Refusal Evaluation on Text-to-Image Models Ziheng Cheng, Yixiao Huang, Hui Xu, Somayeh Sojoudi, Xuandong Zhao, Dawn Song, Song Mei

ICLR 2025 Permute-and-Flip: An Optimally Stable and Watermarkable Decoder for LLMs Xuandong Zhao, Lei Li, Yu-Xiang Wang

NeurIPS 2025 Scalable Best-of-N Selection for Large Language Models via Self-Certainty Zhewei Kang, Xuandong Zhao, Dawn Song

ICML 2025 Weak-to-Strong Jailbreaking on Large Language Models Xuandong Zhao, Xianjun Yang, Tianyu Pang, Chao Du, Lei Li, Yu-Xiang Wang, William Yang Wang

NeurIPSW 2024 An Examination of AI-Generated Text Detectors Across Multiple Domains and Models Brian Tufts, Xuandong Zhao, Lei Li

NeurIPSW 2024 An Undetectable Watermark for Generative Image Models Sam Gunn, Xuandong Zhao, Dawn Song

NeurIPS 2024 Bileve: Securing Text Provenance in Large Language Models Against Spoofing with Bi-Level Signature Tong Zhou, Xuandong Zhao, Xiaolin Xu, Shaolei Ren

ICML 2024 DE-COP: Detecting Copyrighted Content in Language Models Training Data André Vicente Duarte, Xuandong Zhao, Arlindo L. Oliveira, Lei Li

NeurIPSW 2024 Efficiently Identifying Watermarked Segments in Mixed-Source Texts Xuandong Zhao, Chenwen Liao, Yu-Xiang Wang, Lei Li

DMLR 2024 Evaluating Durability: Benchmark Insights into Image and Text Watermarking Jielin Qiu, William Han, Xuandong Zhao, Shangbang Long, Christos Faloutsos, Lei Li

NeurIPS 2024 Invisible Image Watermarks Are Provably Removable Using Generative AI Xuandong Zhao, Kexun Zhang, Zihao Su, Saastha Vasan, Ilya Grishchenko, Christopher Kruegel, Giovanni Vigna, Yu-Xiang Wang, Lei Li

ICML 2024 Monitoring AI-Modified Content at Scale: A Case Study on the Impact of ChatGPT on AI Conference Peer Reviews Weixin Liang, Zachary Izzo, Yaohui Zhang, Haley Lepp, Hancheng Cao, Xuandong Zhao, Lingjiao Chen, Haotian Ye, Sheng Liu, Zhi Huang, Daniel Mcfarland, James Y. Zou

NeurIPSW 2024 Multimodal Situational Safety Kaiwen Zhou, Chengzhi Liu, Xuandong Zhao, Anderson Compalas, Xin Eric Wang

NeurIPSW 2024 Permute-and-Flip: An Optimally Stable and Watermarkable Decoder for LLMs Xuandong Zhao, Lei Li, Yu-Xiang Wang

ICLR 2024 Provable Robust Watermarking for AI-Generated Text Xuandong Zhao, Prabhanjan Vijendra Ananth, Lei Li, Yu-Xiang Wang

ICMLW 2024 Weak-to-Strong Jailbreaking on Large Language Models Xuandong Zhao, Xianjun Yang, Tianyu Pang, Chao Du, Lei Li, Yu-Xiang Wang, William Yang Wang

ICMLW 2023 Generative Autoencoders as Watermark Attackers: Analyses of Vulnerabilities and Threats Xuandong Zhao, Kexun Zhang, Yu-Xiang Wang, Lei Li

UAI 2023 Private Prediction Strikes Back! Private Kernelized Nearest Neighbors with Individual Rényi Filter Yuqing Zhu, Xuandong Zhao, Chuan Guo, Yu-Xiang Wang

ICML 2023 Protecting Language Generation Models via Invisible Watermarking Xuandong Zhao, Yu-Xiang Wang, Lei Li

ICMLW 2023 Provable Robust Watermarking for AI-Generated Text Xuandong Zhao, Prabhanjan Vijendra Ananth, Lei Li, Yu-Xiang Wang

NeurIPSW 2023 Provable Robust Watermarking for AI-Generated Text Xuandong Zhao, Prabhanjan Vijendra Ananth, Lei Li, Yu-Xiang Wang

AISTATS 2021 An Optimal Reduction of TV-Denoising to Adaptive Online Learning Dheeraj Baby, Xuandong Zhao, Yu-Xiang Wang