Zhao, Xuandong

29 publications

NeurIPS 2025 A Technical Report on “Erasing the Invisible”: The 2024 NeurIPS Competition on Stress Testing Image Watermarks Mucong Ding, Bang An, Tahseen Rabbani, Chenghao Deng, Anirudh Satheesh, Souradip Chakraborty, Mehrdad Saberi, Yuxin Wen, Kyle Rui Sang, Aakriti Agrawal, Xuandong Zhao, Mo Zhou, Mary-Anne Hartley, Lei Li, Yu-Xiang Wang, Vishal M. Patel, Soheil Feizi, Tom Goldstein, Furong Huang

ICLR 2025 An Undetectable Watermark for Generative Image Models Sam Gunn, Xuandong Zhao, Dawn Song

AAAI 2025 CodeHalu: Investigating Code Hallucinations in LLMs via Execution-Based Verification Yuchen Tian, Weixiang Yan, Qian Yang, Xuandong Zhao, Qian Chen, Wen Wang, Ziyang Luo, Lei Ma, Dawn Song

ICML 2025 DIS-CO: Discovering Copyrighted Content in VLMs Training Data André V. Duarte, Xuandong Zhao, Arlindo L. Oliveira, Lei Li

ICML 2025 Improving LLM Safety Alignment with Dual-Objective Optimization Xuandong Zhao, Will Cai, Tianneng Shi, David Huang, Licong Lin, Song Mei, Dawn Song

ICLR 2025 MMDT: Decoding the Trustworthiness and Safety of Multimodal Foundation Models Chejian Xu, Jiawei Zhang, Zhaorun Chen, Chulin Xie, Mintong Kang, Yujin Potter, Zhun Wang, Zhuowen Yuan, Alexander Xiong, Zidi Xiong, Chenhui Zhang, Lingzhi Yuan, Yi Zeng, Peiyang Xu, Chengquan Guo, Andy Zhou, Jeffrey Ziwei Tan, Xuandong Zhao, Francesco Pinto, Zhen Xiang, Yu Gai, Zinan Lin, Dan Hendrycks, Bo Li, Dawn Song

ICLR 2025 Multimodal Situational Safety Kaiwen Zhou, Chengzhi Liu, Xuandong Zhao, Anderson Compalas, Dawn Song, Xin Eric Wang

NeurIPS 2025 OVERT: A Benchmark for Over-Refusal Evaluation on Text-to-Image Models Ziheng Cheng, Yixiao Huang, Hui Xu, Somayeh Sojoudi, Xuandong Zhao, Dawn Song, Song Mei

ICLR 2025 Permute-and-Flip: An Optimally Stable and Watermarkable Decoder for LLMs Xuandong Zhao, Lei Li, Yu-Xiang Wang

NeurIPS 2025 Scalable Best-of-N Selection for Large Language Models via Self-Certainty Zhewei Kang, Xuandong Zhao, Dawn Song

ICML 2025 Weak-to-Strong Jailbreaking on Large Language Models Xuandong Zhao, Xianjun Yang, Tianyu Pang, Chao Du, Lei Li, Yu-Xiang Wang, William Yang Wang

NeurIPSW 2024 An Examination of AI-Generated Text Detectors Across Multiple Domains and Models Brian Tufts, Xuandong Zhao, Lei Li

NeurIPSW 2024 An Undetectable Watermark for Generative Image Models Sam Gunn, Xuandong Zhao, Dawn Song

NeurIPS 2024 Bileve: Securing Text Provenance in Large Language Models Against Spoofing with Bi-Level Signature Tong Zhou, Xuandong Zhao, Xiaolin Xu, Shaolei Ren

ICML 2024 DE-COP: Detecting Copyrighted Content in Language Models Training Data André Vicente Duarte, Xuandong Zhao, Arlindo L. Oliveira, Lei Li

NeurIPSW 2024 Efficiently Identifying Watermarked Segments in Mixed-Source Texts Xuandong Zhao, Chenwen Liao, Yu-Xiang Wang, Lei Li

DMLR 2024 Evaluating Durability: Benchmark Insights into Image and Text Watermarking Jielin Qiu, William Han, Xuandong Zhao, Shangbang Long, Christos Faloutsos, Lei Li

NeurIPS 2024 Invisible Image Watermarks Are Provably Removable Using Generative AI Xuandong Zhao, Kexun Zhang, Zihao Su, Saastha Vasan, Ilya Grishchenko, Christopher Kruegel, Giovanni Vigna, Yu-Xiang Wang, Lei Li

ICML 2024 Monitoring AI-Modified Content at Scale: A Case Study on the Impact of ChatGPT on AI Conference Peer Reviews Weixin Liang, Zachary Izzo, Yaohui Zhang, Haley Lepp, Hancheng Cao, Xuandong Zhao, Lingjiao Chen, Haotian Ye, Sheng Liu, Zhi Huang, Daniel Mcfarland, James Y. Zou

NeurIPSW 2024 Multimodal Situational Safety Kaiwen Zhou, Chengzhi Liu, Xuandong Zhao, Anderson Compalas, Xin Eric Wang

NeurIPSW 2024 Permute-and-Flip: An Optimally Stable and Watermarkable Decoder for LLMs Xuandong Zhao, Lei Li, Yu-Xiang Wang

ICLR 2024 Provable Robust Watermarking for AI-Generated Text Xuandong Zhao, Prabhanjan Vijendra Ananth, Lei Li, Yu-Xiang Wang

ICMLW 2024 Weak-to-Strong Jailbreaking on Large Language Models Xuandong Zhao, Xianjun Yang, Tianyu Pang, Chao Du, Lei Li, Yu-Xiang Wang, William Yang Wang

ICMLW 2023 Generative Autoencoders as Watermark Attackers: Analyses of Vulnerabilities and Threats Xuandong Zhao, Kexun Zhang, Yu-Xiang Wang, Lei Li

UAI 2023 Private Prediction Strikes Back! Private Kernelized Nearest Neighbors with Individual Rényi Filter Yuqing Zhu, Xuandong Zhao, Chuan Guo, Yu-Xiang Wang

ICML 2023 Protecting Language Generation Models via Invisible Watermarking Xuandong Zhao, Yu-Xiang Wang, Lei Li

ICMLW 2023 Provable Robust Watermarking for AI-Generated Text Xuandong Zhao, Prabhanjan Vijendra Ananth, Lei Li, Yu-Xiang Wang

NeurIPSW 2023 Provable Robust Watermarking for AI-Generated Text Xuandong Zhao, Prabhanjan Vijendra Ananth, Lei Li, Yu-Xiang Wang

AISTATS 2021 An Optimal Reduction of TV-Denoising to Adaptive Online Learning Dheeraj Baby, Xuandong Zhao, Yu-Xiang Wang