Xiong, Zidi

10 publications

ICML 2025 GuardAgent: Safeguard LLM Agents via Knowledge-Enabled Reasoning Zhen Xiang, Linzhi Zheng, Yanjie Li, Junyuan Hong, Qinbin Li, Han Xie, Jiawei Zhang, Zidi Xiong, Chulin Xie, Carl Yang, Dawn Song, Bo Li

ICLR 2025 MMDT: Decoding the Trustworthiness and Safety of Multimodal Foundation Models Chejian Xu, Jiawei Zhang, Zhaorun Chen, Chulin Xie, Mintong Kang, Yujin Potter, Zhun Wang, Zhuowen Yuan, Alexander Xiong, Zidi Xiong, Chenhui Zhang, Lingzhi Yuan, Yi Zeng, Peiyang Xu, Chengquan Guo, Andy Zhou, Jeffrey Ziwei Tan, Xuandong Zhao, Francesco Pinto, Zhen Xiang, Yu Gai, Zinan Lin, Dan Hendrycks, Bo Li, Dawn Song

NeurIPS 2025 Measuring the Faithfulness of Thinking Drafts in Large Reasoning Models Zidi Xiong, Shan Chen, Zhenting Qi, Himabindu Lakkaraju

ICLR 2024 BadChain: Backdoor Chain-of-Thought Prompting for Large Language Models Zhen Xiang, Fengqing Jiang, Zidi Xiong, Bhaskar Ramasubramanian, Radha Poovendran, Bo Li

ICML 2024 RigorLLM: Resilient Guardrails for Large Language Models Against Undesired Content Zhuowen Yuan, Zidi Xiong, Yi Zeng, Ning Yu, Ruoxi Jia, Dawn Song, Bo Li

NeurIPSW 2023 BadChain: Backdoor Chain-of-Thought Prompting for Large Language Models Zhen Xiang, Fengqing Jiang, Zidi Xiong, Bhaskar Ramasubramanian, Radha Poovendran, Bo Li

NeurIPS 2023 CBD: A Certified Backdoor Detector Based on Local Dominant Probability Zhen J. Xiang, Zidi Xiong, Bo Li

NeurIPS 2023 DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT Models Boxin Wang, Weixin Chen, Hengzhi Pei, Chulin Xie, Mintong Kang, Chenhui Zhang, Chejian Xu, Zidi Xiong, Ritik Dutta, Rylan Schaeffer, Sang Truong, Simran Arora, Mantas Mazeika, Dan Hendrycks, Zinan Lin, Yu Cheng, Sanmi Koyejo, Dawn Song, Bo Li

ICLRW 2023 Rethinking the Necessity of Labels in Backdoor Removal Zidi Xiong, Dongxian Wu, Yifei Wang, Yisen Wang

ICML 2023 UMD: Unsupervised Model Detection for X2X Backdoor Attacks Zhen Xiang, Zidi Xiong, Bo Li