Guan, Zihan

8 publications

ICLR 2026 Alignment-Weighted DPO: A Principled Reasoning Approach to Improve Safety Alignment Mengxuan Hu, Vivek Datla, Anoop Kumar, Zihan Guan, Sheng Li, Alfy Samuel, Daben Liu

ICML 2025 BalancEdit: Dynamically Balancing the Generality-Locality Trade-Off in Multi-Modal Model Editing Dongliang Guo, Mengxuan Hu, Zihan Guan, Thomas Hartvigsen, Sheng Li

ICML 2025 Benign Samples Matter! Fine-Tuning on Outlier Benign Samples Severely Breaks Safety Zihan Guan, Mengxuan Hu, Ronghang Zhu, Sheng Li, Anil Vullikanti

ICLR 2025 Mind Control Through Causal Inference: Predicting Clean Images from Poisoned Data Mengxuan Hu, Zihan Guan, Yi Zeng, Junfeng Guo, Zhongliang Zhou, Jielu Zhang, Ruoxi Jia, Anil Kumar Vullikanti, Sheng Li

AAAI 2025 UFID: A Unified Framework for Black-Box Input-Level Backdoor Detection on Diffusion Models Zihan Guan, Mengxuan Hu, Sheng Li, Anil Kumar S. Vullikanti

TMLR 2024 BBCaL: Black-Box Backdoor Detection Under the Causality Lens Mengxuan Hu, Zihan Guan, Junfeng Guo, Zhongliang Zhou, Jielu Zhang, Sheng Li

AAAI 2024 BadSAM: Exploring Security Vulnerabilities of SAM via Backdoor Attacks (Student Abstract) Zihan Guan, Mengxuan Hu, Zhongliang Zhou, Jielu Zhang, Sheng Li, Ninghao Liu

NeurIPS 2023 Black-Box Backdoor Defense via Zero-Shot Image Purification Yucheng Shi, Mengnan Du, Xuansheng Wu, Zihan Guan, Jin Sun, Ninghao Liu