Zhang, Kaiyuan

15 publications

ICML 2025 ProSec: Fortifying Code LLMs with Proactive Security Alignment Xiangzhe Xu, Zian Su, Jinyao Guo, Kaiyuan Zhang, Zhenting Wang, Xiangyu Zhang

NeurIPS 2025 TAI3: Testing Agent Integrity in Interpreting User Intent Shiwei Feng, Xiangzhe Xu, Xuan Chen, Kaiyuan Zhang, Syed Yusuf Ahmed, Zian Su, Mingwei Zheng, Xiangyu Zhang

NeurIPS 2024 BiScope: AI-Generated Text Detection by Checking Memorization of Preceding Tokens Hanxi Guo, Siyuan Cheng, Xiaolong Jin, Zhuo Zhang, Kaiyuan Zhang, Guanhong Tao, Guangyu Shen, Xiangyu Zhang

AAAI 2024 Elijah: Eliminating Backdoors Injected in Diffusion Models via Distribution Shift Shengwei An, Sheng-Yen Chou, Kaiyuan Zhang, Qiuling Xu, Guanhong Tao, Guangyu Shen, Siyuan Cheng, Shiqing Ma, Pin-Yu Chen, Tsung-Yi Ho, Xiangyu Zhang

CVPR 2024 LOTUS: Evasive and Resilient Backdoor Attacks Through Sub-Partitioning Siyuan Cheng, Guanhong Tao, Yingqi Liu, Guangyu Shen, Shengwei An, Shiwei Feng, Xiangzhe Xu, Kaiyuan Zhang, Shiqing Ma, Xiangyu Zhang

NeurIPSW 2024 MultiVerse: Exposing Large Language Model Alignment Problems in Diverse Worlds Xiaolong Jin, Zhuo Zhang, Guangyu Shen, Hanxi Guo, Kaiyuan Zhang, Siyuan Cheng, Xiangyu Zhang

NeurIPSW 2024 SkewAct: Red Teaming Large Language Models via Activation-Skewed Adversarial Prompt Optimization Hanxi Guo, Siyuan Cheng, Guanhong Tao, Guangyu Shen, Zhuo Zhang, Shengwei An, Kaiyuan Zhang, Xiangyu Zhang

NeurIPS 2024 Source Code Foundation Models Are Transferable Binary Analysis Knowledge Bases Zian Su, Xiangzhe Xu, Ziyang Huang, Kaiyuan Zhang, Xiangyu Zhang

ECCV 2024 UNIT: Backdoor Mitigation via Automated Neural Distribution Tightening Siyuan Cheng, Guangyu Shen, Kaiyuan Zhang, Guanhong Tao, Shengwei An, Hanxi Guo, Shiqing Ma, Xiangyu Zhang

NeurIPSW 2023 $d^3$: Detoxing Deep Learning Dataset Lu Yan, Siyuan Cheng, Guangyu Shen, Guanhong Tao, Xuan Chen, Kaiyuan Zhang, Yunshu Mao, Xiangyu Zhang

CVPR 2023 Detecting Backdoors in Pre-Trained Encoders Shiwei Feng, Guanhong Tao, Siyuan Cheng, Guangyu Shen, Xiangzhe Xu, Yingqi Liu, Kaiyuan Zhang, Shiqing Ma, Xiangyu Zhang

NeurIPS 2023 Django: Detecting Trojans in Object Detection Models via Gaussian Focus Calibration Guangyu Shen, Siyuan Cheng, Guanhong Tao, Kaiyuan Zhang, Yingqi Liu, Shengwei An, Shiqing Ma, Xiangyu Zhang

ICLR 2023 FLIP: A Provable Defense Framework for Backdoor Mitigation in Federated Learning Kaiyuan Zhang, Guanhong Tao, Qiuling Xu, Siyuan Cheng, Shengwei An, Yingqi Liu, Shiwei Feng, Guangyu Shen, Pin-Yu Chen, Shiqing Ma, Xiangyu Zhang

NeurIPSW 2023 How to Remove Backdoors in Diffusion Models? Shengwei An, Sheng-Yen Chou, Kaiyuan Zhang, Qiuling Xu, Guanhong Tao, Guangyu Shen, Siyuan Cheng, Shiqing Ma, Pin-Yu Chen, Tsung-Yi Ho, Xiangyu Zhang

NeurIPS 2023 ParaFuzz: An Interpretability-Driven Technique for Detecting Poisoned Samples in NLP Lu Yan, Zhuo Zhang, Guanhong Tao, Kaiyuan Zhang, Xuan Chen, Guangyu Shen, Xiangyu Zhang