Qin, Zeyu

13 publications

ICLRW 2025 Leveraging Reasoning with Guidelines to Elicit and Utilize Knowledge for Enhancing Safety Alignment Haoyu Wang, Zeyu Qin, Li Shen, Xueqian Wang, Minhao Cheng, Dacheng Tao

NeurIPS 2025 Lifelong Safety Alignment for Language Models Haoyu Wang, Yifei Zhao, Zeyu Qin, Chao Du, Min Lin, Xueqian Wang, Tianyu Pang

ICLR 2025 Preserving Diversity in Supervised Fine-Tuning of Large Language Models Ziniu Li, Congliang Chen, Tian Xu, Zeyu Qin, Jiancong Xiao, Zhi-Quan Luo, Ruoyu Sun

NeurIPS 2025 RoMa: A Robust Model Watermarking Scheme for Protecting IP in Diffusion Models Yingsha Xie, Rui Min, Zeyu Qin, Fei Ma, Li Shen, Fei Yu, Xiaochun Cao

ICML 2025 Safety Reasoning with Guidelines Haoyu Wang, Zeyu Qin, Li Shen, Xueqian Wang, Dacheng Tao, Minhao Cheng

NeurIPSW 2024 Entropic Distribution Matching for Supervised Fine-Tuning of LLMs: Less Overfitting and Better Diversity Ziniu Li, Congliang Chen, Tian Xu, Zeyu Qin, Jiancong Xiao, Ruoyu Sun, Zhi-Quan Luo

ICMLW 2024 Step-on-Feet Tuning: Scaling Self-Alignment of LLMs via Bootstrapping Haoyu Wang, Guozheng Ma, Ziqiao Meng, Zeyu Qin, Li Shen, Zhong Zhang, Bingzhe Wu, Liu Liu, Yatao Bian, Tingyang Xu, Xueqian Wang, Peilin Zhao

NeurIPS 2024 Uncovering, Explaining, and Mitigating the Superficial Safety of Backdoor Defense Rui Min, Zeyu Qin, Nevin L. Zhang, Li Shen, Minhao Cheng

NeurIPS 2023 Imitation Learning from Imperfection: Theoretical Justifications and Algorithms Ziniu Li, Tian Xu, Zeyu Qin, Yang Yu, Zhi-Quan Luo

ICMLW 2023 Improving Adversarial Training for Multiple Perturbations Through the Lens of Uniform Stability Jiancong Xiao, Zeyu Qin, Yanbo Fan, Baoyuan Wu, Jue Wang, Zhi-Quan Luo

NeurIPS 2023 Towards Stable Backdoor Purification Through Feature Shift Tuning Rui Min, Zeyu Qin, Li Shen, Minhao Cheng

NeurIPS 2022 Boosting the Transferability of Adversarial Attacks with Reverse Adversarial Perturbation Zeyu Qin, Yanbo Fan, Yi Liu, Li Shen, Yong Zhang, Jue Wang, Baoyuan Wu

NeurIPS 2021 Random Noise Defense Against Query-Based Black-Box Attacks Zeyu Qin, Yanbo Fan, Hongyuan Zha, Baoyuan Wu