Wei, Zeming

13 publications

ICML 2025 Identifying and Understanding Cross-Class Features in Adversarial Training Zeming Wei, Steven Y. Guo, Yisen Wang

NeurIPS 2024 A Theoretical Understanding of Self-Correction Through In-Context Alignment Yifei Wang, Yuyang Wu, Zeming Wei, Stefanie Jegelka, Yisen Wang

ICMLW 2024 A Theoretical Understanding of Self-Correction Through In-Context Alignment Yifei Wang, Yuyang Wu, Zeming Wei, Stefanie Jegelka, Yisen Wang

ICMLW 2024 A Theoretical Understanding of Self-Correction Through In-Context Alignment Yifei Wang, Yuyang Wu, Zeming Wei, Stefanie Jegelka, Yisen Wang

NeurIPS 2024 Adversarial Representation Engineering: A General Model Editing Framework for Large Language Models Yihao Zhang, Zeming Wei, Jun Sun, Meng Sun

ICLRW 2024 Boosting Jailbreak Attack with Momentum Yihao Zhang, Zeming Wei

NeurIPSW 2024 DiffTextPure: Defending Large Language Models with Diffusion Purifiers Huanran Chen, Ziruo Wang, Yihan Yang, Shuo Zhang, Zeming Wei, Fusheng Jin, Yinpeng Dong

ICLRW 2024 Exploring the Robustness of In-Context Learning with Noisy Labels Chen Cheng, Xinzhi Yu, Haodong Wen, Jingsong Sun, Guanzhang Yue, Yihao Zhang, Zeming Wei

NeurIPS 2024 Fight Back Against Jailbreaking via Prompt Adversarial Tuning Yichuan Mo, Yuji Wang, Zeming Wei, Yisen Wang

ICML 2024 On the Duality Between Sharpness-Aware Minimization and Adversarial Training Yihao Zhang, Hangzhou He, Jingyu Zhu, Huanran Chen, Yifei Wang, Zeming Wei

NeurIPS 2023 Architecture Matters: Uncovering Implicit Mechanisms in Graph Contrastive Learning Xiaojun Guo, Yifei Wang, Zeming Wei, Yisen Wang

CVPR 2023 CFA: Class-Wise Calibrated Fair Adversarial Training Zeming Wei, Yifei Wang, Yiwen Guo, Yisen Wang

ICMLW 2023 Sharpness-Aware Minimization Alone Can Improve Adversarial Robustness Zeming Wei, Jingyu Zhu, Yihao Zhang