Dobre, David

9 publications

ICLRW 2025 A Generative Approach to LLM Harmfulness Detection with Red Flag Tokens Sophie Xhonneux, David Dobre, Mehrnaz Mofakhami, Leo Schwinn, Gauthier Gidel

ICLR 2025 Learning Diverse Attacks on Large Language Models for Robust Red-Teaming and Safety Tuning Seanie Lee, Minsu Kim, Lynn Cherif, David Dobre, Juho Lee, Sung Ju Hwang, Kenji Kawaguchi, Gauthier Gidel, Yoshua Bengio, Nikolay Malkin, Moksh Jain

ICMLW 2024 In-Context Learning, Can It Break Safety? Sophie Xhonneux, David Dobre, Michael Noukhovitch, Jian Tang, Gauthier Gidel, Dhanya Sridhar

NeurIPSW 2024 Learning Diverse Attacks on Large Language Models for Robust Red-Teaming and Safety Tuning Seanie Lee, Minsu Kim, Lynn Cherif, David Dobre, Juho Lee, Sung Ju Hwang, Kenji Kawaguchi, Gauthier Gidel, Yoshua Bengio, Nikolay Malkin, Moksh Jain

NeurIPS 2024 On the Scalability of Certified Adversarial Robustness with Generated Data Thomas Altstidl, David Dobre, Arthur Kosmala, Björn Eskofier, Gauthier Gidel, Leo Schwinn

ICML 2024 Sarah Frank-Wolfe: Methods for Constrained Optimization with Best Rates and Practical Features Aleksandr Beznosikov, David Dobre, Gauthier Gidel

NeurIPS 2024 Soft Prompt Threats: Attacking Safety Alignment and Unlearning in Open-Source LLMs Through the Embedding Space Leo Schwinn, David Dobre, Sophie Xhonneux, Gauthier Gidel, Stephan Günnemann

NeurIPSW 2023 Adversarial Attacks and Defenses in Large Language Models: Old and New Threats Leo Schwinn, David Dobre, Stephan Günnemann, Gauthier Gidel

NeurIPS 2022 Clipped Stochastic Methods for Variational Inequalities with Heavy-Tailed Noise Eduard Gorbunov, Marina Danilova, David Dobre, Pavel Dvurechenskii, Alexander Gasnikov, Gauthier Gidel