Rottger, Paul

6 publications

AAAI 2025 SafetyPrompts: A Systematic Review of Open Datasets for Evaluating and Improving Large Language Model Safety Paul Röttger, Fabio Pernisi, Bertie Vidgen, Dirk Hovy

ICLR 2025 Surgical, Cheap, and Flexible: Mitigating False Refusal in Language Models via Single Vector Ablation Xinpeng Wang, Chengzhi Hu, Paul Röttger, Barbara Plank

ICML 2024 Position: Near to Mid-Term Risks and Opportunities of Open-Source Generative AI Francisco Eiras, Aleksandar Petrov, Bertie Vidgen, Christian Schroeder De Witt, Fabio Pizzati, Katherine Elkins, Supratik Mukhopadhyay, Adel Bibi, Botos Csaba, Fabro Steibel, Fazl Barez, Genevieve Smith, Gianluca Guadagni, Jon Chun, Jordi Cabot, Joseph Marvin Imperial, Juan A. Nolazco-Flores, Lori Landay, Matthew Thomas Jackson, Paul Rottger, Philip Torr, Trevor Darrell, Yong Suk Lee, Jakob Nicolaus Foerster

ICLR 2024 Safety-Tuned LLaMAs: Lessons from Improving the Safety of Large Language Models That Follow Instructions Federico Bianchi, Mirac Suzgun, Giuseppe Attanasio, Paul Rottger, Dan Jurafsky, Tatsunori Hashimoto, James Zou

NeurIPS 2024 The PRISM Alignment Dataset: What Participatory, Representative and Individualised Human Feedback Reveals About the Subjective and Multicultural Alignment of Large Language Models Hannah Rose Kirk, Alexander Whitefield, Paul Röttger, Andrew Bean, Katerina Margatina, Juan Ciro, Rafael Mosquera, Max Bartolo, Adina Williams, He He, Bertie Vidgen, Scott A. Hale

NeurIPSW 2023 The Empty Signifier Problem: Towards Clearer Paradigms for Operationalising "Alignment'' in Large Language Models Hannah Kirk, Bertie Vidgen, Paul Rottger, Scott Hale