Barez, Fazl

16 publications

NeurIPS 2025 Best-of-N Jailbreaking John Hughes, Sara Price, Aengus Lynch, Rylan Schaeffer, Fazl Barez, Arushi Somani, Sanmi Koyejo, Henry Sleight, Erik Jones, Ethan Perez, Mrinank Sharma

NeurIPS 2025 Emerging Risks from Embodied AI Require Urgent Policy Action Jared Perlo, Alexander Robey, Fazl Barez, Jakob Mökander

NeurIPS 2025 Establishing Best Practices in Building Rigorous Agentic Benchmarks Yuxuan Zhu, Tengjun Jin, Yada Pruksachatkun, Andy K Zhang, Shu Liu, Sasha Cui, Sayash Kapoor, Shayne Longpre, Kevin Meng, Rebecca Weiss, Fazl Barez, Rahul Gupta, Jwala Dhamala, Jacob Merizian, Mario Giulianelli, Harry Coppock, Cozmin Ududec, Antony Kellermann, Jasjeet S Sekhon, Jacob Steinhardt, Sarah Schwettmann, Arvind Narayanan, Matei Zaharia, Ion Stoica, Percy Liang, Daniel Kang

ICML 2025 PoisonBench: Assessing Language Model Vulnerability to Poisoned Preference Data Tingchen Fu, Mrinank Sharma, Philip Torr, Shay B Cohen, David Krueger, Fazl Barez

ICLRW 2025 Rethinking AI Cultural Alignment Michal Bravansky, Filip Trhlík, Fazl Barez

ICLR 2025 Towards Interpreting Visual Information Processing in Vision-Language Models Clement Neo, Luke Ong, Philip Torr, Mor Geva, David Krueger, Fazl Barez

NeurIPS 2024 Interpreting Learned Feedback Patterns in Large Language Models Luke Marks, Amir Abdullah, Clement Neo, Rauno Arike, David Krueger, Philip Torr, Fazl Barez

NeurIPSW 2024 Jailbreak Defense in a Narrow Domain: Failures of Existing Methods and Improving Transcript-Based Classifiers Tony Tong Wang, John Hughes, Henry Sleight, Rylan Schaeffer, Rajashree Agrawal, Fazl Barez, Mrinank Sharma, Jesse Mu, Nir N Shavit, Ethan Perez

NeurIPSW 2024 Jailbreak Defense in a Narrow Domain: Failures of Existing Methods and Improving Transcript-Based Classifiers Tony Tong Wang, John Hughes, Henry Sleight, Rylan Schaeffer, Rajashree Agrawal, Fazl Barez, Mrinank Sharma, Jesse Mu, Nir N Shavit, Ethan Perez

ICML 2024 Position: Near to Mid-Term Risks and Opportunities of Open-Source Generative AI Francisco Eiras, Aleksandar Petrov, Bertie Vidgen, Christian Schroeder De Witt, Fabio Pizzati, Katherine Elkins, Supratik Mukhopadhyay, Adel Bibi, Botos Csaba, Fabro Steibel, Fazl Barez, Genevieve Smith, Gianluca Guadagni, Jon Chun, Jordi Cabot, Joseph Marvin Imperial, Juan A. Nolazco-Flores, Lori Landay, Matthew Thomas Jackson, Paul Rottger, Philip Torr, Trevor Darrell, Yong Suk Lee, Jakob Nicolaus Foerster

ICLR 2024 Understanding Addition in Transformers Philip Quirke, Fazl Barez

ICML 2024 Value-Evolutionary-Based Reinforcement Learning Pengyi Li, Jianye Hao, Hongyao Tang, Yan Zheng, Fazl Barez

ICMLW 2024 Visualizing Neural Network Imagination Nevan Wichers, Victor Tao, Riccardo Volpato, Fazl Barez

NeurIPSW 2023 DeepDecipher: Accessing and Investigating Neuron Activation in Large Language Models Albert Garde, Esben Kran, Fazl Barez

ICLRW 2023 N2G: A Scalable Approach for Quantifying Interpretable Neuron Representation in LLMs Alex Foote, Neel Nanda, Esben Kran, Ioannis Konstas, Fazl Barez

NeurIPSW 2022 System III: Learning with Domain Knowledge for Safety Constraints Fazl Barez, Hosein Hasanbeig, Alessandro Abate