Nadeau, Max

4 publications

ICMLW 2023 Circuit Breaking: Removing Model Behaviors with Targeted Ablation Maximilian Li, Xander Davies, Max Nadeau

ICMLW 2023 Discovering Variable Binding Circuitry with Desiderata Xander Davies, Max Nadeau, Nikhil Prakash, Tamar Rott Shaham, David Bau

TMLR 2023 Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback Stephen Casper, Xander Davies, Claudia Shi, Thomas Krendl Gilbert, Jérémy Scheurer, Javier Rando, Rachel Freedman, Tomek Korbak, David Lindner, Pedro Freire, Tony Tong Wang, Samuel Marks, Charbel-Raphael Segerie, Micah Carroll, Andi Peng, Phillip J.K. Christoffersen, Mehul Damani, Stewart Slocum, Usman Anwar, Anand Siththaranjan, Max Nadeau, Eric J Michaud, Jacob Pfau, Dmitrii Krasheninnikov, Xin Chen, Lauro Langosco, Peter Hase, Erdem Biyik, Anca Dragan, David Krueger, Dorsa Sadigh, Dylan Hadfield-Menell

NeurIPS 2022 Robust Feature-Level Adversaries Are Interpretability Tools Stephen Casper, Max Nadeau, Dylan Hadfield-Menell, Gabriel Kreiman