Hadfield-Menell, Dylan

29 publications

TMLR 2025 Defending Against Unforeseen Failure Modes with Latent Adversarial Training Stephen Casper, Lennart Schulze, Oam Patel, Dylan Hadfield-Menell

ICLR 2025 Diverse Preference Learning for Capabilities and Alignment Stewart Slocum, Asher Parker-Sartori, Dylan Hadfield-Menell

NeurIPS 2025 Evaluating Generalization Capabilities of LLM-Based Agents in Mixed-Motive Scenarios Using Concordia Chandler Smith, Marwa Abdulhai, Manfred Diaz, Marko Tesic, Rakshit Trivedi, Sasha Vezhnevets, Lewis Hammond, Jesse Clifton, Minsuk Chang, Edgar A. Duéñez-Guzmán, John P Agapiou, Jayd Matyas, Danny Karmon, Beining Zhang, Jim Dilkes, Akash Kundu, Jord Nguyen, Emanuel Tewolde, Jebish Purbey, Ram Mohan Rao Kadiyala, Siddhant Gupta, Aliaksei Korshuk, Buyantuev Alexander, Ilya Makarov, Gang Zhao, Rolando Fernandez, Zhihan Wang, Caroline Wang, Jiaxun Cui, Lingyun Xiao, Di Yang Shi, Yoonchang Sung, Arrasy Rahman, Peter Stone, Yipeng Kang, Hyeonggeun Yun, Ananya Ananya, Taehun Cha, Zhiqiang Wu, Elizaveta Tennant, Olivia Macmillan-Scott, Marta Emili García Segura, Diana Riazi, Fuyang Cui, Sriram Ganapathi Subramanian, Toryn Q. Klassen, Nico Schiavone, Mogtaba Alim, Sheila A. McIlraith, Manuel Sebastian Rios Beltran, Oswaldo Peña, Carlos Saith Rodriguez Rojas, Manuela Chacon-Chamorro, Ruben Manrique, Luis Felipe Giraldo, Nicanor Quijano, Yiding Wang, Yuxuan Chen, Fangwei Zhong, Mengmeng Wang, Wenming Tu, Zhaowei Zhang, Ziang Chen, Zixia Jia, Xue Feng, Zilong Zheng, Chichen Lin, Weijian Fan, Chenao Liu, Sneheel Sarangi, Ziyan Wang, Shuqing Shi, Yali Du, Avinaash Anand Kulandaivel, Yang Liu, Wu Ruiyang, Chetan Talele, 陆孙嘉, Gema Parreño Piqueras, Shamika Dhuri, Bain McHale, Tim Baarslag, Dylan Hadfield-Menell, Natasha Jaques, Jose Hernandez-Orallo, Joel Z Leibo

TMLR 2025 Latent Adversarial Training Improves Robustness to Persistent Harmful Behaviors in LLMs Abhay Sheshadri, Aidan Ewart, Phillip Huang Guo, Aengus Lynch, Cindy Wu, Vivek Hebbar, Henry Sleight, Asa Cooper Stickland, Ethan Perez, Dylan Hadfield-Menell, Stephen Casper

TMLR 2025 Model Tampering Attacks Enable More Rigorous Evaluations of LLM Capabilities Zora Che, Stephen Casper, Robert Kirk, Anirudh Satheesh, Stewart Slocum, Lev E McKinney, Rohit Gandikota, Aidan Ewart, Domenic Rosati, Zichu Wu, Zikui Cai, Bilal Chughtai, Yarin Gal, Furong Huang, Dylan Hadfield-Menell

ICMLW 2024 Altared Environments: The Role of Normative Infrastructure in AI Alignment Rakshit Trivedi, Nikhil Chandak, Carter Blair, Atrisha Sarkar, Tehilla Weltman, Dylan Hadfield-Menell, Gillian K Hadfield

ICMLW 2024 Disjoint Processing Mechanisms of Hierarchical and Linear Grammars in Large Language Models Aruna Sankaranarayanan, Dylan Hadfield-Menell, Aaron Mueller

ICLR 2024 Distributional Preference Learning: Understanding and Accounting for Hidden Context in RLHF Anand Siththaranjan, Cassidy Laidlaw, Dylan Hadfield-Menell

NeurIPSW 2024 Latent Adversarial Training Improves Robustness to Persistent Harmful Behaviors in LLMs Aidan Ewart, Abhay Sheshadri, Phillip Huang Guo, Aengus Lynch, Cindy Wu, Vivek Hebbar, Henry Sleight, Asa Cooper Stickland, Ethan Perez, Dylan Hadfield-Menell, Stephen Casper

NeurIPS 2024 Melting Pot Contest: Charting the Future of Generalized Cooperative Intelligence Rakshit S Trivedi, Akbir Khan, Jesse Clifton, Lewis Hammond, Edgar A. Duéñez-Guzmán, John P Agapiou, Jayd Matyas, Sasha Vezhnevets, Dipam Chakraborty, Yue Zhao, Marko Tesic, Barna Pásztor, Yunke Ao, Omar G. Younis, Jiawei Huang, Benjamin Swain, Haoyuan Qin, Mian Deng, Ziwei Deng, Utku Erdoğanaras, Natasha Jaques, Jakob Nicolaus Foerster, Vincent Conitzer, Jose Hernandez-Orallo, Dylan Hadfield-Menell, Joel Z Leibo

NeurIPSW 2024 Model Manipulation Attacks Enable More Rigorous Evaluations of LLM Capabilities Zora Che, Stephen Casper, Anirudh Satheesh, Rohit Gandikota, Domenic Rosati, Stewart Slocum, Lev E McKinney, Zichu Wu, Zikui Cai, Bilal Chughtai, Daniel Filan, Furong Huang, Dylan Hadfield-Menell

NeurIPSW 2023 Mitigating Generative Agent Social Dilemmas Julian Yocum, Phillip J.K. Christoffersen, Mehul Damani, Justin Svegliato, Dylan Hadfield-Menell, Stuart Russell

TMLR 2023 Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback Stephen Casper, Xander Davies, Claudia Shi, Thomas Krendl Gilbert, Jérémy Scheurer, Javier Rando, Rachel Freedman, Tomek Korbak, David Lindner, Pedro Freire, Tony Tong Wang, Samuel Marks, Charbel-Raphael Segerie, Micah Carroll, Andi Peng, Phillip J.K. Christoffersen, Mehul Damani, Stewart Slocum, Usman Anwar, Anand Siththaranjan, Max Nadeau, Eric J Michaud, Jacob Pfau, Dmitrii Krasheninnikov, Xin Chen, Lauro Langosco, Peter Hase, Erdem Biyik, Anca Dragan, David Krueger, Dorsa Sadigh, Dylan Hadfield-Menell

NeurIPS 2023 Red Teaming Deep Neural Networks with Feature Synthesis Tools Stephen Casper, Tong Bu, Yuxiao Li, Jiawei Li, Kevin Zhang, Kaivalya Hariharan, Dylan Hadfield-Menell

NeurIPSW 2023 Understanding Hidden Context in Preference Learning: Consequences for RLHF Anand Siththaranjan, Cassidy Laidlaw, Dylan Hadfield-Menell

NeurIPSW 2023 Understanding Hidden Context in Preference Learning: Consequences for RLHF Anand Siththaranjan, Cassidy Laidlaw, Dylan Hadfield-Menell

NeurIPSW 2022 Diagnostics for Deep Neural Networks with Automated Copy/Paste Attacks Stephen Casper, Kaivalya Hariharan, Dylan Hadfield-Menell

ICML 2022 Estimating and Penalizing Induced Preference Shifts in Recommender Systems Micah D Carroll, Anca Dragan, Stuart Russell, Dylan Hadfield-Menell

NeurIPS 2022 How to Talk so AI Will Learn: Instructions, Descriptions, and Autonomy Theodore Sumers, Robert Hawkins, Mark K Ho, Tom Griffiths, Dylan Hadfield-Menell

NeurIPSW 2022 How to Talk so AI Will Learn: Instructions, Descriptions, and Pragmatics Theodore Sumers, Robert D. Hawkins, Mark K Ho, Thomas L. Griffiths, Dylan Hadfield-Menell

NeurIPS 2022 Robust Feature-Level Adversaries Are Interpretability Tools Stephen Casper, Max Nadeau, Dylan Hadfield-Menell, Gabriel Kreiman

CoRL 2021 Guided Imitation of Task and Motion Planning Michael James McDonald, Dylan Hadfield-Menell

NeurIPS 2020 Consequences of Misaligned AI Simon Zhuang, Dylan Hadfield-Menell

ICML 2018 An Efficient, Generalized Bellman Update for Cooperative Inverse Reinforcement Learning Dhruv Malik, Malayandi Palaniappan, Jaime Fisac, Dylan Hadfield-Menell, Stuart Russell, Anca Dragan

NeurIPS 2017 Inverse Reward Design Dylan Hadfield-Menell, Smitha Milli, Pieter Abbeel, Stuart Russell, Anca Dragan

IJCAI 2017 Should Robots Be Obedient? Smitha Milli, Dylan Hadfield-Menell, Anca D. Dragan, Stuart Russell

IJCAI 2017 The Off-Switch Game Dylan Hadfield-Menell, Anca D. Dragan, Pieter Abbeel, Stuart Russell

NeurIPS 2016 Cooperative Inverse Reinforcement Learning Dylan Hadfield-Menell, Stuart Russell, Pieter Abbeel, Anca Dragan

UAI 2015 Multitasking: Optimal Planning for Bandit Superprocesses Dylan Hadfield-Menell, Stuart Russell