Hase, Peter

14 publications

ICLR 2025 System 1.x: Learning to Balance Fast and Slow Planning with Language Models Swarnadeep Saha, Archiki Prasad, Justin Chen, Peter Hase, Elias Stengel-Eskin, Mohit Bansal

ICLR 2024 Can Sensitive Information Be Deleted from LLMs? Objectives for Defending Against Extraction Attacks Vaidehi Patil, Peter Hase, Mohit Bansal

TMLR 2024 Foundational Challenges in Assuring Alignment and Safety of Large Language Models Usman Anwar, Abulhair Saparov, Javier Rando, Daniel Paleka, Miles Turpin, Peter Hase, Ekdeep Singh Lubana, Erik Jenner, Stephen Casper, Oliver Sourbut, Benjamin L. Edelman, Zhaowei Zhang, Mario Günther, Anton Korinek, Jose Hernandez-Orallo, Lewis Hammond, Eric J Bigelow, Alexander Pan, Lauro Langosco, Tomasz Korbak, Heidi Chenyu Zhang, Ruiqi Zhong, Sean O hEigeartaigh, Gabriel Recchia, Giulio Corsi, Alan Chan, Markus Anderljung, Lilian Edwards, Aleksandar Petrov, Christian Schroeder de Witt, Sumeet Ramesh Motwani, Yoshua Bengio, Danqi Chen, Philip Torr, Samuel Albanie, Tegan Maharaj, Jakob Nicolaus Foerster, Florian Tramèr, He He, Atoosa Kasirzadeh, Yejin Choi, David Krueger

TMLR 2024 Fundamental Problems with Model Editing: How Should Rational Belief Revision Work in LLMs? Peter Hase, Thomas Hofweber, Xiang Zhou, Elias Stengel-Eskin, Mohit Bansal

TMLR 2024 INSPIRE: Incorporating Diverse Feature Preferences in Recourse Prateek Yadav, Peter Hase, Mohit Bansal

NeurIPS 2024 LACIE: Listener-Aware Finetuning for Calibration in Large Language Models Elias Stengel-Eskin, Peter Hase, Mohit Bansal

TMLR 2024 Unlearning Sensitive Information in Multimodal LLMs: Benchmark and Attack-Defense Evaluation Vaidehi Patil, Yi-Lin Sung, Peter Hase, Jie Peng, Tianlong Chen, Mohit Bansal

NeurIPS 2023 Adaptive Contextual Perception: How to Generalize to New Backgrounds and Ambiguous Objects Zhuofan Ying, Peter Hase, Mohit Bansal

NeurIPS 2023 Can Language Models Teach? Teacher Explanations Improve Student Performance via Personalization Swarnadeep Saha, Peter Hase, Mohit Bansal

NeurIPS 2023 Does Localization Inform Editing? Surprising Differences in Causality-Based Localization vs. Knowledge Editing in Language Models Peter Hase, Mohit Bansal, Been Kim, Asma Ghandeharioun

TMLR 2023 Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback Stephen Casper, Xander Davies, Claudia Shi, Thomas Krendl Gilbert, Jérémy Scheurer, Javier Rando, Rachel Freedman, Tomek Korbak, David Lindner, Pedro Freire, Tony Tong Wang, Samuel Marks, Charbel-Raphael Segerie, Micah Carroll, Andi Peng, Phillip J.K. Christoffersen, Mehul Damani, Stewart Slocum, Usman Anwar, Anand Siththaranjan, Max Nadeau, Eric J Michaud, Jacob Pfau, Dmitrii Krasheninnikov, Xin Chen, Lauro Langosco, Peter Hase, Erdem Biyik, Anca Dragan, David Krueger, Dorsa Sadigh, Dylan Hadfield-Menell

ICLR 2023 Summarization Programs: Interpretable Abstractive Summarization with Neural Modular Trees Swarnadeep Saha, Shiyue Zhang, Peter Hase, Mohit Bansal

NeurIPS 2022 VisFIS: Visual Feature Importance Supervision with Right-for-the-Right-Reason Objectives Zhuofan Ying, Peter Hase, Mohit Bansal

NeurIPS 2021 The Out-of-Distribution Problem in Explainability and Search Methods for Feature Importance Explanations Peter Hase, Harry Xie, Mohit Bansal