Anwar, Usman

16 publications

ICLR 2025 Interpreting Emergent Planning in Model-Free Reinforcement Learning Thomas Bush, Stephen Chung, Usman Anwar, Adrià Garriga-Alonso, David Krueger

TMLR 2025 Understanding In-Context Learning of Linear Models in Transformers Through an Adversarial Lens Usman Anwar, Johannes von Oswald, Louis Kirsch, David Krueger, Spencer Frei

NeurIPSW 2024 Comparing Bottom-up and Top-Down Steering Approaches on In-Context Learning Tasks Madeline Brumley, Joe Kwon, David Krueger, Dmitrii Krasheninnikov, Usman Anwar

TMLR 2024 Foundational Challenges in Assuring Alignment and Safety of Large Language Models Usman Anwar, Abulhair Saparov, Javier Rando, Daniel Paleka, Miles Turpin, Peter Hase, Ekdeep Singh Lubana, Erik Jenner, Stephen Casper, Oliver Sourbut, Benjamin L. Edelman, Zhaowei Zhang, Mario Günther, Anton Korinek, Jose Hernandez-Orallo, Lewis Hammond, Eric J Bigelow, Alexander Pan, Lauro Langosco, Tomasz Korbak, Heidi Chenyu Zhang, Ruiqi Zhong, Sean O hEigeartaigh, Gabriel Recchia, Giulio Corsi, Alan Chan, Markus Anderljung, Lilian Edwards, Aleksandar Petrov, Christian Schroeder de Witt, Sumeet Ramesh Motwani, Yoshua Bengio, Danqi Chen, Philip Torr, Samuel Albanie, Tegan Maharaj, Jakob Nicolaus Foerster, Florian Tramèr, He He, Atoosa Kasirzadeh, Yejin Choi, David Krueger

NeurIPSW 2024 IDs for AI Systems Alan Chan, Noam Kolt, Peter Wills, Usman Anwar, Christian Schroeder de Witt, Nitarshan Rajkumar, Lewis Hammond, David Krueger, Lennart Heim, Markus Anderljung

NeurIPSW 2024 Learning to Forget Using Hypernetworks Jose Miguel Lara Rangel, Usman Anwar, Stefan Schoepf, Jack Foster, David Krueger

ICLR 2024 Reward Model Ensembles Help Mitigate Overoptimization Thomas Coste, Usman Anwar, Robert Kirk, David Krueger

NeurIPSW 2023 Noisy ZSC: Breaking the Common Knowledge Assumption in Zero-Shot Coordination Games Usman Anwar, Jia Wan, David Krueger, Jakob Nicolaus Foerster

TMLR 2023 Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback Stephen Casper, Xander Davies, Claudia Shi, Thomas Krendl Gilbert, Jérémy Scheurer, Javier Rando, Rachel Freedman, Tomek Korbak, David Lindner, Pedro Freire, Tony Tong Wang, Samuel Marks, Charbel-Raphael Segerie, Micah Carroll, Andi Peng, Phillip J.K. Christoffersen, Mehul Damani, Stewart Slocum, Usman Anwar, Anand Siththaranjan, Max Nadeau, Eric J Michaud, Jacob Pfau, Dmitrii Krasheninnikov, Xin Chen, Lauro Langosco, Peter Hase, Erdem Biyik, Anca Dragan, David Krueger, Dorsa Sadigh, Dylan Hadfield-Menell

NeurIPSW 2023 Reward Model Ensembles Help Mitigate Overoptimization Thomas Coste, Usman Anwar, Robert Kirk, David Krueger

NeurIPSW 2023 Reward Model Ensembles Help Mitigate Overoptimization Thomas Coste, Usman Anwar, Robert Kirk, David Krueger

TMLR 2022 Bayesian Methods for Constraint Inference in Reinforcement Learning Dimitris Papadimitriou, Usman Anwar, Daniel S. Brown

NeurIPSW 2022 Domain Generalization for Robust Model-Based Offline Reinforcement Learning Alan Clark, Shoaib Ahmed Siddiqui, Robert Kirk, Usman Anwar, Stephen Chung, David Krueger

NeurIPSW 2022 Domain Generalization for Robust Model-Based Offline Reinforcement Learning Alan Clark, Shoaib Ahmed Siddiqui, Robert Kirk, Usman Anwar, Stephen Chung, David Krueger

ICML 2021 Inverse Constrained Reinforcement Learning Shehryar Malik, Usman Anwar, Alireza Aghasi, Ali Ahmed

ICLRW 2020 Learning to Solve Differential Equations Across Initial Conditions Shehryar Malik, Usman Anwar, Ali Ahmed, Alireza Aghasi