McKinney, Lev E

6 publications

TMLR 2025 Model Tampering Attacks Enable More Rigorous Evaluations of LLM Capabilities Zora Che, Stephen Casper, Robert Kirk, Anirudh Satheesh, Stewart Slocum, Lev E McKinney, Rohit Gandikota, Aidan Ewart, Domenic Rosati, Zichu Wu, Zikui Cai, Bilal Chughtai, Yarin Gal, Furong Huang, Dylan Hadfield-Menell

NeurIPSW 2024 Model Manipulation Attacks Enable More Rigorous Evaluations of LLM Capabilities Zora Che, Stephen Casper, Anirudh Satheesh, Rohit Gandikota, Domenic Rosati, Stewart Slocum, Lev E McKinney, Zichu Wu, Zikui Cai, Bilal Chughtai, Daniel Filan, Furong Huang, Dylan Hadfield-Menell

NeurIPSW 2022 On the Fragility of Learned Reward Functions Lev E. McKinney, Yawen Duan, David Krueger, Adam Gleave

NeurIPSW 2022 On the Fragility of Learned Reward Functions Lev E McKinney, Yawen Duan, David Krueger, Adam Gleave

NeurIPSW 2022 On the Fragility of Learned Reward Functions Lev E McKinney, Yawen Duan, David Krueger, Adam Gleave

NeurIPSW 2021 BLAST: Latent Dynamics Models from Bootstrapping Keiran Paster, Lev E McKinney, Sheila A. McIlraith, Jimmy Ba