Krasheninnikov, Dmitrii

12 publications

NeurIPS 2025 Detecting High-Stakes Interactions with Activation Probes Alex McKenzie, Urja Pawar, Phil Blandfort, William Bankes, David Krueger, Ekdeep Singh Lubana, Dmitrii Krasheninnikov

ICLRW 2025 Understanding (Un)Reliability of Steering Vectors in Language Models Joschka Braun, Carsten Eickhoff, David Krueger, Seyed Ali Bahrainian, Dmitrii Krasheninnikov

NeurIPSW 2024 Comparing Bottom-up and Top-Down Steering Approaches on In-Context Learning Tasks Madeline Brumley, Joe Kwon, David Krueger, Dmitrii Krasheninnikov, Usman Anwar

ICML 2024 Implicit Meta-Learning May Lead Language Models to Trust More Reliable Sources Dmitrii Krasheninnikov, Egor Krasheninnikov, Bruno Kacper Mlodozeniec, Tegan Maharaj, David Krueger

NeurIPSW 2024 Steering Clear: A Systematic Study of Activation Steering in a Toy Setup Dmitrii Krasheninnikov, David Krueger

NeurIPS 2024 Stress-Testing Capability Elicitation with Password-Locked Models Ryan Greenblatt, Fabien Roger, Dmitrii Krasheninnikov, David Krueger

NeurIPSW 2023 Meta- (out-of-Context) Learning in Neural Networks Dmitrii Krasheninnikov, Egor Krasheninnikov, Bruno Mlodozeniec, David Krueger

TMLR 2023 Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback Stephen Casper, Xander Davies, Claudia Shi, Thomas Krendl Gilbert, Jérémy Scheurer, Javier Rando, Rachel Freedman, Tomek Korbak, David Lindner, Pedro Freire, Tony Tong Wang, Samuel Marks, Charbel-Raphael Segerie, Micah Carroll, Andi Peng, Phillip J.K. Christoffersen, Mehul Damani, Stewart Slocum, Usman Anwar, Anand Siththaranjan, Max Nadeau, Eric J Michaud, Jacob Pfau, Dmitrii Krasheninnikov, Xin Chen, Lauro Langosco, Peter Hase, Erdem Biyik, Anca Dragan, David Krueger, Dorsa Sadigh, Dylan Hadfield-Menell

ICLRW 2023 Out-of-Context Meta-Learning in Large Language Models Dmitrii Krasheninnikov, Egor Krasheninnikov, David Krueger

NeurIPSW 2022 Assistance with Large Language Models Dmitrii Krasheninnikov, Egor Krasheninnikov, David Krueger

NeurIPS 2022 Defining and Characterizing Reward Gaming Joar Skalse, Nikolaus Howe, Dmitrii Krasheninnikov, David Krueger

ICLR 2019 Preferences Implicit in the State of the World Rohin Shah, Dmitrii Krasheninnikov, Jordan Alexander, Pieter Abbeel, Anca Dragan