Shlegeris, Buck

7 publications

ICLR 2025 Adaptive Deployment of Untrusted LLMs Reduces Distributed Threats Jiaxin Wen, Vivek Hebbar, Caleb Larson, Aryan Bhatt, Ansh Radhakrishnan, Mrinank Sharma, Henry Sleight, Shi Feng, He He, Ethan Perez, Buck Shlegeris, Akbir Khan

ICML 2024 AI Control: Improving Safety Despite Intentional Subversion Ryan Greenblatt, Buck Shlegeris, Kshitij Sachan, Fabien Roger

ICMLW 2024 Games for AI-Control: Models of Safety Evaluations of AI Deployment Protocols Charlie Griffin, Buck Shlegeris, Alessandro Abate

TMLR 2024 Language Models Are Better than Humans at Next-Token Prediction Buck Shlegeris, Fabien Roger, Lawrence Chan, Euan McLean

ICLR 2023 Interpretability in the Wild: A Circuit for Indirect Object Identification in GPT-2 Small Kevin Ro Wang, Alexandre Variengien, Arthur Conmy, Buck Shlegeris, Jacob Steinhardt

NeurIPS 2022 Adversarial Training for High-Stakes Reliability Daniel Ziegler, Seraphina Nix, Lawrence Chan, Tim Bauman, Peter Schmidt-Nielsen, Tao Lin, Adam Scherlis, Noa Nabeshima, Benjamin Weinstein-Raun, Daniel de Haas, Buck Shlegeris, Nate Thomas

NeurIPSW 2022 Interpretability in the Wild: A Circuit for Indirect Object Identification in GPT-2 Small Kevin Ro Wang, Alexandre Variengien, Arthur Conmy, Buck Shlegeris, Jacob Steinhardt