Schaeffer, Rylan

NeurIPS 2025 Best-of-N Jailbreaking John Hughes, Sara Price, Aengus Lynch, Rylan Schaeffer, Fazl Barez, Arushi Somani, Sanmi Koyejo, Henry Sleight, Erik Jones, Ethan Perez, Mrinank Sharma

ICML 2025 Collapse or Thrive: Perils and Promises of Synthetic Data in a Self-Generating World Joshua Kazdan, Rylan Schaeffer, Apratim Dey, Matthias Gerstgrasser, Rafael Rafailov, David L. Donoho, Sanmi Koyejo

ICLR 2025 Failures to Find Transferable Image Jailbreaks Between Vision-Language Models Rylan Schaeffer, Dan Valentine, Luke Bailey, James Chua, Cristobal Eyzaguirre, Zane Durante, Joe Benton, Brando Miranda, Henry Sleight, Tony Tong Wang, John Hughes, Rajashree Agrawal, Mrinank Sharma, Scott Emmons, Sanmi Koyejo, Ethan Perez

ICML 2025 How Do Large Language Monkeys Get Their Power (Laws)? Rylan Schaeffer, Joshua Kazdan, John Hughes, Jordan Juravsky, Sara Price, Aengus Lynch, Erik Jones, Robert Kirk, Azalia Mirhoseini, Sanmi Koyejo

ICLRW 2025 No, of Course I Can! Refusal Mechanisms Can Be Exploited Using Harmless Data Joshua Kazdan, Lisa Yu, Rylan Schaeffer, Chris Cundy, Sanmi Koyejo, Krishnamurthy Dj Dvijotham

TMLR 2025 Open Problems in Technical AI Governance Anka Reuel, Benjamin Bucknall, Stephen Casper, Timothy Fist, Lisa Soder, Onni Aarne, Lewis Hammond, Lujain Ibrahim, Alan Chan, Peter Wills, Markus Anderljung, Ben Garfinkel, Lennart Heim, Andrew Trask, Gabriel Mukobi, Rylan Schaeffer, Mauricio Baker, Sara Hooker, Irene Solaiman, Sasha Luccioni, Nitarshan Rajkumar, Nicolas Moës, Jeffrey Ladish, David Bau, Paul Bricman, Neel Guha, Jessica Newman, Yoshua Bengio, Tobin South, Alex Pentland, Sanmi Koyejo, Mykel Kochenderfer, Robert Trager

NeurIPS 2025 Position: Machine Learning Conferences Should Establish a "Refutations and Critiques" Track Rylan Schaeffer, Joshua Kazdan, Yegor Denisov-Blanch, Brando Miranda, Matthias Gerstgrasser, Susan Zhang, Andreas Haupt, Isha Gupta, Elyas Obbad, Jesse Dodge, Jessica Zosa Forde, Francesco Orabona, Sanmi Koyejo, David L. Donoho

ICLR 2025 Uncovering Latent Memories in Large Language Models Sunny Duan, Mikail Khona, Abhiram Iyer, Rylan Schaeffer, Ila R Fiete

ICML 2025 Why Has Predicting Downstream Capabilities of Frontier AI Models with Scale Remained Elusive? Rylan Schaeffer, Hailey Schoelkopf, Brando Miranda, Gabriel Mukobi, Varun Madan, Adam Ibrahim, Herbie Bradley, Stella Biderman, Sanmi Koyejo

NeurIPSW 2024 Accumulating Data Avoids Model Collapse Joshua Kazdan, Apratim Dey, Rylan Schaeffer, Matthias Gerstgrasser, Rafael Rafailov, David L. Donoho, Sanmi Koyejo

ICLRW 2024 Does Data Contamination Make a Difference? Insights from Intentionally Contaminating Pre-Training Data for Language Models Minhao Jiang, Ken Liu, Ming Zhong, Rylan Schaeffer, Siru Ouyang, Jiawei Han, Sanmi Koyejo

NeurIPSW 2024 Does Maximizing Neural Regression Scores Teach Us About the Brain? Rylan Schaeffer, Mikail Khona, Sarthak Chandra, Mitchell Ostrow, Brando Miranda, Sanmi Koyejo

NeurIPSW 2024 Failures to Find Transferable Image Jailbreaks Between Vision-Language Models Rylan Schaeffer, Dan Valentine, Luke Bailey, James Chua, Zane Durante, Cristobal Eyzaguirre, Joe Benton, Brando Miranda, Henry Sleight, Tony Tong Wang, John Hughes, Rajashree Agrawal, Mrinank Sharma, Scott Emmons, Sanmi Koyejo, Ethan Perez

ICMLW 2024 In-Context Learning of Energy Functions Rylan Schaeffer, Mikail Khona, Sanmi Koyejo

ICMLW 2024 Is Model Collapse Inevitable? Breaking the Curse of Recursion by Accumulating Real and Synthetic Data Matthias Gerstgrasser, Rylan Schaeffer, Apratim Dey, Rafael Rafailov, Tomasz Korbak, Henry Sleight, Rajashree Agrawal, John Hughes, Dhruv Bhandarkar Pai, Andrey Gromov, Dan Roberts, Diyi Yang, David L. Donoho, Sanmi Koyejo

NeurIPSW 2024 Jailbreak Defense in a Narrow Domain: Failures of Existing Methods and Improving Transcript-Based Classifiers Tony Tong Wang, John Hughes, Henry Sleight, Rylan Schaeffer, Rajashree Agrawal, Fazl Barez, Mrinank Sharma, Jesse Mu, Nir N Shavit, Ethan Perez

NeurIPS 2024 Many-Shot Jailbreaking Cem Anil, Esin Durmus, Nina Panickssery, Mrinank Sharma, Joe Benton, Sandipan Kundu, Joshua Batson, Meg Tong, Jesse Mu, Daniel Ford, Fracesco Mosconi, Rajashree Agrawal, Rylan Schaeffer, Naomi Bashkansky, Samuel Svenningsen, Mike Lambert, Ansh Radhakrishnan, Carson Denison, Evan J Hubinger, Yuntao Bai, Trenton Bricken, Timothy Maxwell, Nicholas Schiefer, James Sully, Alex Tamkin, Tamera Lanhan, Karina Nguyen, Tomasz Korbak, Jared Kaplan, Deep Ganguli, Samuel R. Bowman, Ethan Perez, Roger Baker Grosse, David Duvenaud

NeurIPSW 2024 Position: Maximizing Neural Regression Scores May Not Identify Good Models of the Brain Rylan Schaeffer, Mikail Khona, Sarthak Chandra, Mitchell Ostrow, Brando Miranda, Sanmi Koyejo

NeurIPSW 2024 Quantifying Variance in Evaluation Benchmarks Lovish Madaan, Aaditya K Singh, Rylan Schaeffer, Andrew Poulton, Sanmi Koyejo, Pontus Stenetorp, Sharan Narang, Dieuwke Hupkes

ICLRW 2024 Towards an Improved Understanding and Utilization of Maximum Manifold Capacity Representations Rylan Schaeffer, Berivan Isik, Dhruv Bhandarkar Pai, Andres Carranza, Victor Lecomte, Alyssa Unell, Mikail Khona, Thomas Edward Yerxa, Yann LeCun, SueYeon Chung, Andrey Gromov, Ravid Shwartz-Ziv, Sanmi Koyejo

ICMLW 2024 Uncovering Latent Memories: Assessing Data Leakage and Memorization Patterns in Large Language Models Sunny Duan, Mikail Khona, Abhiram Iyer, Rylan Schaeffer, Ila R Fiete

ICLRW 2024 What Causes Polysemanticity? an Alternative Origin Story of Mixed Selectivity from Incidental Causes Victor Lecomte, Kushal Thaman, Rylan Schaeffer, Naomi Bashkansky, Trevor Chow, Sanmi Koyejo

NeurIPSW 2024 When Do Universal Image Jailbreaks Transfer Between Vision-Language Models? Rylan Schaeffer, Dan Valentine, Luke Bailey, James Chua, Cristobal Eyzaguirre, Zane Durante, Joe Benton, Brando Miranda, Henry Sleight, Tony Tong Wang, John Hughes, Rajashree Agrawal, Mrinank Sharma, Scott Emmons, Sanmi Koyejo, Ethan Perez

ICMLW 2024 Why Has Predicting Downstream Capabilities of Frontier AI Models with Scale Remained Elusive? Rylan Schaeffer, Hailey Schoelkopf, Brando Miranda, Gabriel Mukobi, Varun Madan, Adam Ibrahim, Herbie Bradley, Stella Biderman, Sanmi Koyejo

NeurIPSW 2023 An Information-Theoretic Understanding of Maximum Manifold Capacity Representations Rylan Schaeffer, Berivan Isik, Victor Lecomte, Mikail Khona, Yann LeCun, Andrey Gromov, Ravid Shwartz-Ziv, Sanmi Koyejo

NeurIPSW 2023 An Information-Theoretic Understanding of Maximum Manifold Capacity Representations Victor Lecomte, Rylan Schaeffer, Berivan Isik, Mikail Khona, Yann LeCun, Sanmi Koyejo, Andrey Gromov, Ravid Shwartz-Ziv

NeurIPSW 2023 An Information-Theoretic Understanding of Maximum Manifold Capacity Representations Berivan Isik, Victor Lecomte, Rylan Schaeffer, Yann LeCun, Mikail Khona, Ravid Shwartz-Ziv, Sanmi Koyejo, Andrey Gromov

NeurIPS 2023 Are Emergent Abilities of Large Language Models a Mirage? Rylan Schaeffer, Brando Miranda, Sanmi Koyejo

ICMLW 2023 Are Emergent Abilities of Large Language Models a Mirage? Rylan Schaeffer, Brando Miranda, Sanmi Koyejo

NeurIPSW 2023 Associative Memory Under the Probabilistic Lens: Improved Transformers & Dynamic Memory Creation Rylan Schaeffer, Mikail Khona, Nika Zahedi, Ila R Fiete, Andrey Gromov, Sanmi Koyejo

ICMLW 2023 Deceptive Alignment Monitoring Andres Carranza, Dhruv Bhandarkar Pai, Rylan Schaeffer, Arnuv Tandon, Sanmi Koyejo

NeurIPS 2023 DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT Models Boxin Wang, Weixin Chen, Hengzhi Pei, Chulin Xie, Mintong Kang, Chenhui Zhang, Chejian Xu, Zidi Xiong, Ritik Dutta, Rylan Schaeffer, Sang Truong, Simran Arora, Mantas Mazeika, Dan Hendrycks, Zinan Lin, Yu Cheng, Sanmi Koyejo, Dawn Song, Bo Li

NeurIPSW 2023 Divergence at the Interpolation Threshold: Identifying, Interpreting & Ablating the Sources of a Deep Learning Puzzle Rylan Schaeffer, Zachary Robertson, Akhilan Boopathy, Mikail Khona, Ila Fiete, Andrey Gromov, Sanmi Koyejo

ICML 2023 Emergence of Sparse Representations from Noise Trenton Bricken, Rylan Schaeffer, Bruno Olshausen, Gabriel Kreiman

ICMLW 2023 FACADE: A Framework for Adversarial Circuit Anomaly Detection and Evaluation Dhruv Bhandarkar Pai, Andres Carranza, Rylan Schaeffer, Arnuv Tandon, Sanmi Koyejo

NeurIPS 2023 Self-Supervised Learning of Representations for Space Generates Multi-Modular Grid Cells Rylan Schaeffer, Mikail Khona, Tzuhsuan Ma, Cristobal Eyzaguirre, Sanmi Koyejo, Ila Fiete

NeurIPSW 2023 Testing Assumptions Underlying a Unified Theory for the Origin of Grid Cells Rylan Schaeffer, Mikail Khona, Adrian Bertagnoli, Sanmi Koyejo, Ila R Fiete

NeurIPSW 2023 Testing Assumptions Underlying a Unified Theory for the Origin of Grid Cells Rylan Schaeffer, Mikail Khona, Adrian Bertagnoli, Sanmi Koyejo, Ila Fiete

NeurIPSW 2023 Testing Assumptions Underlying a Unified Theory for the Origin of Grid Cells Rylan Schaeffer, Mikail Khona, Adrian Bertagnoli, Sanmi Koyejo, Ila R Fiete

NeurIPS 2022 No Free Lunch from Deep Learning in Neuroscience: A Case Study Through Models of the Entorhinal-Hippocampal Circuit Rylan Schaeffer, Mikail Khona, Ila Fiete

ICMLW 2022 No Free Lunch from Deep Learning in Neuroscience: A Case Study Through Models of the Entorhinal-Hippocampal Circuit Rylan Schaeffer, Mikail Khona, Ila R Fiete

ICML 2022 Streaming Inference for Infinite Feature Models Rylan Schaeffer, Yilun Du, Gabrielle K Liu, Ila Fiete

CoLLAs 2022 Streaming Inference for Infinite Non-Stationary Clustering Rylan Schaeffer, Gabrielle Kaili-may Liu, Yilun Du, Scott Linderman, Ila R. Fiete

ICLRW 2022 Streaming Inference for Infinite Non-Stationary Clustering Rylan Schaeffer, Gabrielle Kaili-May Liu, Yilun Du, Scott Linderman, Ila R Fiete

UAI 2021 Efficient Online Inference for Nonparametric Mixture Models Rylan Schaeffer, Blake Bordelon, Mikail Khona, Weiwei Pan, Ila Rani Fiete

NeurIPS 2020 Reverse-Engineering Recurrent Neural Network Solutions to a Hierarchical Inference Task for Mice Rylan Schaeffer, Mikail Khona, Leenoy Meshulam, Brain Laboratory International, Ila Fiete