Jaffe, Oliver

4 publications

ICLR 2025 AI Sandbagging: Language Models Can Strategically Underperform on Evaluations Teun van der Weij, Felix Hofstätter, Oliver Jaffe, Samuel F. Brown, Francis Rhys Ward

ICLR 2025 MLE-Bench: Evaluating Machine Learning Agents on Machine Learning Engineering Jun Shern Chan, Neil Chowdhury, Oliver Jaffe, James Aung, Dane Sherburn, Evan Mays, Giulio Starace, Kevin Liu, Leon Maksin, Tejal Patwardhan, Aleksander Madry, Lilian Weng

ICML 2025 PaperBench: Evaluating AI’s Ability to Replicate AI Research Giulio Starace, Oliver Jaffe, Dane Sherburn, James Aung, Jun Shern Chan, Leon Maksin, Rachel Dias, Evan Mays, Benjamin Kinsella, Wyatt Thompson, Johannes Heidecke, Amelia Glaese, Tejal Patwardhan

NeurIPSW 2024 AI Sandbagging: Language Models Can Selectively Underperform on Evaluations Teun van der Weij, Felix Hofstätter, Oliver Jaffe, Samuel F. Brown, Francis Rhys Ward