Burns, Collin

5 publications

ICML 2024 Weak-to-Strong Generalization: Eliciting Strong Capabilities with Weak Supervision Collin Burns, Pavel Izmailov, Jan Hendrik Kirchner, Bowen Baker, Leo Gao, Leopold Aschenbrenner, Yining Chen, Adrien Ecoffet, Manas Joglekar, Jan Leike, Ilya Sutskever, Jeffrey Wu

ICLR 2023 Discovering Latent Knowledge in Language Models Without Supervision Collin Burns, Haotian Ye, Dan Klein, Jacob Steinhardt

ICLR 2021 Aligning AI with Shared Human Values Dan Hendrycks, Collin Burns, Steven Basart, Andrew Critch, Jerry Li, Dawn Song, Jacob Steinhardt

CVPR 2021 Limitations of Post-Hoc Feature Alignment for Robustness Collin Burns, Jacob Steinhardt

ICLR 2021 Measuring Massive Multitask Language Understanding Dan Hendrycks, Collin Burns, Steven Basart, Andy Zou, Mantas Mazeika, Dawn Song, Jacob Steinhardt