Juang, Caden

5 publications

ICML 2025 Automatically Interpreting Millions of Features in Large Language Models Gonçalo Santos Paulo, Alex Troy Mallen, Caden Juang, Nora Belrose

ICLR 2025 NNsight and NDIF: Democratizing Access to Open-Weight Foundation Model Internals Jaden Fried Fiotto-Kaufman, Alexander Russell Loftus, Eric Todd, Jannik Brinkmann, Koyena Pal, Dmitrii Troitskii, Michael Ripa, Adam Belfki, Can Rager, Caden Juang, Aaron Mueller, Samuel Marks, Arnab Sen Sharma, Francesca Lucchetti, Nikhil Prakash, Carla E. Brodley, Arjun Guha, Jonathan Bell, Byron C Wallace, David Bau

NeurIPS 2025 Overcoming Sparsity Artifacts in Crosscoders to Interpret Chat-Tuning Julian Minder, Clément Dumas, Caden Juang, Bilal Chughtai, Neel Nanda

ICLRW 2025 Steering Fine-Tuning Generalization with Targeted Concept Ablation Helena Casademunt, Caden Juang, Samuel Marks, Senthooran Rajamanoharan, Neel Nanda

ICLRW 2025 Steering Fine-Tuning Generalization with Targeted Concept Ablation Helena Casademunt, Caden Juang, Senthooran Rajamanoharan, Neel Nanda