Leask, Patrick

4 publications

ICML 2025 Inference-Time Decomposition of Activations (ITDA): A Scalable Approach to Interpreting Large Language Models Patrick Leask, Neel Nanda, Noura Al Moubayed

ICLR 2025 Sparse Autoencoders Do Not Find Canonical Units of Analysis Patrick Leask, Bart Bussmann, Michael T Pearce, Joseph Isaac Bloom, Curt Tigges, Noura Al Moubayed, Lee Sharkey, Neel Nanda

NeurIPSW 2024 BatchTopK Sparse Autoencoders Bart Bussmann, Patrick Leask, Neel Nanda

NeurIPSW 2024 Stitching Sparse Autoencoders of Different Sizes Patrick Leask, Bart Bussmann, Joseph Isaac Bloom, Curt Tigges, Noura Al Moubayed, Neel Nanda