Ghandeharioun, Asma

12 publications

ICML 2024 Interpretability Illusions in the Generalization of Simplified Models Dan Friedman, Andrew Kyle Lampinen, Lucas Dixon, Danqi Chen, Asma Ghandeharioun

ICML 2024 Patchscopes: A Unifying Framework for Inspecting Hidden Representations of Language Models Asma Ghandeharioun, Avi Caciularu, Adam Pearce, Lucas Dixon, Mor Geva

NeurIPS 2024 Who's Asking? User Personas and the Mechanics of Latent Misalignment Asma Ghandeharioun, Ann Yuan, Marius Guerard, Emily Reif, Michael A. Lepori, Lucas Dixon

NeurIPSW 2023 Comparing Representational and Functional Similarity in Small Transformer Language Models Dan Friedman, Andrew Kyle Lampinen, Lucas Dixon, Danqi Chen, Asma Ghandeharioun

NeurIPS 2023 Does Localization Inform Editing? Surprising Differences in Causality-Based Localization vs. Knowledge Editing in Language Models Peter Hase, Mohit Bansal, Been Kim, Asma Ghandeharioun

NeurIPS 2023 Post Hoc Explanations of Language Models Can Improve Language Models Satyapriya Krishna, Jiaqi Ma, Dylan Slack, Asma Ghandeharioun, Sameer Singh, Himabindu Lakkaraju

ICLR 2022 DISSECT: Disentangled Simultaneous Explanations via Concept Traversals Asma Ghandeharioun, Been Kim, Chun-Liang Li, Brendan Jou, Brian Eoff, Rosalind Picard

AAAI 2020 Hierarchical Reinforcement Learning for Open-Domain Dialog Abdelrhman Saleh, Natasha Jaques, Asma Ghandeharioun, Judy Hanwen Shen, Rosalind W. Picard

ICLR 2020 Way Off-Policy Batch Deep Reinforcement Learning of Human Preferences in Dialog Natasha Jaques, Asma Ghandeharioun, Judy Hanwen Shen, Craig Ferguson, Agata Lapedriza, Noah Jones, Shixiang Gu, Rosalind Picard

NeurIPS 2019 Approximating Interactive Human Evaluation with Self-Play for Open-Domain Dialog Systems Asma Ghandeharioun, Judy Hanwen Shen, Natasha Jaques, Craig Ferguson, Noah Jones, Agata Lapedriza, Rosalind Picard

ICCVW 2019 Characterizing Sources of Uncertainty to Proxy Calibration and Disambiguate Annotator and Data Bias Asma Ghandeharioun, Brian Eoff, Brendan Jou, Rosalind W. Picard

AISTATS 2018 Multimodal Prediction and Personalization of Photo Edits with Deep Generative Models Ardavan Saeedi, Matthew D. Hoffman, Stephen J. DiVerdi, Asma Ghandeharioun, Matthew J. Johnson, Ryan P. Adams