Smith, Noah A.

53 publications

NeurIPS 2025 Broken Tokens? Your Language Model Can Secretly Handle Non-Canonical Tokenizations Brian Siyuan Zheng, Alisa Liu, Orevaoghene Ahia, Jonathan Hayase, Yejin Choi, Noah A. Smith

ICML 2025 DataDecide: How to Predict Best Pretraining Data with Small Experiments Ian Magnusson, Nguyen Tai, Ben Bogin, David Heineman, Jena D. Hwang, Luca Soldaini, Akshita Bhagia, Jiacheng Liu, Dirk Groeneveld, Oyvind Tafjord, Noah A. Smith, Pang Wei Koh, Jesse Dodge

CVPR 2025 Eval3D: Interpretable and Fine-Grained Evaluation for 3D Generation Shivam Duggal, Yushi Hu, Oscar Michel, Aniruddha Kembhavi, William T. Freeman, Noah A. Smith, Ranjay Krishna, Antonio Torralba, Ali Farhadi, Wei-Chiu Ma

NeurIPS 2025 FlexOLMo: Open Language Models for Flexible Data Use Weijia Shi, Akshita Bhagia, Kevin Farhat, Niklas Muennighoff, Jacob Morrison, Evan Pete Walsh, Dustin Schwenk, Shayne Longpre, Jake Poznanski, Allyson Ettinger, Daogao Liu, Margaret Li, Mike Lewis, Wen-tau Yih, Dirk Groeneveld, Luca Soldaini, Kyle Lo, Noah A. Smith, Luke Zettlemoyer, Pang Wei Koh, Hannaneh Hajishirzi, Ali Farhadi, Sewon Min

ICLR 2025 MUSE: Machine Unlearning Six-Way Evaluation for Language Models Weijia Shi, Jaechan Lee, Yangsibo Huang, Sadhika Malladi, Jieyu Zhao, Ari Holtzman, Daogao Liu, Luke Zettlemoyer, Noah A. Smith, Chiyuan Zhang

CVPR 2025 Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Vision-Language Models Matt Deitke, Christopher Clark, Sangho Lee, Rohun Tripathi, Yue Yang, Jae Sung Park, Mohammadreza Salehi, Niklas Muennighoff, Kyle Lo, Luca Soldaini, Jiasen Lu, Taira Anderson, Erin Bransom, Kiana Ehsani, Huong Ngo, YenSung Chen, Ajay Patel, Mark Yatskar, Chris Callison-Burch, Andrew Head, Rose Hendrix, Favyen Bastani, Eli VanderBilt, Nathan Lambert, Yvonne Chou, Arnavi Chheda, Jenna Sparks, Sam Skjonsberg, Michael Schmitz, Aaron Sarnat, Byron Bischoff, Pete Walsh, Chris Newell, Piper Wolters, Tanmay Gupta, Kuo-Hao Zeng, Jon Borchardt, Dirk Groeneveld, Crystal Nam, Sophie Lebrecht, Caitlin Wittlif, Carissa Schoenick, Oscar Michel, Ranjay Krishna, Luca Weihs, Noah A. Smith, Hannaneh Hajishirzi, Ross Girshick, Ali Farhadi, Aniruddha Kembhavi

ICLR 2025 OLMoE: Open Mixture-of-Experts Language Models Niklas Muennighoff, Luca Soldaini, Dirk Groeneveld, Kyle Lo, Jacob Morrison, Sewon Min, Weijia Shi, Evan Pete Walsh, Oyvind Tafjord, Nathan Lambert, Yuling Gu, Shane Arora, Akshita Bhagia, Dustin Schwenk, David Wadden, Alexander Wettig, Binyuan Hui, Tim Dettmers, Douwe Kiela, Ali Farhadi, Noah A. Smith, Pang Wei Koh, Amanpreet Singh, Hannaneh Hajishirzi

ICLR 2025 On Linear Representations and Pretraining Data Frequency in Language Models Jack Merullo, Noah A. Smith, Sarah Wiegreffe, Yanai Elazar

NeurIPS 2025 Signal and Noise: A Framework for Reducing Uncertainty in Language Model Evaluation David Heineman, Valentin Hofmann, Ian Magnusson, Yuling Gu, Noah A. Smith, Hannaneh Hajishirzi, Kyle Lo, Jesse Dodge

NeurIPS 2025 The Leaderboard Illusion Shivalika Singh, Yiyang Nan, Alex Wang, Daniel D'souza, Sayash Kapoor, Ahmet Üstün, Sanmi Koyejo, Yuntian Deng, Shayne Longpre, Noah A. Smith, Beyza Ermis, Marzieh Fadaee, Sara Hooker

ECCV 2024 BLINK: Multimodal Large Language Models Can See but Not Perceive Xingyu Fu, Yushi Hu, Bangzheng Li, Yu Feng, Haoyu Wang, Xudong Lin, Dan Roth, Noah A Smith, Wei-Chiu Ma, Ranjay Krishna

NeurIPSW 2024 Best Unpacking DPO and PPO: Disentangling Practices for Learning from Preference Feedback Hamish Ivison, Yizhong Wang, Jiacheng Liu, Zeqiu Wu, Valentina Pyatkin, Nathan Lambert, Noah A. Smith, Yejin Choi, Hannaneh Hajishirzi

NeurIPS 2024 Data Mixture Inference Attack: BPE Tokenizers Reveal Training Data Compositions Jonathan Hayase, Alisa Liu, Yejin Choi, Sewoong Oh, Noah A. Smith

ICMLW 2024 Data Mixture Inference: What Do BPE Tokenizers Reveal About Their Training Data? Jonathan Hayase, Alisa Liu, Yejin Choi, Sewoong Oh, Noah A. Smith

NeurIPS 2024 Decoding-Time Language Model Alignment with Multiple Objectives Ruizhe Shi, Yifang Chen, Yushi Hu, Alisa Liu, Hannaneh Hajishirzi, Noah A. Smith, Simon S. Du

ICMLW 2024 Decoding-Time Language Model Alignment with Multiple Objectives Ruizhe Shi, Yifang Chen, Yushi Hu, Alisa Liu, Hannaneh Hajishirzi, Noah A. Smith, Simon Shaolei Du

CLeaR 2024 Estimating the Causal Effect of Early ArXiving on Paper Acceptance Yanai Elazar, Jiayao Zhang, David Wadden, Bo Zhang, Noah A. Smith

NeurIPS 2024 Evaluating Copyright Takedown Methods for Language Models Boyi Wei, Weijia Shi, Yangsibo Huang, Noah A. Smith, Chiyuan Zhang, Luke Zettlemoyer, Kai Li, Peter Henderson

ICML 2024 How Language Model Hallucinations Can Snowball Muru Zhang, Ofir Press, William Merrill, Alisa Liu, Noah A. Smith

ICLR 2024 In-Context Pretraining: Language Modeling Beyond Document Boundaries Weijia Shi, Sewon Min, Maria Lomeli, Chunting Zhou, Margaret Li, Xi Victoria Lin, Noah A. Smith, Luke Zettlemoyer, Wen-tau Yih, Mike Lewis

ICMLW 2024 Learning Syntax Without Planting Trees: Understanding When and Why Transformers Generalize Hierarchically Kabir Ahuja, Vidhisha Balachandran, Madhur Panwar, Tianxing He, Noah A. Smith, Navin Goyal, Yulia Tsvetkov

NeurIPS 2024 MAGNET: Improving the Multilingual Fairness of Language Models with Adaptive Gradient-Based Tokenization Orevaoghene Ahia, Sachin Kumar, Hila Gonen, Valentin Hofmann, Tomasz Limisiewicz, Yulia Tsvetkov, Noah A. Smith

NeurIPS 2024 Paloma: A Benchmark for Evaluating Language Model Fit Ian Magnusson, Akshita Bhagia, Valentin Hofmann, Luca Soldaini, Ananya Harsh Jha, Oyvind Tafjord, Dustin Schwenk, Evan Pete Walsh, Yanai Elazar, Kyle Lo, Dirk Groeneveld, Iz Beltagy, Hannaneh Hajishirzi, Noah A. Smith, Kyle Richardson, Jesse Dodge

ICLR 2024 SILO Language Models: Isolating Legal Risk in a Nonparametric Datastore Sewon Min, Suchin Gururangan, Eric Wallace, Weijia Shi, Hannaneh Hajishirzi, Noah A. Smith, Luke Zettlemoyer

NeurIPS 2024 The Art of Saying No: Contextual Noncompliance in Language Models Faeze Brahman, Sachin Kumar, Vidhisha Balachandran, Pradeep Dasigi, Valentina Pyatkin, Abhilasha Ravichander, Sarah Wiegreffe, Nouha Dziri, Khyathi Chandu, Jack Hessel, Yulia Tsvetkov, Noah A. Smith, Yejin Choi, Hannaneh Hajishirzi

NeurIPS 2024 Unpacking DPO and PPO: Disentangling Best Practices for Learning from Preference Feedback Hamish Ivison, Yizhong Wang, Jiacheng Liu, Zeqiu Wu, Valentina Pyatkin, Nathan Lambert, Noah A. Smith, Yejin Choi, Hannaneh Hajishirzi

NeurIPS 2024 Visual Sketchpad: Sketching as a Visual Chain of Thought for Multimodal Language Models Yushi Hu, Weijia Shi, Xingyu Fu, Dan Roth, Mari Ostendorf, Luke Zettlemoyer, Noah A. Smith, Ranjay Krishna

NeurIPSW 2024 Visual Sketchpad: Sketching as a Visual Chain of Thought for Multimodal Language Models Yushi Hu, Weijia Shi, Xingyu Fu, Dan Roth, Mari Ostendorf, Luke Zettlemoyer, Noah A. Smith, Ranjay Krishna

ICLR 2024 What's in My Big Data? Yanai Elazar, Akshita Bhagia, Ian Helgi Magnusson, Abhilasha Ravichander, Dustin Schwenk, Alane Suhr, Evan Pete Walsh, Dirk Groeneveld, Luca Soldaini, Sameer Singh, Hannaneh Hajishirzi, Noah A. Smith, Jesse Dodge

ICLR 2023 Binding Language Models in Symbolic Languages Zhoujun Cheng, Tianbao Xie, Peng Shi, Chengzu Li, Rahul Nadkarni, Yushi Hu, Caiming Xiong, Dragomir Radev, Mari Ostendorf, Luke Zettlemoyer, Noah A. Smith, Tao Yu

NeurIPS 2023 Fine-Grained Human Feedback Gives Better Rewards for Language Model Training Zeqiu Wu, Yushi Hu, Weijia Shi, Nouha Dziri, Alane Suhr, Prithviraj Ammanabrolu, Noah A. Smith, Mari Ostendorf, Hannaneh Hajishirzi

NeurIPS 2023 How Far Can Camels Go? Exploring the State of Instruction Tuning on Open Resources Yizhong Wang, Hamish Ivison, Pradeep Dasigi, Jack Hessel, Tushar Khot, Khyathi Chandu, David Wadden, Kelsey MacMillan, Noah A. Smith, Iz Beltagy, Hannaneh Hajishirzi

ICCV 2023 PromptCap: Prompt-Guided Image Captioning for VQA with GPT-3 Yushi Hu, Hang Hua, Zhengyuan Yang, Weijia Shi, Noah A. Smith, Jiebo Luo

NeurIPS 2023 RealTime QA: What's the Answer Right Now? Jungo Kasai, Keisuke Sakaguchi, Yoichi Takahashi, Ronan Le Bras, Akari Asai, Xinyan Yu, Dragomir Radev, Noah A. Smith, Yejin Choi, Kentaro Inui

NeurIPSW 2023 SILO Language Models: Isolating Legal Risk in a Nonparametric Datastore Sewon Min, Suchin Gururangan, Eric Wallace, Weijia Shi, Hannaneh Hajishirzi, Noah A. Smith, Luke Zettlemoyer

ICLR 2023 Selective Annotation Makes Language Models Better Few-Shot Learners Hongjin Su, Jungo Kasai, Chen Henry Wu, Weijia Shi, Tianlu Wang, Jiayi Xin, Rui Zhang, Mari Ostendorf, Luke Zettlemoyer, Noah A. Smith, Tao Yu

ICCV 2023 TIFA: Accurate and Interpretable Text-to-Image Faithfulness Evaluation with Question Answering Yushi Hu, Benlin Liu, Jungo Kasai, Yizhong Wang, Mari Ostendorf, Ranjay Krishna, Noah A. Smith

NeurIPSW 2022 Branch-Train-Merge: Embarrassingly Parallel Training of Expert Language Models Margaret Li, Suchin Gururangan, Tim Dettmers, Mike Lewis, Tim Althoff, Noah A. Smith, Luke Zettlemoyer

ICLR 2020 Situating Sentence Embedders with Nearest Neighbor Overlap Lucy H. Lin, Noah A. Smith

AAAI 2019 ATOMIC: An Atlas of Machine Commonsense for If-Then Reasoning Maarten Sap, Ronan Le Bras, Emily Allaway, Chandra Bhagavatula, Nicholas Lourie, Hannah Rashkin, Brendan Roof, Noah A. Smith, Yejin Choi

ICLR 2016 Segmental Recurrent Neural Networks Lingpeng Kong, Chris Dyer, Noah A. Smith

JMLR 2015 AD3: Alternating Directions Dual Decomposition for MAP Inference in Graphical Models André F. T. Martins, Mário A. T. Figueiredo, Pedro M. Q. Aguiar, Noah A. Smith, Eric P. Xing

AAAI 2015 The Utility of Text: The Case of Amicus Briefs and the Supreme Court Yanchuan Sim, Bryan R. Routledge, Noah A. Smith

AAAI 2015 Weakly-Supervised Grammar-Informed Bayesian CCG Parser Learning Dan Garrette, Chris Dyer, Jason Baldridge, Noah A. Smith

NeurIPS 2014 Conditional Random Field Autoencoders for Unsupervised Structured Prediction Waleed Ammar, Chris Dyer, Noah A. Smith

ICML 2011 An Augmented Lagrangian Approach to Constrained MAP Inference André F. T. Martins, Mário A. T. Figueiredo, Pedro M. Q. Aguiar, Noah A. Smith, Eric P. Xing

JMLR 2010 Covariance in Unsupervised Learning of Probabilistic Grammars Shay B. Cohen, Noah A. Smith

NeurIPS 2010 Empirical Risk Minimization with Approximations of Probabilistic Grammars Noah A. Smith, Shay B. Cohen

JMLR 2009 Nonextensive Information Theoretic Kernels on Measures André F. T. Martins, Noah A. Smith, Eric P. Xing, Pedro M. Q. Aguiar, Mário A. T. Figueiredo

ICML 2009 Polyhedral Outer Approximations with Application to Natural Language Parsing André F. T. Martins, Noah A. Smith, Eric P. Xing

ICML 2009 Tutorial Summary: Structured Prediction for Natural Language Processing Noah A. Smith

NeurIPS 2008 Logistic Normal Priors for Unsupervised Probabilistic Grammar Induction Shay B. Cohen, Kevin Gimpel, Noah A. Smith

ICML 2008 Nonextensive Entropic Kernels André F. T. Martins, Mário A. T. Figueiredo, Pedro M. Q. Aguiar, Noah A. Smith, Eric P. Xing