Narasimhan, Karthik R

17 publications

ICML 2025 EnIGMA: Interactive Tools Substantially Assist LM Agents in Finding Security Vulnerabilities Talor Abramovich, Meet Udeshi, Minghao Shao, Kilian Lieret, Haoran Xi, Kimberly Milner, Sofija Jancheska, John Yang, Carlos E Jimenez, Farshad Khorrami, Prashanth Krishnamurthy, Brendan Dolan-Gavitt, Muhammad Shafique, Karthik R Narasimhan, Ramesh Karri, Ofir Press

ICLR 2025 SWE-Bench Multimodal: Do AI Systems Generalize to Visual Software Domains? John Yang, Carlos E Jimenez, Alex L Zhang, Kilian Lieret, Joyce Yang, Xindi Wu, Ori Press, Niklas Muennighoff, Gabriel Synnaeve, Karthik R Narasimhan, Diyi Yang, Sida Wang, Ofir Press

NeurIPS 2025 When Models Know More than They Can Explain: Quantifying Knowledge Transfer in Human-AI Collaboration Quan Shi, Carlos E Jimenez, Shunyu Yao, Nick Haber, Diyi Yang, Karthik R Narasimhan

ICLR 2025 {$\tau$}-Bench: A Benchmark for \underline{T}ool-\underline{A}gent-\underline{U}ser Interaction in Real-World Domains Shunyu Yao, Noah Shinn, Pedram Razavi, Karthik R Narasimhan

ICLR 2024 COLLIE: Systematic Construction of Constrained Text Generation Tasks Shunyu Yao, Howard Chen, Austin W. Hanjie, Runzhe Yang, Karthik R Narasimhan

TMLR 2024 Cognitive Architectures for Language Agents Theodore Sumers, Shunyu Yao, Karthik R Narasimhan, Thomas L. Griffiths

ICLR 2024 SWE-Bench: Can Language Models Resolve Real-World GitHub Issues? Carlos E Jimenez, John Yang, Alexander Wettig, Shunyu Yao, Kexin Pei, Ofir Press, Karthik R Narasimhan

TMLR 2024 Scaling Laws for Imitation Learning in Single-Agent Games Jens Tuyls, Dhruv Madeka, Kari Torkkola, Dean Foster, Karthik R Narasimhan, Sham M. Kakade

NeurIPSW 2023 InstructEval: Systematic Evaluation of Instruction Selection Methods Anirudh Ajith, Mengzhou Xia, Ameet Deshpande, Karthik R Narasimhan

NeurIPSW 2023 Language Agents as Hackers: Evaluating Cybersecurity Skills with Capture the Flag John Yang, Akshara Prabhakar, Shunyu Yao, Kexin Pei, Karthik R Narasimhan

ICLR 2023 ReAct: Synergizing Reasoning and Acting in Language Models Shunyu Yao, Jeffrey Zhao, Dian Yu, Nan Du, Izhak Shafran, Karthik R Narasimhan, Yuan Cao

ICML 2023 SemSup-XC: Semantic Supervision for Zero and Few-Shot Extreme Classification Pranjal Aggarwal, Ameet Deshpande, Karthik R Narasimhan

CoRL 2022 Leveraging Language for Accelerated Learning of Tool Manipulation Allen Z. Ren, Bharat Govil, Tsung-Yen Yang, Karthik R Narasimhan, Anirudha Majumdar

ICLR 2022 Linking Emergent and Natural Languages via Corpus Transfer Shunyu Yao, Mo Yu, Yang Zhang, Karthik R Narasimhan, Joshua B. Tenenbaum, Chuang Gan

ICLR 2022 Multi-Stage Episodic Control for Strategic Exploration in Text Games Jens Tuyls, Shunyu Yao, Sham M. Kakade, Karthik R Narasimhan

NeurIPSW 2022 ReAct: Synergizing Reasoning and Acting in Language Models Shunyu Yao, Jeffrey Zhao, Dian Yu, Izhak Shafran, Karthik R Narasimhan, Yuan Cao

NeurIPSW 2022 Towards an Enhanced, Faithful, and Adaptable Web Interaction Environment John Yang, Howard Chen, Karthik R Narasimhan