Nagireddy, Manish

8 publications

ICLR 2025 Programming Refusal with Conditional Activation Steering Bruce W. Lee, Inkit Padhi, Karthikeyan Natesan Ramamurthy, Erik Miehling, Pierre Dognin, Manish Nagireddy, Amit Dhurandhar

TMLR 2025 The RealHumanEval: Evaluating Large Language Models’ Abilities to Support Programmers Hussein Mozannar, Valerie Chen, Mohammed Alsobay, Subhro Das, Sebastian Zhao, Dennis Wei, Manish Nagireddy, Prasanna Sattigeri, Ameet Talwalkar, David Sontag

IJCAI 2024 ComVas: Contextual Moral Values Alignment System Inkit Padhi, Pierre L. Dognin, Jesus Rios, Ronny Luss, Swapnaja Achintalwar, Matthew Riemer, Miao Liu, Prasanna Sattigeri, Manish Nagireddy, Kush R. Varshney, Djallel Bouneffouf

NeurIPSW 2024 SocialStigmaQA Spanish and Japanese - Towards Multicultural Adaptation of Social Bias Benchmarks Clara Higuera Cabañes, Ryo Iwaki, Beñat San Sebastian, Rosario Uceda Sosa, Manish Nagireddy, Hiroshi Kanayama, Mikio Takeuchi, Gakuto Kurata, Karthikeyan Natesan Ramamurthy

AAAI 2024 SocialStigmaQA: A Benchmark to Uncover Stigma Amplification in Generative Language Models Manish Nagireddy, Lamogha Chiazor, Moninder Singh, Ioana Baldini

NeurIPSW 2024 Value Alignment from Unstructured Text Inkit Padhi, Karthikeyan Natesan Ramamurthy, Prasanna Sattigeri, Manish Nagireddy, Pierre Dognin, Kush R. Varshney

NeurIPSW 2023 Influence Based Approaches to Algorithmic Fairness: A Closer Look Soumya Ghosh, Prasanna Sattigeri, Inkit Padhi, Manish Nagireddy, Jie Chen

NeurIPSW 2023 Simulating Iterative Human-AI Interaction in Programming with LLMs Hussein Mozannar, Valerie Chen, Dennis Wei, Prasanna Sattigeri, Manish Nagireddy, Subhro Das, Ameet Talwalkar, David Sontag