Levine, Sydney

9 publications

ICLR 2025 Language Model Alignment in Multilingual Trolley Problems Zhijing Jin, Max Kleiman-Weiner, Giorgio Piatti, Sydney Levine, Jiarui Liu, Fernando Gonzalez Adauto, Francesco Ortu, András Strausz, Mrinmaya Sachan, Rada Mihalcea, Yejin Choi, Bernhard Schölkopf

ICML 2025 SafetyAnalyst: Interpretable, Transparent, and Steerable Safety Moderation for AI Behavior Jing-Jing Li, Valentina Pyatkin, Max Kleiman-Weiner, Liwei Jiang, Nouha Dziri, Anne Collins, Jana Schaich Borg, Maarten Sap, Yejin Choi, Sydney Levine

NeurIPSW 2024 Can Language Models Reason About Individualistic Human Values and Preferences? Liwei Jiang, Sydney Levine, Yejin Choi

NeurIPSW 2024 Intuitions of Compromise: Utilitarianism vs. Contractualism Jared Moore, Yejin Choi, Sydney Levine

NeurIPSW 2024 Multilingual Trolley Problems for Language Models Zhijing Jin, Max Kleiman-Weiner, Giorgio Piatti, Sydney Levine, Jiarui Liu, Fernando Gonzalez Adauto, Francesco Ortu, András Strausz, Mrinmaya Sachan, Rada Mihalcea, Yejin Choi, Bernhard Schölkopf

NeurIPSW 2024 SafetyAnalyst: Interpretable, Transparent, and Steerable LLM Safety Moderation Jing-Jing Li, Valentina Pyatkin, Max Kleiman-Weiner, Liwei Jiang, Nouha Dziri, Anne Collins, Jana Schaich Borg, Maarten Sap, Yejin Choi, Sydney Levine

AAAI 2024 Value Kaleidoscope: Engaging AI with Pluralistic Human Values, Rights, and Duties Taylor Sorensen, Liwei Jiang, Jena D. Hwang, Sydney Levine, Valentina Pyatkin, Peter West, Nouha Dziri, Ximing Lu, Kavel Rao, Chandra Bhagavatula, Maarten Sap, John Tasioulas, Yejin Choi

ICMLW 2023 Neuro-Symbolic Models of Human Moral Judgment: LLMs as Automatic Feature Extractors Joe Kwon, Sydney Levine, Joshua B. Tenenbaum

NeurIPS 2022 When to Make Exceptions: Exploring Language Models as Accounts of Human Moral Judgment Zhijing Jin, Sydney Levine, Fernando Gonzalez Adauto, Ojasv Kamal, Maarten Sap, Mrinmaya Sachan, Rada Mihalcea, Josh Tenenbaum, Bernhard Schölkopf