Weng, Lilian

7 publications

ICLR 2025 First-Person Fairness in Chatbots Tyna Eloundou, Alex Beutel, David G. Robinson, Keren Gu, Anna-Luisa Brakman, Pamela Mishkin, Meghan Shah, Johannes Heidecke, Lilian Weng, Adam Tauman Kalai

ICLR 2025 MLE-Bench: Evaluating Machine Learning Agents on Machine Learning Engineering Jun Shern Chan, Neil Chowdhury, Oliver Jaffe, James Aung, Dane Sherburn, Evan Mays, Giulio Starace, Kevin Liu, Leon Maksin, Tejal Patwardhan, Aleksander Madry, Lilian Weng

NeurIPSW 2024 Diverse and Effective Red Teaming with Auto-Generated Rewards and Multi-Step Reinforcement Learning Alex Beutel, Kai Yuanqing Xiao, Johannes Heidecke, Lilian Weng

ICMLW 2024 Rule Based Rewards for Fine-Grained LLM Safety Tong Mu, Alec Helyar, Johannes Heidecke, Joshua Achiam, Andrea Vallone, Ian D Kivlichan, Molly Lin, Alex Beutel, John Schulman, Lilian Weng

NeurIPS 2024 Rule Based Rewards for Language Model Safety Tong Mu, Alec Helyar, Johannes Heidecke, Joshua Achiam, Andrea Vallone, Ian Kivlichan, Molly Lin, Alex Beutel, John Schulman, Lilian Weng

AAAI 2023 A Holistic Approach to Undesired Content Detection in the Real World Todor Markov, Chong Zhang, Sandhini Agarwal, Florentine Eloundou Nekoul, Theodore Lee, Steven Adler, Angela Jiang, Lilian Weng

IJCAI 2020 Automatic Curriculum Learning for Deep RL: A Short Survey Rémy Portelas, Cédric Colas, Lilian Weng, Katja Hofmann, Pierre-Yves Oudeyer