Knight, Christina Q

3 publications

ICLR 2026 Eliciting Harmful Capabilities by Fine-Tuning on Safeguarded Outputs Jackson Kaunismaa, John Hughes, Christina Q Knight, Avery Griffin, Mrinank Sharma, Erik Jones

ICLR 2026 MoReBench: Evaluating Procedural and Pluralistic Moral Reasoning in Language Models, More than Outcomes Yu Ying Chiu, Michael S. Lee, Rachel Calcott, Brandon Handoko, Paul de Font-Reaulx, Paula Rodriguez, Chen Bo Calvin Zhang, Ziwen Han, Udari Madhushani Sehwag, Yash Maurya, Christina Q Knight, Harry R. Lloyd, Florence Bacus, Mantas Mazeika, Bing Liu, Yejin Choi, Mitchell L Gordon, Sydney Levine

ICLR 2026 Reliable Weak-to-Strong Monitoring of LLM Agents Neil Kale, Chen Bo Calvin Zhang, Kevin Zhu, Ankit Aich, Paula Rodriguez, Christina Q Knight, Zifan Wang