Treleaven, Philip Colin

6 publications

NeurIPSW 2024 From Text to Emoji: How PEFT-Driven Personality Manipulation Unleashes the Emoji Potential in LLMs Navya Jain, Zekun Wu, Cristian Enrique Munoz Villalobos, Airlie Hilliard, Adriano Koshiyama, Emre Kazim, Philip Colin Treleaven

NeurIPSW 2024 HEARTS: A Holistic Framework for Explainable, Sustainable and Robust Text Stereotype Detection Theo King, Zekun Wu, Adriano Koshiyama, Emre Kazim, Philip Colin Treleaven

NeurIPSW 2024 HEARTS: A Holistic Framework for Explainable, Sustainable and Robust Text Stereotype Detection Theo King, Zekun Wu, Adriano Koshiyama, Emre Kazim, Philip Colin Treleaven

NeurIPSW 2024 LLM Alignment Using Soft Prompt Tuning: The Case of Cultural Alignment Reem I. Masoud, Martin Ferianc, Philip Colin Treleaven, Miguel R. D. Rodrigues

NeurIPSW 2024 THaMES: An End-to-End Tool for Hallucination Mitigation and Evaluation in Large Language Models Mengfei Liang, Archish Arun, Zekun Wu, Cristian Enrique Munoz Villalobos, Jonathan Lutch, Emre Kazim, Adriano Koshiyama, Philip Colin Treleaven

ICLRW 2024 The Effect of Model Size on LLM Post-Hoc Explainability via LIME Henning Heyen, Amy Widdicombe, Noah Yamamoto Siegel, Philip Colin Treleaven, Maria Perez-Ortiz