Perez-Campanero, Natalia

3 publications

ICLRW 2025 Latent Adversarial Training Improves the Representation of Refusal Alexandra Abbas, Nora Petrova, Hélios Lyons, Natalia Perez-Campanero

ICLRW 2025 Self-Ablating Transformers: More Interpretability, Less Sparsity Jeremias Lino Ferrao, Luhan Mikaelson, Keenan Pepper, Natalia Perez-Campanero

ICLRW 2025 The Steganographic Potentials of Language Models Artem Karpov, Tinuade Adeleke, Seong Hah Cho, Natalia Perez-Campanero