Panfilov, Alexander

5 publications

ICLRW 2025 ASIDE: Architectural Separation of Instructions and Data in Language Models Egor Zverev, Evgenii Kortukov, Alexander Panfilov, Soroush Tabesh, Sebastian Lapuschkin, Wojciech Samek, Christoph H. Lampert

ICML 2025 An Interpretable N-Gram Perplexity Threat Model for Large Language Model Jailbreaks Valentyn Boreiko, Alexander Panfilov, Vaclav Voracek, Matthias Hein, Jonas Geiping

NeurIPSW 2024 A Realistic Threat Model for Large Language Model Jailbreaks Valentyn Boreiko, Alexander Panfilov, Vaclav Voracek, Matthias Hein, Jonas Geiping

ICLR 2024 Provable Compositional Generalization for Object-Centric Learning Thaddäus Wiedemer, Jack Brady, Alexander Panfilov, Attila Juhos, Matthias Bethge, Wieland Brendel

CoLLAs 2023 A Minimalist Approach for Domain Adaptation with Optimal Transport Arip Asadulaev, Vitaly Shutov, Alexander Korotin, Alexander Panfilov, Vladislava Kontsevaya, Andrey Filchenkov