Łańcucki, Adrian

2 publications

NeurIPS 2025 Inference-Time Hyper-Scaling with KV Cache Compression Adrian Łańcucki, Konrad Staniszewski, Piotr Nawrot, Edoardo Ponti

ICML 2024 Dynamic Memory Compression: Retrofitting LLMs for Accelerated Inference Piotr Nawrot, Adrian Łańcucki, Marcin Chochowski, David Tarjan, Edoardo Ponti