Jaszczur, Sebastian

6 publications

ICML 2025 Joint MoE Scaling Laws: Mixture of Experts Can Be Memory Efficient Jan Ludziejewski, Maciej Pióro, Jakub Krajewski, Maciej Stefaniak, Michał Krutul, Jan Małaśnicki, Marek Cygan, Piotr Sankowski, Kamil Adamczewski, Piotr Miłoś, Sebastian Jaszczur

ICLRW 2025 Joint MoE Scaling Laws: Mixture of Experts Can Be Memory Efficient Jan Ludziejewski, Maciej Pióro, Jakub Krajewski, Michał Krutul, Jan Małaśnicki, Maciej Stefaniak, Piotr Sankowski, Marek Cygan, Kamil Adamczewski, Piotr Miłoś, Sebastian Jaszczur

AAAI 2025 Structured Packing in LLM Training Improves Long Context Utilization Konrad Staniszewski, Szymon Tworkowski, Sebastian Jaszczur, Yu Zhao, Henryk Michalewski, Lukasz Kucinski, Piotr Milos

NeurIPS 2024 Mixture of Tokens: Continuous MoE Through Cross-Example Aggregation Szymon Antoniak, Michał Krutul, Maciej Pióro, Jakub Krajewski, Jan Ludziejewski, Kamil Ciebiera, Krystian Król, Tomasz Odrzygóźdź, Marek Cygan, Sebastian Jaszczur

ICML 2024 Scaling Laws for Fine-Grained Mixture of Experts Jan Ludziejewski, Jakub Krajewski, Kamil Adamczewski, Maciej Pióro, Michał Krutul, Szymon Antoniak, Kamil Ciebiera, Krystian Król, Tomasz Odrzygóźdź, Piotr Sankowski, Marek Cygan, Sebastian Jaszczur

NeurIPS 2021 Sparse Is Enough in Scaling Transformers Sebastian Jaszczur, Aakanksha Chowdhery, Afroz Mohiuddin, Lukasz Kaiser, Wojciech Gajewski, Henryk Michalewski, Jonni Kanerva