VisionTrim: Unified Vision Token Compression for Training-Free MLLM Acceleration

Yu, Hanxun; Li, Wentong; Qu, Xuan; Wang, Song; Chen, Junbo; Zhu, Jianke

VisionTrim: Unified Vision Token Compression for Training-Free MLLM Acceleration

Hanxun Yu, Wentong Li, Xuan Qu, Song Wang, Junbo Chen, Jianke Zhu

ICLR 2026

/iclr/2026/yu2026iclr-visiontrim/

Abstract

Multimodal large language models (MLLMs) suffer from high computational costs due to excessive visual tokens, particularly in high-resolution and video-based scenarios. Existing token reduction methods typically focus on isolated pipeline components and often neglect textual alignment, leading to performance degradation. In this paper, we propose VisionTrim, a unified framework for training-free MLLM acceleration, integrating two effective plug-and-play modules: 1) the Dominant Vision Token Selection (DVTS) module, which preserves essential visual tokens via global-local view, and 2) the Text-Guided Vision Complement (TGVC) module, which facilitates context-aware token merging guided by textual cues. Extensive experiments across diverse image and video multimodal benchmarks demonstrate the performance superiority of our VisionTrim, advancing practical MLLM deployment in real-world applications. The code is available at: https://github.com/hanxunyu/VisionTrim.

PDF ICLR OpenReview Semantic Scholar

Cite

Text

Yu et al. "VisionTrim: Unified Vision Token Compression for Training-Free MLLM Acceleration." International Conference on Learning Representations, 2026.

Markdown

[Yu et al. "VisionTrim: Unified Vision Token Compression for Training-Free MLLM Acceleration." International Conference on Learning Representations, 2026.](https://mlanthology.org/iclr/2026/yu2026iclr-visiontrim/)

BibTeX

@inproceedings{yu2026iclr-visiontrim,
  title     = {{VisionTrim: Unified Vision Token Compression for Training-Free MLLM Acceleration}},
  author    = {Yu, Hanxun and Li, Wentong and Qu, Xuan and Wang, Song and Chen, Junbo and Zhu, Jianke},
  booktitle = {International Conference on Learning Representations},
  year      = {2026},
  url       = {https://mlanthology.org/iclr/2026/yu2026iclr-visiontrim/}
}