CARIM: Caption-Based Autonomous Driving Scene Retrieval via Inclusive Text Matching

Ki, Minjoo; Kim, Daejung; Kim, Kisung; Kim, Seon Joo; Lee, Jinhan

CARIM: Caption-Based Autonomous Driving Scene Retrieval via Inclusive Text Matching

Minjoo Ki, Daejung Kim, Kisung Kim, Seon Joo Kim, Jinhan Lee

ICCV 2025 pp. 22036-22045

/iccv/2025/ki2025iccv-carim/

Abstract

Text-to-video retrieval serves as a powerful tool for navigating vast video databases. This is particularly useful in autonomous driving to retrieve scenes from a text query to simulate and evaluate the driving system in desired scenarios. However, traditional ranking-based retrieval methods often return partial matches that do not satisfy all query conditions. To address this, we introduce Inclusive Text-to-Video Retrieval, which retrieves only videos that meet all specified conditions, regardless of additional irrelevant elements. We propose CARIM, a framework for driving scene retrieval that employs inclusive text matching. By utilizing Vision-Language Model (VLM) and Large Language Model (LLM) to generate compressed captions for driving scenes, we transform text-to-video retrieval into a more efficient text-to-text retrieval problem, eliminating modality mismatches and heavy annotation costs. We introduce a novel positive and negative data curation strategy and an attention-based scoring mechanism tailored for driving scene retrieval. Experimental results on the DRAMA dataset demonstrate that CARIM outperforms state-of-the-art retrieval methods, excelling in edge cases where traditional models fail.

PDF ICCV Semantic Scholar

Cite

Text

Ki et al. "CARIM: Caption-Based Autonomous Driving Scene Retrieval via Inclusive Text Matching." International Conference on Computer Vision, 2025.

Markdown

[Ki et al. "CARIM: Caption-Based Autonomous Driving Scene Retrieval via Inclusive Text Matching." International Conference on Computer Vision, 2025.](https://mlanthology.org/iccv/2025/ki2025iccv-carim/)

BibTeX

@inproceedings{ki2025iccv-carim,
  title     = {{CARIM: Caption-Based Autonomous Driving Scene Retrieval via Inclusive Text Matching}},
  author    = {Ki, Minjoo and Kim, Daejung and Kim, Kisung and Kim, Seon Joo and Lee, Jinhan},
  booktitle = {International Conference on Computer Vision},
  year      = {2025},
  pages     = {22036-22045},
  url       = {https://mlanthology.org/iccv/2025/ki2025iccv-carim/}
}