WAVE: Learning Unified & Versatile Audio-Visual Embeddings with Multimodal LLM

Tang, Changli; Xiao, Qinfan; Mei, Ke; Wang, Tianyi; Rao, Fengyun; Zhang, Chao

WAVE: Learning Unified & Versatile Audio-Visual Embeddings with Multimodal LLM

Changli Tang, Qinfan Xiao, Ke Mei, Tianyi Wang, Fengyun Rao, Chao Zhang

ICLR 2026

/iclr/2026/tang2026iclr-wave/

Abstract

While embeddings from multimodal large language models (LLMs) excel as general-purpose representations, their application to dynamic modalities like audio and video remains underexplored. We introduce WAVE (\textbf{u}nified \& \textbf{v}ersatile \textbf{a}udio-\textbf{v}isual \textbf{e}mbeddings), the first LLM-based embedding that creates a unified representation space for text, audio, and video modalities. WAVE employs a novel hierarchical feature fusion strategy and a joint multi-modal, multi-task training approach to enable two key capabilities: any-to-any cross-modal retrieval and the generation of prompt-aware embeddings tailored to user instructions. Experimentally, WAVE sets a new state-of-the-art on the MMEB-v2 video benchmark and achieves superior results in audio and video-to-audio retrieval. Its prompt-aware nature also yields remarkable performance in multimodal question answering, significantly outperforming existing embedding models. Ablation studies validate our joint training strategy, demonstrating improved performance across all modalities. With a newly introduced benchmark for versatile audio-visual learning, WAVE opens up broad possibilities for cross-modal, any-to-any applications. Our code and checkpoints are released at \href{https://github.com/TCL606/WAVE}https://github.com/TCL606/WAVE.

PDF ICLR OpenReview Semantic Scholar

Cite

Text

Tang et al. "WAVE: Learning Unified & Versatile Audio-Visual Embeddings with Multimodal LLM." International Conference on Learning Representations, 2026.

Markdown

[Tang et al. "WAVE: Learning Unified & Versatile Audio-Visual Embeddings with Multimodal LLM." International Conference on Learning Representations, 2026.](https://mlanthology.org/iclr/2026/tang2026iclr-wave/)

BibTeX

@inproceedings{tang2026iclr-wave,
  title     = {{WAVE: Learning Unified & Versatile Audio-Visual Embeddings with Multimodal LLM}},
  author    = {Tang, Changli and Xiao, Qinfan and Mei, Ke and Wang, Tianyi and Rao, Fengyun and Zhang, Chao},
  booktitle = {International Conference on Learning Representations},
  year      = {2026},
  url       = {https://mlanthology.org/iclr/2026/tang2026iclr-wave/}
}