MMAudio: Taming Multimodal Joint Training for High-Quality Video-to-Audio Synthesis

Cheng, Ho Kei; Ishii, Masato; Hayakawa, Akio; Shibuya, Takashi; Schwing, Alexander; Mitsufuji, Yuki

doi:10.1109/CVPR52734.2025.02691

MMAudio: Taming Multimodal Joint Training for High-Quality Video-to-Audio Synthesis

Ho Kei Cheng, Masato Ishii, Akio Hayakawa, Takashi Shibuya, Alexander Schwing, Yuki Mitsufuji

CVPR 2025 pp. 28901-28911

doi:10.1109/CVPR52734.2025.02691 /cvpr/2025/cheng2025cvpr-mmaudio/

Abstract

We propose to synthesize high-quality and synchronized audio, given video and optional text conditions, using a novel multimodal joint training framework (MMAudio). In contrast to single-modality training conditioned on (limited) video data only, MMAudio is jointly trained with larger-scale, readily available text-audio data to learn to generate semantically aligned high-quality audio samples. Additionally, we improve audio-visual synchrony with a conditional synchronization module that aligns video conditions with audio latents at the frame level. Trained with a flow matching objective, MMAudio achieves new video-to-audio state-of-the-art among public models in terms of audio quality, semantic alignment, and audio-visual synchronization, while having a low inference time (1.23s to generate an 8s clip) and just 157M parameters. MMAudio also achieves surprisingly competitive performance in text-to-audio generation, showing that joint training does not hinder single-modality performance. Code, models, and demo are available at: hkchengrex.github.io/MMAudio

PDF CVPR Semantic Scholar

Cite

Text

Cheng et al. "MMAudio: Taming Multimodal Joint Training for High-Quality Video-to-Audio Synthesis." Conference on Computer Vision and Pattern Recognition, 2025. doi:10.1109/CVPR52734.2025.02691

Markdown

[Cheng et al. "MMAudio: Taming Multimodal Joint Training for High-Quality Video-to-Audio Synthesis." Conference on Computer Vision and Pattern Recognition, 2025.](https://mlanthology.org/cvpr/2025/cheng2025cvpr-mmaudio/) doi:10.1109/CVPR52734.2025.02691

BibTeX

@inproceedings{cheng2025cvpr-mmaudio,
  title     = {{MMAudio: Taming Multimodal Joint Training for High-Quality Video-to-Audio Synthesis}},
  author    = {Cheng, Ho Kei and Ishii, Masato and Hayakawa, Akio and Shibuya, Takashi and Schwing, Alexander and Mitsufuji, Yuki},
  booktitle = {Conference on Computer Vision and Pattern Recognition},
  year      = {2025},
  pages     = {28901-28911},
  doi       = {10.1109/CVPR52734.2025.02691},
  url       = {https://mlanthology.org/cvpr/2025/cheng2025cvpr-mmaudio/}
}