VideoMage: Multi-Subject and Motion Customization of Text-to-Video Diffusion Models

Huang, Chi-Pin; Wu, Yen-Siang; Chung, Hung-Kai; Chang, Kai-Po; Yang, Fu-En; Wang, Yu-Chiang Frank

doi:10.1109/CVPR52734.2025.01640

VideoMage: Multi-Subject and Motion Customization of Text-to-Video Diffusion Models

Chi-Pin Huang, Yen-Siang Wu, Hung-Kai Chung, Kai-Po Chang, Fu-En Yang, Yu-Chiang Frank Wang

CVPR 2025 pp. 17603-17612

doi:10.1109/CVPR52734.2025.01640 /cvpr/2025/huang2025cvpr-videomage/

Abstract

Customized text-to-video generation aims to produce high-quality videos that incorporate user-specified subject identities or motion patterns. However, existing methods mainly focus on personalizing a single concept, either subject identity or motion pattern, limiting their effectiveness for multiple subjects with the desired motion patterns. To tackle this challenge, we propose a unified framework VideoMage for video customization over both multiple subjects and their interactive motions. VideoMage employs subject and motion LoRAs to capture personalized content from user-provided images and videos, along with an appearance-agnostic motion learning approach to disentangle motion patterns from visual appearance. Furthermore, we develop a spatial-temporal composition scheme to guide interactions among subjects within the desired motion patterns. Extensive experiments demonstrate that VideoMage outperforms existing methods, generating coherent, user-controlled videos with consistent subject identities and interactions.

PDF CVPR Semantic Scholar

Cite

Text

Huang et al. "VideoMage: Multi-Subject and Motion Customization of Text-to-Video Diffusion Models." Conference on Computer Vision and Pattern Recognition, 2025. doi:10.1109/CVPR52734.2025.01640

Markdown

[Huang et al. "VideoMage: Multi-Subject and Motion Customization of Text-to-Video Diffusion Models." Conference on Computer Vision and Pattern Recognition, 2025.](https://mlanthology.org/cvpr/2025/huang2025cvpr-videomage/) doi:10.1109/CVPR52734.2025.01640

BibTeX

@inproceedings{huang2025cvpr-videomage,
  title     = {{VideoMage: Multi-Subject and Motion Customization of Text-to-Video Diffusion Models}},
  author    = {Huang, Chi-Pin and Wu, Yen-Siang and Chung, Hung-Kai and Chang, Kai-Po and Yang, Fu-En and Wang, Yu-Chiang Frank},
  booktitle = {Conference on Computer Vision and Pattern Recognition},
  year      = {2025},
  pages     = {17603-17612},
  doi       = {10.1109/CVPR52734.2025.01640},
  url       = {https://mlanthology.org/cvpr/2025/huang2025cvpr-videomage/}
}