Mitsufuji, Yuki

46 publications

TMLR 2025 Automated Black-Box Prompt Engineering for Personalized Text-to-Image Generation Yutong He, Alexander Robey, Naoki Murata, Yiding Jiang, Joshua Nathaniel Williams, George J. Pappas, Hamed Hassani, Yuki Mitsufuji, Ruslan Salakhutdinov, J Zico Kolter

ICLRW 2025 Bellman Diffusion: Generative Modeling as Learning a Linear Operator in the Distribution Space Yangming Li, Chieh-Hsin Lai, Carola-Bibiane Schönlieb, Yuki Mitsufuji, Stefano Ermon

CVPR 2025 Classifier-Free Guidance Inside the Attraction Basin May Cause Memorization Anubhav Jain, Yuya Kobayashi, Takashi Shibuya, Yuhta Takida, Nasir Memon, Julian Togelius, Yuki Mitsufuji

ICML 2025 Distillation of Discrete Diffusion Through Dimensional Correlations Satoshi Hayakawa, Yuhta Takida, Masaaki Imaizumi, Hiromi Wakaki, Yuki Mitsufuji

CVPRW 2025 Dyadic Mamba: Long-Term Dyadic Human Motion Synthesis Julian Tanke, Takashi Shibuya, Kengo Uchida, Koichi Saito, Yuki Mitsufuji

NeurIPS 2025 Enhancing 3D Reconstruction for Dynamic Scenes Jisang Han, Honggyu An, Jaewoo Jung, Takuya Narihira, Junyoung Seo, Kazumi Fukuda, Chaehyun Kim, Sunghwan Hong, Yuki Mitsufuji, Seungryong Kim

TMLR 2025 G2D2: Gradient-Guided Discrete Diffusion for Inverse Problem Solving Naoki Murata, Chieh-Hsin Lai, Yuhta Takida, Toshimitsu Uesaka, Bac Nguyen, Stefano Ermon, Yuki Mitsufuji

TMLR 2025 GLOV: Guided Large Language Models as Implicit Optimizers for Vision Language Models Muhammad Jehanzeb Mirza, Mengjie Zhao, Zhuoyuan Mao, Sivan Doveh, Wei Lin, Paul Gavrikov, Michael Dorkenwald, Shiqi Yang, Saurav Jha, Hiromi Wakaki, Yuki Mitsufuji, Horst Possegger, Rogerio Feris, Leonid Karlinsky, James R. Glass

ICLR 2025 HERO: Human-Feedback Efficient Reinforcement Learning for Online Diffusion Model Finetuning Ayano Hiranaka, Shang-Fu Chen, Chieh-Hsin Lai, Dongjun Kim, Naoki Murata, Takashi Shibuya, Wei-Hsiang Liao, Shao-Hua Sun, Yuki Mitsufuji

ICLRW 2025 Improving Vector-Quantized Image Modeling with Latent Consistency-Matching Diffusion Bac Nguyen, Chieh-Hsin Lai, Yuhta Takida, Naoki Murata, Toshimitsu Uesaka, Stefano Ermon, Yuki Mitsufuji

ICLR 2025 Jump Your Steps: Optimizing Sampling Schedule of Discrete Diffusion Models Yong-Hyun Park, Chieh-Hsin Lai, Satoshi Hayakawa, Yuhta Takida, Yuki Mitsufuji

CVPR 2025 MMAudio: Taming Multimodal Joint Training for High-Quality Video-to-Audio Synthesis Ho Kei Cheng, Masato Ishii, Akio Hayakawa, Takashi Shibuya, Alexander Schwing, Yuki Mitsufuji

ICLR 2025 MMDisCo: Multi-Modal Discriminator-Guided Cooperative Diffusion for Joint Audio and Video Generation Akio Hayakawa, Masato Ishii, Takashi Shibuya, Yuki Mitsufuji

ICLR 2025 Mining Your Own Secrets: Diffusion Classifier Scores for Continual Personalization of Text-to-Image Diffusion Models Saurav Jha, Shiqi Yang, Masato Ishii, Mengjie Zhao, Christian Simon, Muhammad Jehanzeb Mirza, Dong Gong, Lina Yao, Shusuke Takahashi, Yuki Mitsufuji

CVPRW 2025 MoLA: Motion Generation and Editing with Latent Diffusion Enhanced by Adversarial Training Kengo Uchida, Takashi Shibuya, Yuhta Takida, Naoki Murata, Julian Tanke, Shusuke Takahashi, Yuki Mitsufuji

TMLR 2025 Music Foundation Model as Generic Booster for Music Downstream Tasks Wei-Hsiang Liao, Yuhta Takida, Yukara Ikemiya, Zhi Zhong, Chieh-Hsin Lai, Giorgio Fabbro, Kazuki Shimada, Keisuke Toyama, Kin Wai Cheuk, Marco A. Martínez-Ramírez, Shusuke Takahashi, Stefan Uhlich, Taketo Akama, Woosung Choi, Yuichiro Koyama, Yuki Mitsufuji

ICLRW 2025 Partial Alignment of Representations via Interventional Consistency Felix Leeb, Satoshi Hayakawa, Yuhta Takida, Yuki Mitsufuji

ICLR 2025 SoundCTM: Unifying Score-Based and Consistency Models for Full-Band Text-to-Sound Generation Koichi Saito, Dongjun Kim, Takashi Shibuya, Chieh-Hsin Lai, Zhi Zhong, Yuhta Takida, Yuki Mitsufuji

ICML 2025 Supervised Contrastive Learning from Weakly-Labeled Audio Segments for Musical Version Matching Joan Serrà, R. Oguz Araz, Dmitry Bogdanov, Yuki Mitsufuji

ICCV 2025 TITAN-Guide: Taming Inference-Time Alignment for Guided Text-to-Video Diffusion Models Christian Simon, Masato Ishii, Akio Hayakawa, Zhi Zhong, Shusuke Takahashi, Takashi Shibuya, Yuki Mitsufuji

NeurIPS 2025 TalkCuts: A Large-Scale Dataset for Multi-Shot Human Speech Video Generation Jiaben Chen, Zixin Wang, Ailing Zeng, Yang Fu, Xueyang Yu, Siyuan Cen, Julian Tanke, Yihang Chen, Koichi Saito, Yuki Mitsufuji, Chuang Gan

ICLRW 2025 Training Consistency Models with Variational Noise Coupling Gianluigi Silvestri, Luca Ambrogioni, Chieh-Hsin Lai, Yuhta Takida, Yuki Mitsufuji

ICCV 2025 Transformed Low-Rank Adaptation via Tensor Decomposition and Its Applications to Text-to-Image Models Zerui Tao, Yuhta Takida, Naoki Murata, Qibin Zhao, Yuki Mitsufuji

ICML 2025 VCT: Training Consistency Models with Variational Noise Coupling Gianluigi Silvestri, Luca Ambrogioni, Chieh-Hsin Lai, Yuhta Takida, Yuki Mitsufuji

CVPR 2025 VinaBench: Benchmark for Faithful and Consistent Visual Narratives Silin Gao, Sheryl Mathew, Li Mi, Sepideh Mamooler, Mengjie Zhao, Hiromi Wakaki, Yuki Mitsufuji, Syrielle Montariol, Antoine Bosselut

ICLR 2025 Weighted Point Set Embedding for Multimodal Contrastive Learning Toward Optimal Similarity Metric Toshimitsu Uesaka, Taiji Suzuki, Yuhta Takida, Chieh-Hsin Lai, Naoki Murata, Yuki Mitsufuji

ICLR 2024 Consistency Trajectory Models: Learning Probability Flow ODE Trajectory of Diffusion Dongjun Kim, Chieh-Hsin Lai, Wei-Hsiang Liao, Naoki Murata, Yuhta Takida, Toshimitsu Uesaka, Yutong He, Yuki Mitsufuji, Stefano Ermon

NeurIPSW 2024 Disentangling Multi-Instrument Music Audio for Source-Level Pitch and Timbre Manipulation Yin-Jyun Luo, Kin Wai Cheuk, Woosung Choi, Wei-Hsiang Liao, Keisuke Toyama, Toshimitsu Uesaka, Koichi Saito, Chieh-Hsin Lai, Yuhta Takida, Simon Dixon, Yuki Mitsufuji

NeurIPSW 2024 Distillation of Discrete Diffusion Through Dimensional Correlations Satoshi Hayakawa, Yuhta Takida, Masaaki Imaizumi, Hiromi Wakaki, Yuki Mitsufuji

NeurIPS 2024 GenWarp: Single Image to Novel Views with Semantic-Preserving Generative Warping Junyoung Seo, Kazumi Fukuda, Takashi Shibuya, Takuya Narihira, Naoki Murata, Shoukang Hu, Chieh-Hsin Lai, Seungryong Kim, Yuki Mitsufuji

TMLR 2024 HQ-VAE: Hierarchical Discrete Representation Learning with Variational Bayes Yuhta Takida, Yukara Ikemiya, Takashi Shibuya, Kazuki Shimada, Woosung Choi, Chieh-Hsin Lai, Naoki Murata, Toshimitsu Uesaka, Kengo Uchida, Wei-Hsiang Liao, Yuki Mitsufuji

NeurIPSW 2024 LOCKEY: A Novel Approach to Model Authentication and Deepfake Tracking Mayank Kumar Singh, Naoya Takahashi, Wei-Hsiang Liao, Yuki Mitsufuji

ICLR 2024 Manifold Preserving Guided Diffusion Yutong He, Naoki Murata, Chieh-Hsin Lai, Yuhta Takida, Toshimitsu Uesaka, Dongjun Kim, Wei-Hsiang Liao, Yuki Mitsufuji, J Zico Kolter, Ruslan Salakhutdinov, Stefano Ermon

IJCAI 2024 MusicMagus: Zero-Shot Text-to-Music Editing via Diffusion Models Yixiao Zhang, Yukara Ikemiya, Gus Xia, Naoki Murata, Marco A. Martínez Ramírez, Wei-Hsiang Liao, Yuki Mitsufuji, Simon Dixon

NeurIPS 2024 PaGoDA: Progressive Growing of a One-Step Generator from a Low-Resolution Diffusion Teacher Dongjun Kim, Chieh-Hsin Lai, Wei-Hsiang Liao, Yuhta Takida, Naoki Murata, Toshimitsu Uesaka, Yuki Mitsufuji, Stefano Ermon

ICLR 2024 SAN: Inducing Metrizability of GAN with Discriminative Normalized Linear Layer Yuhta Takida, Masaaki Imaizumi, Takashi Shibuya, Chieh-Hsin Lai, Toshimitsu Uesaka, Naoki Murata, Yuki Mitsufuji

NeurIPSW 2024 SoundCTM: Uniting Score-Based and Consistency Models for Text-to-Sound Generation Koichi Saito, Dongjun Kim, Takashi Shibuya, Chieh-Hsin Lai, Zhi Zhong, Yuhta Takida, Yuki Mitsufuji

NeurIPSW 2024 VRVQ: Variable Bitrate Residual Vector Quantization for Audio Compression Yunkee Chae, Woosung Choi, Yuhta Takida, Junghyun Koo, Yukara Ikemiya, Zhi Zhong, Kin Wai Cheuk, Marco A. Martínez-Ramírez, Kyogu Lee, Wei-Hsiang Liao, Yuki Mitsufuji

ICLR 2023 CLIPSep: Learning Text-Queried Sound Separation with Noisy Unlabeled Videos Hao-Wen Dong, Naoya Takahashi, Yuki Mitsufuji, Julian McAuley, Taylor Berg-Kirkpatrick

ICML 2023 FP-Diffusion: Improving Score-Based Diffusion Models by Enforcing the Underlying Score Fokker-Planck Equation Chieh-Hsin Lai, Yuhta Takida, Naoki Murata, Toshimitsu Uesaka, Yuki Mitsufuji, Stefano Ermon

ICML 2023 GibbsDDRM: A Partially Collapsed Gibbs Sampler for Solving Blind Inverse Problems with Denoising Diffusion Restoration Naoki Murata, Koichi Saito, Chieh-Hsin Lai, Yuhta Takida, Toshimitsu Uesaka, Yuki Mitsufuji, Stefano Ermon

ICMLW 2023 On the Equivalence of Consistency-Type Models: Consistency Models, Consistent Diffusion Models, and Fokker-Planck Regularization Chieh-Hsin Lai, Yuhta Takida, Toshimitsu Uesaka, Naoki Murata, Yuki Mitsufuji, Stefano Ermon

NeurIPS 2023 STARSS23: An Audio-Visual Dataset of Spatial Recordings of Real Scenes with Spatiotemporal Annotations of Sound Events Kazuki Shimada, Archontis Politis, Parthasaarathy Sudarsanam, Daniel A. Krause, Kengo Uchida, Sharath Adavanne, Aapo Hakala, Yuichiro Koyama, Naoya Takahashi, Shusuke Takahashi, Tuomas Virtanen, Yuki Mitsufuji

NeurIPSW 2022 Regularizing Score-Based Models with Score Fokker-Planck Equations Chieh-Hsin Lai, Yuhta Takida, Naoki Murata, Toshimitsu Uesaka, Yuki Mitsufuji, Stefano Ermon

ICML 2022 SQ-VAE: Variational Bayes on Discrete Representation with Self-Annealed Stochastic Quantization Yuhta Takida, Takashi Shibuya, Weihsiang Liao, Chieh-Hsin Lai, Junki Ohmura, Toshimitsu Uesaka, Naoki Murata, Shusuke Takahashi, Toshiyuki Kumakura, Yuki Mitsufuji

CVPR 2021 Densely Connected Multi-Dilated Convolutional Networks for Dense Prediction Tasks Naoya Takahashi, Yuki Mitsufuji