Valle, Rafael

12 publications

ICML 2025 Audio Flamingo 2: An Audio-Language Model with Long-Audio Understanding and Expert Reasoning Abilities Sreyan Ghosh, Zhifeng Kong, Sonal Kumar, S Sakshi, Jaehyeon Kim, Wei Ping, Rafael Valle, Dinesh Manocha, Bryan Catanzaro

NeurIPS 2025 Audio Flamingo 3: Advancing Audio Intelligence with Fully Open Large Audio Language Models Sreyan Ghosh, Arushi Goel, Jaehyeon Kim, Sonal Kumar, Zhifeng Kong, Sang-gil Lee, Chao-Han Huck Yang, Ramani Duraiswami, Dinesh Manocha, Rafael Valle, Bryan Catanzaro

ICML 2025 ETTA: Elucidating the Design Space of Text-to-Audio Models Sang-Gil Lee, Zhifeng Kong, Arushi Goel, Sungwon Kim, Rafael Valle, Bryan Catanzaro

ICLR 2025 Fugatto 1: Foundational Generative Audio Transformer Opus 1 Rafael Valle, Rohan Badlani, Zhifeng Kong, Sang-gil Lee, Arushi Goel, Sungwon Kim, Joao Felipe Santos, Shuqi Dai, Siddharth Gururani, Aya Aljafari, Alexander H. Liu, Kevin J. Shih, Ryan Prenger, Wei Ping, Chao-Han Huck Yang, Bryan Catanzaro

ICLR 2025 Synthio: Augmenting Small-Scale Audio Classification Datasets with Synthetic Data Sreyan Ghosh, Sonal Kumar, Zhifeng Kong, Rafael Valle, Bryan Catanzaro, Dinesh Manocha

ICLR 2025 UniWav: Towards Unified Pre-Training for Speech Representation Learning and Generation Alexander H. Liu, Sang-gil Lee, Chao-Han Huck Yang, Yuan Gong, Yu-Chiang Frank Wang, James R. Glass, Rafael Valle, Bryan Catanzaro

ICML 2024 Audio Flamingo: A Novel Audio Language Model with Few-Shot Learning and Dialogue Abilities Zhifeng Kong, Arushi Goel, Rohan Badlani, Wei Ping, Rafael Valle, Bryan Catanzaro

ICML 2024 SelfVC: Voice Conversion with Iterative Refinement Using Self Transformations Paarth Neekhara, Shehzeen Samarah Hussain, Rafael Valle, Boris Ginsburg, Rishabh Ranjan, Shlomo Dubnov, Farinaz Koushanfar, Julian Mcauley

NeurIPS 2023 P-Flow: A Fast and Data-Efficient Zero-Shot TTS Through Speech Prompting Sungwon Kim, Kevin Shih, Rohan Badlani, Joao Felipe Santos, Evelina Bakhturina, Mikyas Desta, Rafael Valle, Sungroh Yoon, Bryan Catanzaro

ICCV 2023 SPACE: Speech-Driven Portrait Animation with Controllable Expression Siddharth Gururani, Arun Mallya, Ting-Chun Wang, Rafael Valle, Ming-Yu Liu

ICLR 2021 Flowtron: An Autoregressive Flow-Based Generative Network for Text-to-Speech Synthesis Rafael Valle, Kevin J. Shih, Ryan Prenger, Bryan Catanzaro

ICMLW 2021 RAD-TTS: Parallel Flow-Based TTS with Robust Alignment Learning and Diverse Synthesis Kevin J. Shih, Rafael Valle, Rohan Badlani, Adrian Lancucki, Wei Ping, Bryan Catanzaro