Hsu, Wei-Ning

19 publications

ICLR 2025 FlowDec: A Flow-Based Full-Band General Audio Codec with High Perceptual Quality Simon Welker, Matthew Le, Ricky T. Q. Chen, Wei-Ning Hsu, Timo Gerkmann, Alexander Richard, Yi-Chiao Wu

ECCV 2024 Action2Sound: Ambient-Aware Generation of Action Sounds from Egocentric Videos Changan Chen, Puyuan Peng, Ami Baid, Zihui Xue, Wei-Ning Hsu, David Harwath, Kristen Grauman

ICLR 2024 Generative Pre-Training for Speech with Flow Matching Alexander H. Liu, Matthew Le, Apoorv Vyas, Bowen Shi, Andros Tjandra, Wei-Ning Hsu

NeurIPSW 2024 High Fidelity Text-Guided Music Editing via Single-Stage Flow Matching Gael Le Lan, Bowen Shi, Zhaoheng Ni, Sidd Srinivasan, Anurag Kumar, Brian Ellis, David Kant, Varun K. Nagaraja, Ernie Chang, Wei-Ning Hsu, Yangyang Shi, Vikas Chandra

ICML 2024 MusicFlow: Cascaded Flow Matching for Text Guided Music Generation K R Prajwal, Bowen Shi, Matthew Le, Apoorv Vyas, Andros Tjandra, Mahi Luthra, Baishan Guo, Huiyu Wang, Triantafyllos Afouras, David Kant, Wei-Ning Hsu

JMLR 2024 Scaling Speech Technology to 1,000+ Languages Vineel Pratap, Andros Tjandra, Bowen Shi, Paden Tomasello, Arun Babu, Sayani Kundu, Ali Elkahky, Zhaoheng Ni, Apoorv Vyas, Maryam Fazel-Zarandi, Alexei Baevski, Yossi Adi, Xiaohui Zhang, Wei-Ning Hsu, Alexis Conneau, Michael Auli

NeurIPS 2023 DinoSR: Self-Distillation and Online Clustering for Self-Supervised Speech Representation Learning Alexander H. Liu, Heng-Jui Chang, Michael Auli, Wei-Ning Hsu, Jim Glass

ICML 2023 Efficient Self-Supervised Learning with Contextualized Target Representations for Vision, Speech and Language Alexei Baevski, Arun Babu, Wei-Ning Hsu, Michael Auli

CVPR 2023 ReVISE: Self-Supervised Speech Resynthesis with Visual Input for Universal and Generalized Speech Regeneration Wei-Ning Hsu, Tal Remez, Bowen Shi, Jacob Donley, Yossi Adi

ICML 2023 Scaling Laws for Generative Mixed-Modal Language Models Armen Aghajanyan, Lili Yu, Alexis Conneau, Wei-Ning Hsu, Karen Hambardzumyan, Susan Zhang, Stephen Roller, Naman Goyal, Omer Levy, Luke Zettlemoyer

NeurIPS 2023 Voicebox: Text-Guided Multilingual Universal Speech Generation at Scale Matthew Le, Apoorv Vyas, Bowen Shi, Brian Karrer, Leda Sari, Rashel Moritz, Mary Williamson, Vimal Manohar, Yossi Adi, Jay Mahadeokar, Wei-Ning Hsu

ICML 2022 Data2vec: A General Framework for Self-Supervised Learning in Speech, Vision and Language Alexei Baevski, Wei-Ning Hsu, Qiantong Xu, Arun Babu, Jiatao Gu, Michael Auli

ICLR 2022 Learning Audio-Visual Speech Representation by Masked Multimodal Cluster Prediction Bowen Shi, Wei-Ning Hsu, Kushal Lakhotia, Abdelrahman Mohamed

NeurIPS 2022 U-HuBERT: Unified Mixed-Modal Speech Pretraining and Zero-Shot Transfer to Unlabeled Modality Wei-Ning Hsu, Bowen Shi

NeurIPS 2021 Unsupervised Speech Recognition Alexei Baevski, Wei-Ning Hsu, Alexis Conneau, Michael Auli

ICLR 2020 Learning Hierarchical Discrete Linguistic Units from Visually-Grounded Speech David Harwath, Wei-Ning Hsu, James Glass

ICLR 2019 Hierarchical Generative Modeling for Controllable Speech Synthesis Wei-Ning Hsu, Yu Zhang, Ron J. Weiss, Heiga Zen, Yonghui Wu, Yuxuan Wang, Yuan Cao, Ye Jia, Zhifeng Chen, Jonathan Shen, Patrick Nguyen, Ruoming Pang

NeurIPS 2017 Unsupervised Learning of Disentangled and Interpretable Representations from Sequential Data Wei-Ning Hsu, Yu Zhang, James Glass

AAAI 2015 Active Learning by Learning Wei-Ning Hsu, Hsuan-Tien Lin