Tan, Xu

66 publications

ICML 2025 ALMTokenizer: A Low-Bitrate and Semantic-Rich Audio Codec Tokenizer for Audio Language Modeling Dongchao Yang, Songxiang Liu, Haohan Guo, Jiankun Zhao, Yuanyuan Wang, Helin Wang, Zeqian Ju, Xubo Liu, Xueyuan Chen, Xu Tan, Xixin Wu, Helen M. Meng

NeurIPS 2025 Chain-of-Model Learning for Language Model Xiaohua Wang, Kaitao Song, Xu Tan, Huiqiang Jiang, Chengruidong Zhang, Yongliang Shen, Cen Lu, Zihao Li, Zifan Song, Caihua Shan, Yansen Wang, Kan Ren, Xiaoqing Zheng, Tao Qin, Yuqing Yang, Dongsheng Li, Lili Qiu

AAAI 2025 Codec Does Matter: Exploring the Semantic Shortcoming of Codec for Audio Language Model Zhen Ye, Peiwen Sun, Jiahe Lei, Hongzhan Lin, Xu Tan, Zheqi Dai, Qiuqiang Kong, Jianyi Chen, Jiahao Pan, Qifeng Liu, Yike Guo, Wei Xue

IJCAI 2025 GETMusic: Generating Music Tracks with a Unified Representation and Diffusion Framework Ang Lv, Xu Tan, Peiling Lu, Wei Ye, Shikun Zhang, Jiang Bian, Rui Yan

AAAI 2025 InstructAvatar: Text-Guided Emotion and Motion Control for Avatar Generation Yuchi Wang, Junliang Guo, Jianhong Bai, Runyi Yu, Tianyu He, Xu Tan, Xu Sun, Jiang Bian

NeurIPS 2025 MoonCast: High-Quality Zero-Shot Podcast Generation Zeqian Ju, Dongchao Yang, Kai Shen, Yichong Leng, Zhengtao Wang, Songxiang Liu, Xinyu Zhou, Tao Qin, Xiangyang Li, Jianwei Yu, Xu Tan

ICLR 2025 MuPT: A Generative Symbolic Music Pretrained Transformer Xingwei Qu, Yuelin Bai, Yinghao Ma, Ziya Zhou, Ka Man Lo, Jiaheng Liu, Ruibin Yuan, Lejun Min, Xueling Liu, Tianyu Zhang, Xeron Du, Shuyue Guo, Yiming Liang, Yizhi Li, Shangda Wu, Junting Zhou, Tianyu Zheng, Ziyang Ma, Fengze Han, Wei Xue, Gus Xia, Emmanouil Benetos, Xiang Yue, Chenghua Lin, Xu Tan, Wenhao Huang, Jie Fu, Ge Zhang

ICCV 2025 The Best of Both Worlds: Integrating Language Models and Diffusion Models for Video Generation Aoxiong Yin, Xu Tan, Kai Shen, Yichong Leng, Xinyu Zhou, Juncheng Li, Siliang Tang

CVPR 2025 VidMuse: A Simple Video-to-Music Generation Framework with Long-Short-Term Modeling Zeyue Tian, Zhaoyang Liu, Ruibin Yuan, Jiahao Pan, Qifeng Liu, Xu Tan, Qifeng Chen, Wei Xue, Yike Guo

ICLR 2024 Connecting Large Language Models with Evolutionary Algorithms Yields Powerful Prompt Optimizers Qingyan Guo, Rui Wang, Junliang Guo, Bei Li, Kaitao Song, Xu Tan, Guoqing Liu, Jiang Bian, Yujiu Yang

NeurIPS 2024 D-CPT Law: Domain-Specific Continual Pre-Training Scaling Law for Large Language Models Haoran Que, Jiaheng Liu, Ge Zhang, Chenchen Zhang, Xingwei Qu, Yinghao Ma, Feiyu Duan, Zhiqi Bai, Jiakai Wang, Yuanxing Zhang, Xu Tan, Jie Fu, Jiamang Wang, Lin Qu, Wenbo Su, Bo Zheng

ICLRW 2024 EASYTOOL: Enhancing LLM-Based Agents with Concise Tool Instruction Siyu Yuan, Kaitao Song, Jiangjie Chen, Xu Tan, Yongliang Shen, Kan Ren, Dongsheng Li, Deqing Yang

NeurIPSW 2024 EvoAgent: Towards Automatic Multi-Agent Generation via Evolutionary Algorithms Siyu Yuan, Kaitao Song, Jiangjie Chen, Xu Tan, Dongsheng Li, Deqing Yang

IJCAI 2024 FastSAG: Towards Fast Non-Autoregressive Singing Accompaniment Generation Jianyi Chen, Wei Xue, Xu Tan, Zhen Ye, Qifeng Liu, Yike Guo

ICLR 2024 GAIA: Zero-Shot Talking Avatar Generation Tianyu He, Junliang Guo, Runyi Yu, Yuchi Wang, Jialiang Zhu, Kaikai An, Leyi Li, Xu Tan, Chunyu Wang, Han Hu, HsiangTao Wu, Sheng Zhao, Jiang Bian

ICLR 2024 NaturalSpeech 2: Latent Diffusion Models Are Natural and Zero-Shot Speech and Singing Synthesizers Kai Shen, Zeqian Ju, Xu Tan, Eric Liu, Yichong Leng, Lei He, Tao Qin, Sheng Zhao, Jiang Bian

ICML 2024 NaturalSpeech 3: Zero-Shot Speech Synthesis with Factorized Codec and Diffusion Models Zeqian Ju, Yuancheng Wang, Kai Shen, Xu Tan, Detai Xin, Dongchao Yang, Eric Liu, Yichong Leng, Kaitao Song, Siliang Tang, Zhizheng Wu, Tao Qin, Xiangyang Li, Wei Ye, Shikun Zhang, Jiang Bian, Lei He, Jinyu Li, Sheng Zhao

NeurIPS 2024 Predictor-Corrector Enhanced Transformers with Exponential Moving Average Coefficient Learning Bei Li, Tong Zheng, Rui Wang, Jiahao Liu, Qingyan Guo, Junliang Guo, Xu Tan, Tong Xiao, Jingbo Zhu, Jingang Wang, Xunliang Cai

ICLR 2024 PromptTTS 2: Describing and Generating Voices with Text Prompt Yichong Leng, Zhifang Guo, Kai Shen, Zeqian Ju, Xu Tan, Eric Liu, Yufei Liu, Dongchao Yang, Leying Zhang, Kaitao Song, Lei He, Xiangyang Li, Sheng Zhao, Tao Qin, Jiang Bian

IJCAI 2024 Re-Creation of Creations: A New Paradigm for Lyric-to-Melody Generation Ang Lv, Xu Tan, Tao Qin, Tie-Yan Liu, Rui Yan

AAAI 2024 Regeneration Learning: A Learning Paradigm for Data Generation Xu Tan, Tao Qin, Jiang Bian, Tie-Yan Liu, Yoshua Bengio

IJCAI 2024 Sentence-Level or Token-Level? a Comprehensive Study on Knowledge Distillation Jingxuan Wei, Linzhuang Sun, Yichong Leng, Xu Tan, Bihui Yu, Ruifeng Guo

NeurIPS 2024 TaskBench: Benchmarking Large Language Models for Task Automation Yongliang Shen, Kaitao Song, Xu Tan, Wenqi Zhang, Kan Ren, Siyu Yuan, Weiming Lu, Dongsheng Li, Yueting Zhuang

ICLRW 2024 TaskBench: Benchmarking Large Language Models for Task Automation Yongliang Shen, Kaitao Song, Xu Tan, Wenqi Zhang, Kan Ren, Siyu Yuan, Weiming Lu, Dongsheng Li, Yueting Zhuang

NeurIPS 2024 UniAudio 1.5: Large Language Model-Driven Audio Codec Is a Few-Shot Audio Task Learner Dongchao Yang, Haohan Guo, Yuanyuan Wang, Rongjie Huang, Xiang Li, Xu Tan, Xixin Wu, Helen Meng

ICML 2024 UniAudio: Towards Universal Audio Generation with Large Language Models Dongchao Yang, Jinchuan Tian, Xu Tan, Rongjie Huang, Songxiang Liu, Haohan Guo, Xuankai Chang, Jiatong Shi, Sheng Zhao, Jiang Bian, Zhou Zhao, Xixin Wu, Helen M. Meng

NeurIPS 2023 AUDIT: Audio Editing by Following Instructions with Latent Diffusion Models Yuancheng Wang, Zeqian Ju, Xu Tan, Lei He, Zhizheng Wu, Jiang Bian, Sheng Zhao

ICCV 2023 HiFace: High-Fidelity 3D Face Reconstruction by Learning Static and Dynamic Details Zenghao Chai, Tianke Zhang, Tianyu He, Xu Tan, Tadas Baltrusaitis, HsiangTao Wu, Runnan Li, Sheng Zhao, Chun Yuan, Jiang Bian

NeurIPS 2023 HuggingGPT: Solving AI Tasks with ChatGPT and Its Friends in Hugging Face Yongliang Shen, Kaitao Song, Xu Tan, Dongsheng Li, Weiming Lu, Yueting Zhuang

IJCAI 2023 NAS-FM: Neural Architecture Search for Tunable and Interpretable Sound Synthesis Based on Frequency Modulation Zhen Ye, Wei Xue, Xu Tan, Qifeng Liu, Yike Guo

AAAI 2023 SoftCorrect: Error Correction with Soft Detection for Automatic Speech Recognition Yichong Leng, Xu Tan, Wenjie Liu, Kaitao Song, Rui Wang, Xiang-Yang Li, Tao Qin, Edward Lin, Tie-Yan Liu

ICCVW 2023 VAST: Vivify Your Talking Avatar via Zero-Shot Expressive Facial Style Transfer Liyang Chen, Zhiyong Wu, Runnan Li, Weihong Bao, Jun Ling, Xu Tan, Sheng Zhao

AAAI 2023 VideoDubber: Machine Translation with Speech-Aware Length Control for Video Dubbing Yihan Wu, Junliang Guo, Xu Tan, Chen Zhang, Bohan Li, Ruihua Song, Lei He, Sheng Zhao, Arul Menezes, Jiang Bian

AAAI 2022 Adaptive Logit Adjustment Loss for Long-Tailed Visual Recognition Yan Zhao, Weicong Chen, Xu Tan, Kai Huang, Jihong Zhu

ICML 2022 Analyzing and Mitigating Interference in Neural Architecture Search Jin Xu, Xu Tan, Kaitao Song, Renqian Luo, Yichong Leng, Tao Qin, Tie-Yan Liu, Jian Li

NeurIPS 2022 BinauralGrad: A Two-Stage Conditional Diffusion Probabilistic Model for Binaural Audio Synthesis Yichong Leng, Zehua Chen, Junliang Guo, Haohe Liu, Jiawei Chen, Xu Tan, Danilo P. Mandic, Lei He, Xiangyang Li, Tao Qin, Sheng Zhao, Tie-Yan Liu

NeurIPS 2022 Museformer: Transformer with Fine- and Coarse-Grained Attention for Music Generation Botao Yu, Peiling Lu, Rui Wang, Wei Hu, Xu Tan, Wei Ye, Shikun Zhang, Tao Qin, Tie-Yan Liu

ICLR 2022 PriorGrad: Improving Conditional Denoising Diffusion Models with Data-Dependent Adaptive Prior Sang-gil Lee, Heeseung Kim, Chaehun Shin, Xu Tan, Chang Liu, Qi Meng, Tao Qin, Wei Chen, Sungroh Yoon, Tie-Yan Liu

NeurIPS 2022 Transcormer: Transformer for Sentence Scoring with Sliding Language Modeling Kaitao Song, Yichong Leng, Xu Tan, Yicheng Zou, Tao Qin, Dongsheng Li

IJCAI 2021 A Survey on Low-Resource Neural Machine Translation Rui Wang, Xu Tan, Renqian Luo, Tao Qin, Tie-Yan Liu

ICLR 2021 AdaSpeech: Adaptive Text to Speech for Custom Voice Mingjian Chen, Xu Tan, Bohan Li, Yanqing Liu, Tao Qin, Sheng Zhao, Tie-Yan Liu

ICLR 2021 BRECQ: Pushing the Limit of Post-Training Quantization by Block Reconstruction Yuhang Li, Ruihao Gong, Xu Tan, Yang Yang, Peng Hu, Qi Zhang, Fengwei Yu, Wei Wang, Shi Gu

NeurIPS 2021 FastCorrect: Fast Error Correction with Edit Alignment for Automatic Speech Recognition Yichong Leng, Xu Tan, Linchen Zhu, Jin Xu, Renqian Luo, Linquan Liu, Tao Qin, Xiangyang Li, Edward Lin, Tie-Yan Liu

ICLR 2021 FastSpeech 2: Fast and High-Quality End-to-End Text to Speech Yi Ren, Chenxu Hu, Xu Tan, Tao Qin, Sheng Zhao, Zhou Zhao, Tie-Yan Liu

AAAI 2021 SongMASS: Automatic Song Writing with Pre-Training and Alignment Constraint Zhonghao Sheng, Kaitao Song, Xu Tan, Yi Ren, Wei Ye, Shikun Zhang, Tao Qin

NeurIPS 2021 Speech-T: Transducer for Text to Speech and Beyond Jiawei Chen, Xu Tan, Yichong Leng, Jin Xu, Guihua Wen, Tao Qin, Tie-Yan Liu

AAAI 2021 UWSpeech: Speech to Speech Translation for Unwritten Languages Chen Zhang, Xu Tan, Yi Ren, Tao Qin, Kejun Zhang, Tie-Yan Liu

AAAI 2020 Fine-Tuning by Curriculum Learning for Non-Autoregressive Neural Machine Translation Junliang Guo, Xu Tan, Linli Xu, Tao Qin, Enhong Chen, Tie-Yan Liu

NeurIPS 2020 MPNet: Masked and Permuted Pre-Training for Language Understanding Kaitao Song, Xu Tan, Tao Qin, Jianfeng Lu, Tie-Yan Liu

IJCAI 2020 Neural Machine Translation with Error Correction Kaitao Song, Xu Tan, Jianfeng Lu

NeurIPS 2020 Semi-Supervised Neural Architecture Search Renqian Luo, Xu Tan, Rui Wang, Tao Qin, Enhong Chen, Tie-Yan Liu

IJCAI 2020 Task-Level Curriculum Learning for Non-Autoregressive Neural Machine Translation Jinglin Liu, Yi Ren, Xu Tan, Chen Zhang, Tao Qin, Zhou Zhao, Tie-Yan Liu

ICML 2019 Almost Unsupervised Text to Speech and Automatic Speech Recognition Yi Ren, Xu Tan, Tao Qin, Sheng Zhao, Zhou Zhao, Tie-Yan Liu

IJCAI 2019 Deliberation Learning for Image-to-Image Translation Tianyu He, Yingce Xia, Jianxin Lin, Xu Tan, Di He, Tao Qin, Zhibo Chen

NeurIPS 2019 FastSpeech: Fast, Robust and Controllable Text to Speech Yi Ren, Yangjun Ruan, Xu Tan, Tao Qin, Sheng Zhao, Zhou Zhao, Tie-Yan Liu

ICML 2019 MASS: Masked Sequence to Sequence Pre-Training for Language Generation Kaitao Song, Xu Tan, Tao Qin, Jianfeng Lu, Tie-Yan Liu

ICLR 2019 Multilingual Neural Machine Translation with Knowledge Distillation Xu Tan, Yi Ren, Di He, Tao Qin, Zhou Zhao, Tie-Yan Liu

AAAI 2019 Non-Autoregressive Neural Machine Translation with Enhanced Decoder Input Junliang Guo, Xu Tan, Di He, Tao Qin, Linli Xu, Tie-Yan Liu

ICLR 2019 Representation Degeneration Problem in Training Natural Language Generation Models Jun Gao, Di He, Xu Tan, Tao Qin, Liwei Wang, Tieyan Liu

AAAI 2019 Sentence-Wise Smooth Regularization for Sequence to Sequence Learning ChengYue Gong, Xu Tan, Di He, Tao Qin

AAAI 2019 Tied Transformers: Neural Machine Translation with Shared Encoder and Decoder Yingce Xia, Tianyu He, Xu Tan, Fei Tian, Di He, Tao Qin

NeurIPS 2018 FRAGE: Frequency-Agnostic Word Representation Chengyue Gong, Di He, Xu Tan, Tao Qin, Liwei Wang, Tie-Yan Liu

NeurIPS 2018 Layer-Wise Coordination Between Encoder and Decoder for Neural Machine Translation Tianyu He, Xu Tan, Yingce Xia, Di He, Tao Qin, Zhibo Chen, Tie-Yan Liu

ICML 2018 Model-Level Dual Learning Yingce Xia, Xu Tan, Fei Tian, Tao Qin, Nenghai Yu, Tie-Yan Liu

IJCAI 2018 Progressive Blockwise Knowledge Distillation for Neural Network Acceleration Hui Wang, Hanbin Zhao, Xi Li, Xu Tan

AAAI 2013 Supervised Nonnegative Tensor Factorization with Maximum-Margin Constraint Fei Wu, Xu Tan, Yi Yang, Dacheng Tao, Siliang Tang, Yueting Zhuang