Wang, Yuxuan

51 publications

ICLR 2026 Accelerating Diffusion Large Language Models with SlowFast Sampling: The Three Golden Principles Qingyan Wei, Yaojie Zhang, Zhiyuan Liu, Puyu Zeng, Yuxuan Wang, Biqing Qi, Dongrui Liu, Linfeng Zhang

ICLR 2026 DuPO: Enabling Reliable Self-Verification via Dual Preference Optimization Shuaijie She, Yu Bao, Yu Lu, Lu Xu, Tao Li, Wenhao Zhu, Jianbing Zhang, Shujian Huang, Shanbo Cheng, Lu Lu, Yuxuan Wang

ICLR 2026 End-to-End Listen, Look, Speak and Act Siyin Wang, Wenyi Yu, Xianzhao Chen, Xiaohai Tian, Jun Zhang, Lu Lu, Yuxuan Wang, Chao Zhang

ICLR 2026 FaLW: A Forgetting-Aware Loss Reweighting for Long-Tailed Unlearning Liheng Yu, Zhe Zhao, Yuxuan Wang, Pengkun Wang, Xiaofeng Cao, Binwu Wang, Yang Wang

ICLR 2026 Omni-Captioner: Data Pipeline, Models, and Benchmark for Omni Detailed Perception Ziyang Ma, Ruiyang Xu, Zhenghao Xing, Yunfei Chu, Yuxuan Wang, Jinzheng He, Jin Xu, Pheng-Ann Heng, Kai Yu, Junyang Lin, Eng Siong Chng, Xie Chen

ICLR 2026 OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs Caorui Li, Yu Chen, Yiyan Ji, Jin Xu, Zhenyu Cui, Shihao Li, Yuanxing Zhang, Zhenghao Song, Dingling Zhang, Heying, Haoxiang Liu, Yuxuan Wang, Qiufeng Wang, Jiafu Tang, Zhenhe Wu, Jiehui Luo, Zhiyu Pan, Weihao Xie, Chenchen Zhang, Zhaohui Wang, Jiayi Tian, Yanghai Wang, Zhe Cao, Minxin Dai, Ke Wang, Runzhe Wen, Yinghao Ma, Yaning Pan, Sungkyun Chang, Termeh Taheri, Haiwen Xia, Christos Plachouras, Emmanouil Benetos, Yizhi Li, Ge Zhang, Jian Yang, Tianhao Peng, Zili Wang, Minghao Liu, Junran Peng, Zhaoxiang Zhang, Jiaheng Liu

ICLR 2026 ParaS2S: Benchmarking and Aligning Spoken Language Models for Paralinguistic-Aware Speech-to-Speech Interaction Shu-wen Yang, Ming Tu, Andy T. Liu, Xinghua Qu, Hung-yi Lee, Lu Lu, Yuxuan Wang, Yonghui Wu

ICML 2025 Bayesian Active Learning for Bivariate Causal Discovery Yuxuan Wang, Mingzhou Liu, Xinwei Sun, Wei Wang, Yizhou Wang

AAAI 2025 CVLUE: A New Benchmark Dataset for Chinese Vision-Language Understanding Evaluation Yuxuan Wang, Yijun Liu, Fei Yu, Chen Huang, Kexin Li, Zhiguo Wan, Wanxiang Che, Hongyang Chen

ICML 2025 DiTAR: Diffusion Transformer Autoregressive Modeling for Speech Generation Dongya Jia, Zhuo Chen, Jiawei Chen, Chenpeng Du, Jian Wu, Jian Cong, Xiaobin Zhuang, Chumin Li, Zhen Wei, Yuping Wang, Yuxuan Wang

ICCV 2025 FairHuman: Boosting Hand and Face Quality in Human Image Generation with Minimum Potential Delay Fairness in Diffusion Models Yuxuan Wang, Tianwei Cao, Huayu Zhang, Zhongjiang He, Kongming Liang, Zhanyu Ma

AAAI 2025 Friends-MMC: A Dataset for Multi-Modal Multi-Party Conversation Understanding Yueqian Wang, Xiaojun Meng, Yuxuan Wang, Jianxin Liang, Qun Liu, Dongyan Zhao

NeurIPS 2025 From Experts to a Generalist: Toward General Whole-Body Control for Humanoid Robots Yuxuan Wang, Ming Yang, Ziluo Ding, Yu Zhang, Weishuai Zeng, Xinrun Xu, Haobin Jiang, Zongqing Lu

NeurIPS 2025 Hierarchical Frequency Tagging Probe (HFTP): A Unified Approach to Investigate Syntactic Structure Representations in Large Language Models and the Human Brain Jingmin An, Yilong Song, Ruolin Yang, Nai Ding, Lingxi Lu, Yuxuan Wang, Wei Wang, Chu Zhuang, Qian Wang, Fang Fang

AAAI 2025 Language Model Can Listen While Speaking Ziyang Ma, Yakun Song, Chenpeng Du, Jian Cong, Zhuo Chen, Yuping Wang, Yuxuan Wang, Xie Chen

NeurIPS 2025 LooGLE V2: Are LLMs Ready for Real World Long Dependency Challenges? ZiyuanHe, Yuxuan Wang, Jiaqi Li, Kexin Liang, Muhan Zhang

NeurIPS 2025 MMAR: A Challenging Benchmark for Deep Reasoning in Speech, Audio, Music, and Their Mix Ziyang Ma, Yinghao Ma, Yanqiao Zhu, Chen Yang, Yi-Wen Chao, Ruiyang Xu, Wenxi Chen, Yuanzhe Chen, Zhuo Chen, Jian Cong, Kai Li, Keliang Li, Siyou Li, Xinfeng Li, Xiquan Li, Zheng Lian, Yuzhe Liang, Minghao Liu, Zhikang Niu, Tianrui Wang, Yuping Wang, Yuxuan Wang, Yihao Wu, Guanrou Yang, Jianwei Yu, Ruibin Yuan, Zhisheng Zheng, Ziya Zhou, Haina Zhu, Wei Xue, Emmanouil Benetos, Kai Yu, EngSiong Chng, Xie Chen

NeurIPS 2025 Multi-Scale Temporal Prediction via Incremental Generation and Multi-Agent Collaboration Zhitao Zeng, Guojian Yuan, Junyuan Mao, Yuxuan Wang, Xiaoshuang Jia, Yueming Jin

ICCV 2025 Nautilus: Locality-Aware Autoencoder for Scalable Mesh Generation Yuxuan Wang, Xuanyu Yi, Haohan Weng, Qingshan Xu, Xiaokang Wei, Xianghui Yang, Chunchao Guo, Long Chen, Hanwang Zhang

CVPR 2025 OmniMMI: A Comprehensive Multi-Modal Interaction Benchmark in Streaming Video Contexts Yuxuan Wang, Yueqian Wang, Bo Chen, Tong Wu, Dongyan Zhao, Zilong Zheng

CVPR 2025 Reasoning Mamba: Hypergraph-Guided Region Relation Calculating for Weakly Supervised Affordance Grounding Yuxuan Wang, Aming Wu, Muli Yang, Yukuan Min, Yihang Zhu, Cheng Deng

NeurIPS 2025 SALMONN-Omni: A Standalone Speech LLM Without Codec Injection for Full-Duplex Conversation Wenyi Yu, Siyin Wang, Xiaoyu Yang, Xianzhao Chen, Xiaohai Tian, Jun Zhang, Guangzhi Sun, Lu Lu, Yuxuan Wang, Chao Zhang

ICML 2025 Sounding That Object: Interactive Object-Aware Image to Audio Generation Tingle Li, Baihe Huang, Xiaobin Zhuang, Dongya Jia, Jiawei Chen, Yuping Wang, Zhuo Chen, Gopala Anumanchipalli, Yuxuan Wang

TMLR 2025 The AI Hippocampus: How Far Are We from Human Memory? Zixia Jia, Jiaqi Li, Yipeng Kang, Yuxuan Wang, Tong Wu, Quansen Wang, Xiaobo Wang, Shuyi Zhang, Junzhe Shen, Qing Li, Siyuan Qi, Yitao Liang, Di He, Zilong Zheng, Song-Chun Zhu

ICML 2025 TokenSwift: Lossless Acceleration of Ultra Long Sequence Generation Tong Wu, Junzhe Shen, Zixia Jia, Yuxuan Wang, Zilong Zheng

ICCV 2025 VGMamba: Attribute-to-Location Clue Reasoning for Quantity-Agnostic 3D Visual Grounding Yihang Zhu, Jinhao Zhang, Yuxuan Wang, Aming Wu, Cheng Deng

ICCV 2025 VideoLLaMB: Long Streaming Video Understanding with Recurrent Memory Bridges Yuxuan Wang, Yiqi Song, Cihang Xie, Yang Liu, Zilong Zheng

ICCV 2025 Vision-Language Interactive Relation Mining for Open-Vocabulary Scene Graph Generation Yukuan Min, Muli Yang, Jinhao Zhang, Yuxuan Wang, Aming Wu, Cheng Deng

IJCAI 2024 A Swap Relaxation-Based Local Search for the Latin Square Completion Problem Zhenxuan Xie, Zhipeng Lü, Zhouxing Su, Chu-Min Li, Junwen Ding, Yuxuan Wang

MLJ 2024 Extrapolation Is Not the Same as Interpolation Yuxuan Wang, Ross D. King

IJCAI 2024 InstructME: An Instruction Guided Music Edit Framework with Latent Diffusion Models Bing Han, Junyu Dai, Weituo Hao, Xinyan He, Dong Guo, Jitong Chen, Yuxuan Wang, Yanmin Qian, Xuchen Song

ICLR 2024 PolyVoice: Language Models for Speech to Speech Translation Qian qian Dong, Zhiying Huang, Qiao Tian, Chen Xu, Tom Ko, Yunlong Zhao, Siyuan Feng, Tang Li, Kexin Wang, Xuxin Cheng, Fengpeng Yue, Ye Bai, Xi Chen, Lu Lu, Zejun Ma, Yuping Wang, Mingxuan Wang, Yuxuan Wang

NeurIPS 2024 SD-Eval: A Benchmark Dataset for Spoken Dialogue Understanding Beyond Words Junyi Ao, Yuancheng Wang, Xiaohai Tian, Dekun Chen, Jun Zhang, Lu Lu, Yuxuan Wang, Haizhou Li, Zhizheng Wu

AAAI 2024 STAIR: Spatial-Temporal Reasoning with Auditable Intermediate Results for Video Question Answering Yueqian Wang, Yuxuan Wang, Kai Chen, Dongyan Zhao

NeurIPSW 2024 Sound-VECaps: Improving Audio Generation with Visual Enhanced Captions Yi Yuan, Dongya Jia, Xiaobin Zhuang, Yuanzhe Chen, Zhengxi Liu, Zhuo Chen, Yuping Wang, Yuxuan Wang, Xubo Liu, Xiyuan Kang, Mark D Plumbley, Wenwu Wang

ICML 2024 TimeSiam: A Pre-Training Framework for Siamese Time-Series Modeling Jiaxiang Dong, Haixu Wu, Yuxuan Wang, Yun-Zhong Qiu, Li Zhang, Jianmin Wang, Mingsheng Long

NeurIPS 2024 TimeXer: Empowering Transformers for Time Series Forecasting with Exogenous Variables Yuxuan Wang, Haixu Wu, Jiaxiang Dong, Guo Qin, Haoran Zhang, Yong Liu, Yunzhong Qiu, Jianmin Wang, Mingsheng Long

ICML 2024 Video-SALMONN: Speech-Enhanced Audio-Visual Large Language Models Guangzhi Sun, Wenyi Yu, Changli Tang, Xianzhao Chen, Tian Tan, Wei Li, Lu Lu, Zejun Ma, Yuxuan Wang, Chao Zhang

ECCV 2024 View-Consistent 3D Editing with Gaussian Splatting Yuxuan Wang, Xuanyu Yi, Zike Wu, Na Zhao, Long Chen, Hanwang Zhang

NeurIPS 2023 Efficient Neural Music Generation Max W. Y. Lam, Qiao Tian, Tang Li, Zongyu Yin, Siyuan Feng, Ming Tu, Yuliang Ji, Rui Xia, Mingbo Ma, Xuchen Song, Jitong Chen, Wang Yuping, Yuxuan Wang

NeurIPS 2023 Empowering Convolutional Neural Nets with MetaSin Activation Farnood Salehi, Tunç Aydin, André Gaillard, Guglielmo Camporese, Yuxuan Wang

AAAI 2023 Symbolic Replay: Scene Graph as Prompt for Continual Learning on VQA Task Stan Weixian Lei, Difei Gao, Jay Zhangjie Wu, Yuxuan Wang, Wei Liu, Mengmi Zhang, Mike Zheng Shou

ECCV 2022 GEB+: A Benchmark for Generic Event Boundary Captioning, Grounding and Retrieval Yuxuan Wang, Difei Gao, Licheng Yu, Weixian Lei, Matt Feiszli, Mike Zheng Shou

CVPR 2022 SHIFT: A Synthetic Driving Dataset for Continuous Multi-Task Domain Adaptation Tao Sun, Mattia Segu, Janis Postels, Yuxuan Wang, Luc Van Gool, Bernt Schiele, Federico Tombari, Fisher Yu

AAAI 2021 Modeling the Compatibility of Stem Tracks to Generate Music Mashups Jiawen Huang, Ju-Chiang Wang, Jordan B. L. Smith, Xuchen Song, Yuxuan Wang

NeurIPS 2021 Neural Dubber: Dubbing for Videos According to Scripts Chenxu Hu, Qiao Tian, Tingle Li, Wang Yuping, Yuxuan Wang, Hang Zhao

ICLR 2019 Hierarchical Generative Modeling for Controllable Speech Synthesis Wei-Ning Hsu, Yu Zhang, Ron J. Weiss, Heiga Zen, Yonghui Wu, Yuxuan Wang, Yuan Cao, Ye Jia, Zhifeng Chen, Jonathan Shen, Patrick Nguyen, Ruoming Pang

AAAI 2018 A Neural Transition-Based Approach for Semantic Dependency Graph Parsing Yuxuan Wang, Wanxiang Che, Jiang Guo, Ting Liu

ICML 2018 Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis Yuxuan Wang, Daisy Stanton, Yu Zhang, RJ-Skerry Ryan, Eric Battenberg, Joel Shor, Ying Xiao, Ye Jia, Fei Ren, Rif A. Saurous

ICML 2018 Towards End-to-End Prosody Transfer for Expressive Speech Synthesis with Tacotron Rj Skerry-Ryan, Eric Battenberg, Ying Xiao, Yuxuan Wang, Daisy Stanton, Joel Shor, Ron Weiss, Rob Clark, Rif A. Saurous

NeurIPS 2012 Cocktail Party Processing via Structured Prediction Yuxuan Wang, Deliang Wang