Fu, Chaoyou

24 publications

ICML 2025 Freeze-Omni: A Smart and Low Latency Speech-to-Speech Dialogue Model with Frozen LLM Xiong Wang, Yangze Li, Chaoyou Fu, Yike Zhang, Yunhang Shen, Lei Xie, Ke Li, Xing Sun, Long Ma

CVPR 2025 InstanceCap: Improving Text-to-Video Generation via Instance-Aware Structured Caption Tiehan Fan, Kepan Nan, Rui Xie, Penghao Zhou, Zhenheng Yang, Chaoyou Fu, Xiang Li, Jian Yang, Ying Tai

ICLR 2025 Learning Interleaved Image-Text Comprehension in Vision-Language Large Models Chenyu Zhou, Mengdan Zhang, Peixian Chen, Chaoyou Fu, Yunhang Shen, Xiawu Zheng, Xing Sun, Rongrong Ji

ICML 2025 MM-RLHF: The Next Step Forward in Multimodal LLM Alignment Yifan Zhang, Tao Yu, Haochen Tian, Chaoyou Fu, Peiyan Li, Jianshu Zeng, Wulin Xie, Yang Shi, Huanyu Zhang, Junkang Wu, Xue Wang, Yibo Hu, Bin Wen, Tingting Gao, Zhang Zhang, Fan Yang, Di Zhang, Liang Wang, Rong Jin

ICML 2025 MME-CoT: Benchmarking Chain-of-Thought in Large Multimodal Models for Reasoning Quality, Robustness, and Efficiency Dongzhi Jiang, Renrui Zhang, Ziyu Guo, Yanwei Li, Yu Qi, Xinyan Chen, Liuhui Wang, Jianhan Jin, Claire Guo, Shen Yan, Bo Zhang, Chaoyou Fu, Peng Gao, Hongsheng Li

ICLR 2025 MME-RealWorld: Could Your Multimodal LLM Challenge High-Resolution Real-World Scenarios That Are Difficult for Humans? YiFan Zhang, Huanyu Zhang, Haochen Tian, Chaoyou Fu, Shuangqing Zhang, Junfei Wu, Feng Li, Kun Wang, Qingsong Wen, Zhang Zhang, Liang Wang, Rong Jin

NeurIPS 2025 MME-VideoOCR: Evaluating OCR-Based Capabilities of Multimodal LLMs in Video Scenarios Yang Shi, Huanqian Wang, Wulin Xie, Huanyao Zhang, Lijie Zhao, YiFan Zhang, Xinfeng Li, Chaoyou Fu, Zhuoer Wen, Wenting Liu, Zhuoran Zhang, Xinlong Chen, Bohan Zeng, Sihan Yang, Yushuo Guan, Zhang Zhang, Liang Wang, Haoxuan Li, Zhouchen Lin, Yuanxing Zhang, Pengfei Wan, Haotian Wang, Wenjing Yang

NeurIPS 2025 MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models Chaoyou Fu, Peixian Chen, Yunhang Shen, Yulei Qin, Mengdan Zhang, Xu Lin, Jinrui Yang, Xiawu Zheng, Ke Li, Xing Sun, Yunsheng Wu, Rongrong Ji, Caifeng Shan, Ran He

NeurIPS 2025 VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction Chaoyou Fu, Haojia Lin, Xiong Wang, YiFan Zhang, Yunhang Shen, Xiaoyu Liu, Haoyu Cao, Zuwei Long, Heting Gao, Ke Li, Long Ma, Xiawu Zheng, Rongrong Ji, Xing Sun, Caifeng Shan, Ran He

NeurIPS 2025 VITA-Audio: Fast Interleaved Audio-Text Token Generation for Efficient Large Speech-Language Model Zuwei Long, Yunhang Shen, Chaoyou Fu, Heting Gao, Lijiang Li, Peixian Chen, Mengdan Zhang, Hang Shao, Jian Li, Jinlong Peng, Haoyu Cao, Ke Li, Rongrong Ji, Xing Sun

CVPR 2025 Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-Modal LLMs in Video Analysis Chaoyou Fu, Yuhan Dai, Yongdong Luo, Lei Li, Shuhuai Ren, Renrui Zhang, Zihan Wang, Chenyu Zhou, Yunhang Shen, Mengdan Zhang, Peixian Chen, Yanwei Li, Shaohui Lin, Sirui Zhao, Ke Li, Tong Xu, Xiawu Zheng, Enhong Chen, Caifeng Shan, Ran He, Xing Sun

NeurIPS 2025 Video-RAG: Visually-Aligned Retrieval-Augmented Long Video Comprehension Yongdong Luo, Xiawu Zheng, Guilin Li, Shukang Yin, Haojia Lin, Chaoyou Fu, Jinfa Huang, Jiayi Ji, Fei Chao, Jiebo Luo, Rongrong Ji

NeurIPS 2025 Zooming from Context to Cue: Hierarchical Preference Optimization for Multi-Image MLLMs Xudong Li, Mengdan Zhang, Peixian Chen, Xiawu Zheng, Yan Zhang, Jingyuan Zheng, Yunhang Shen, Ke Li, Chaoyou Fu, Xing Sun, Rongrong Ji

CVPR 2024 Aligning and Prompting Everything All at Once for Universal Visual Perception Yunhang Shen, Chaoyou Fu, Peixian Chen, Mengdan Zhang, Ke Li, Xing Sun, Yunsheng Wu, Shaohui Lin, Rongrong Ji

CVPR 2024 No Time to Train: Empowering Non-Parametric Networks for Few-Shot 3D Scene Segmentation Xiangyang Zhu, Renrui Zhang, Bowei He, Ziyu Guo, Jiaming Liu, Han Xiao, Chaoyou Fu, Hao Dong, Peng Gao

NeurIPS 2023 CAPro: Webly Supervised Learning with Cross-Modality Aligned Prototypes Yulei Qin, Xingyu Chen, Yunhang Shen, Chaoyou Fu, Yun Gu, Ke Li, Xing Sun, Rongrong Ji

NeurIPS 2023 Multi-Modal Queried Object Detection in the Wild Yifan Xu, Mengdan Zhang, Chaoyou Fu, Peixian Chen, Xiaoshan Yang, Ke Li, Changsheng Xu

CVPR 2022 Rethinking Image Cropping: Exploring Diverse Compositions from Global Views Gengyun Jia, Huaibo Huang, Chaoyou Fu, Ran He

ICCV 2021 CM-NAS: Cross-Modality Neural Architecture Search for Visible-Infrared Person Re-Identification Chaoyou Fu, Yibo Hu, Xiang Wu, Hailin Shi, Tao Mei, Ran He

CVPR 2021 Information Bottleneck Disentanglement for Identity Swapping Gege Gao, Huaibo Huang, Chaoyou Fu, Zhaoyang Li, Ran He

CVPR 2021 Pareidolia Face Reenactment Linsen Song, Wayne Wu, Chaoyou Fu, Chen Qian, Chen Change Loy, Ran He

NeurIPS 2020 AOT: Appearance Optimal Transport Based Identity Swapping for Forgery Detection Hao Zhu, Chaoyou Fu, Qianyi Wu, Wayne Wu, Chen Qian, Ran He

NeurIPS 2019 Dual Variational Generation for Low Shot Heterogeneous Face Recognition Chaoyou Fu, Xiang Wu, Yibo Hu, Huaibo Huang, Ran He

IJCAI 2019 Neurons Merging Layer: Towards Progressive Redundancy Reduction for Deep Supervised Hashing Chaoyou Fu, Liangchen Song, Xiang Wu, Guoli Wang, Ran He