Cao, Haoyu

7 publications

ICCV 2025 BASIC: Boosting Visual Alignment with Intrinsic Refined Embeddings in Multimodal Large Language Models Jianting Tang, Yubo Wang, Haoyu Cao, Linli Xu

NeurIPS 2025 VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction Chaoyou Fu, Haojia Lin, Xiong Wang, YiFan Zhang, Yunhang Shen, Xiaoyu Liu, Haoyu Cao, Zuwei Long, Heting Gao, Ke Li, Long Ma, Xiawu Zheng, Rongrong Ji, Xing Sun, Caifeng Shan, Ran He

NeurIPS 2025 VITA-Audio: Fast Interleaved Audio-Text Token Generation for Efficient Large Speech-Language Model Zuwei Long, Yunhang Shen, Chaoyou Fu, Heting Gao, Lijiang Li, Peixian Chen, Mengdan Zhang, Hang Shao, Jian Li, Jinlong Peng, Haoyu Cao, Ke Li, Rongrong Ji, Xing Sun

MLJ 2024 Communication-Efficient Clustered Federated Learning via Model Distance Mao Zhang, Tie Zhang, Yifei Cheng, Changcun Bao, Haoyu Cao, Deqiang Jiang, Linli Xu

CVPR 2024 Enhancing Visual Document Understanding with Contrastive Learning in Large Visual-Language Models Xin Li, Yunfei Wu, Xinghua Jiang, Zhihao Guo, Mingming Gong, Haoyu Cao, Yinsong Liu, Deqiang Jiang, Xing Sun

CVPR 2024 HRVDA: High-Resolution Visual Document Assistant Chaohu Liu, Kun Yin, Haoyu Cao, Xinghua Jiang, Xin Li, Yinsong Liu, Deqiang Jiang, Xing Sun, Linli Xu

ICCV 2023 Attention Where It Matters: Rethinking Visual Document Understanding with Selective Region Concentration Haoyu Cao, Changcun Bao, Chaohu Liu, Huang Chen, Kun Yin, Hao Liu, Yinsong Liu, Deqiang Jiang, Xing Sun