Rao, Fengyun

18 publications

NeurIPS 2025 FlexSelect: Flexible Token Selection for Efficient Long Video Understanding Yunzhuzhang, Yu Lu, Tianyi Wang, Fengyun Rao, Yi Yang, Linchao Zhu

ICCV 2025 From Trial to Triumph: Advancing Long Video Understanding via Visual Context Sample Scaling and Self-Reward Alignment Yucheng Suo, Fan Ma, Linchao Zhu, Tianyi Wang, Fengyun Rao, Yi Yang

ICCV 2025 HQ-CLIP: Leveraging Large Vision-Language Models to Create High-Quality Image-Text Datasets and CLIP Models Zhixiang Wei, Guangting Wang, Xiaoxiao Ma, Ke Mei, Huaian Chen, Yi Jin, Fengyun Rao

CVPR 2025 HarmonySet: A Comprehensive Dataset for Understanding Video-Music Semantic Alignment and Temporal Synchronization Zitang Zhou, Ke Mei, Yu Lu, Tianyi Wang, Fengyun Rao

CVPRW 2025 Instruction-Augmented Multimodal Alignment for Image-Text and Element Matching Xinli Yue, Jianhui Sun, Junda Lu, Liangchao Yao, Fan Xia, Tianyi Wang, Fengyun Rao, Jing Lyu, Yuetang Deng

ICCV 2025 Instruction-Oriented Preference Alignment for Enhancing Multi-Modal Comprehension Capability of MLLMs Zitian Wang, Yue Liao, Kang Rong, Fengyun Rao, Yibo Yang, Si Liu

CVPR 2025 MMAR: Towards Lossless Multi-Modal Auto-Regressive Probabilistic Modeling Jian Yang, Dacheng Yin, Yizhou Zhou, Fengyun Rao, Wei Zhai, Yang Cao, Zheng-Jun Zha

CVPR 2025 Number It: Temporal Grounding Videos like Flipping Manga Yongliang Wu, Xinting Hu, Yuyang Sun, Yizhou Zhou, Wenbo Zhu, Fengyun Rao, Bernt Schiele, Xu Yang

ICLR 2025 PerturboLLaVA: Reducing Multimodal Hallucinations with Perturbative Visual Training Cong Chen, Mingyu Liu, Chenchen Jing, Yizhou Zhou, Fengyun Rao, Hao Chen, Bo Zhang, Chunhua Shen

ICCV 2025 R1-Onevision: Advancing Generalized Multimodal Reasoning Through Cross-Modal Formalization Yi Yang, Xiaoxuan He, Hongkun Pan, Xiyan Jiang, Yan Deng, Xingtao Yang, Haoyu Lu, Dacheng Yin, Fengyun Rao, Minfeng Zhu, Bo Zhang, Wei Chen

AAAI 2024 Image Captioning with Multi-Context Synthetic Data Feipeng Ma, Yizhou Zhou, Fengyun Rao, Yueyi Zhang, Xiaoyan Sun

CVPR 2024 Inter-X: Towards Versatile Human-Human Interaction Analysis Liang Xu, Xintao Lv, Yichao Yan, Xin Jin, Shuwen Wu, Congsheng Xu, Yifan Liu, Yizhou Zhou, Fengyun Rao, Xingdong Sheng, Yunhui Liu, Wenjun Zeng, Xiaokang Yang

CVPR 2024 ReGenNet: Towards Human Action-Reaction Synthesis Liang Xu, Yizhou Zhou, Yichao Yan, Xin Jin, Wenhan Zhu, Fengyun Rao, Xiaokang Yang, Wenjun Zeng

AAAI 2024 Spatial-Semantic Collaborative Cropping for User Generated Content Yukun Su, Yiwen Cao, Jingliang Deng, Fengyun Rao, Qingyao Wu

CVPRW 2024 Task Navigator: Decomposing Complex Tasks for Multimodal Large Language Models Feipeng Ma, Yizhou Zhou, Yueyi Zhang, Siying Wu, Zheyu Zhang, Zilong He, Fengyun Rao, Xiaoyan Sun

NeurIPS 2024 Visual Perception by Large Language Model’s Weights Feipeng Ma, Hongwei Xue, Yizhou Zhou, Guangting Wang, Fengyun Rao, Shilin Yan, Yueyi Zhang, Siying Wu, Mike Zheng Shou, Xiaoyan Sun

ECCV 2022 CA-SSL: Class-Agnostic Semi-Supervised Learning for Detection and Segmentation Lu Qi, Jason Kuen, Zhe Lin, Jiuxiang Gu, Fengyun Rao, Dian Li, Weidong Guo, Zhen Wen, Ming-Hsuan Yang, Jiaya Jia

CVPR 2022 Tencent-MVSE: A Large-Scale Benchmark Dataset for Multi-Modal Video Similarity Evaluation Zhaoyang Zeng, Yongsheng Luo, Zhenhua Liu, Fengyun Rao, Dian Li, Weidong Guo, Zhen Wen