Wu, Wenhao

37 publications

CVPR 2025 DistinctAD: Distinctive Audio Description Generation in Contexts Bo Fang, Wenhao Wu, Qiangqiang Wu, Yuxin Song, Antoni B. Chan

ICCV 2025 MMReason: An Open-Ended Multi-Modal Multi-Step Reasoning Benchmark for MLLMs Toward AGI Huanjin Yao, Jiaxing Huang, Yawen Qiu, Michael K. Chen, Wenzheng Liu, Wei Zhang, Wenjie Zeng, Xikun Zhang, Jingyi Zhang, YuXin Song, Wenhao Wu, Dacheng Tao

NeurIPS 2025 Mixture-of-Experts Meets In-Context Reinforcement Learning Wenhao Wu, Fuhong Liu, Haoru Li, Zican Hu, Daoyi Dong, Chunlin Chen, Zhi Wang

NeurIPS 2025 Mulberry: Empowering MLLM with O1-like Reasoning and Reflection via Collective Monte Carlo Tree Search Huanjin Yao, Jiaxing Huang, Wenhao Wu, Jingyi Zhang, Yibo Wang, Shunyu Liu, Yingjie Wang, YuXin Song, Haocheng Feng, Li Shen, Dacheng Tao

NeurIPS 2025 R1-ShareVL: Incentivizing Reasoning Capabilities of Multimodal Large Language Models via Share-GRPO Huanjin Yao, Qixiang Yin, Jingyi Zhang, Min Yang, Yibo Wang, Wenhao Wu, Fei Su, Li Shen, Minghui Qiu, Dacheng Tao, Jiaxing Huang

ICLR 2025 Retrieval Head Mechanistically Explains Long-Context Factuality Wenhao Wu, Yizhong Wang, Guangxuan Xiao, Hao Peng, Yao Fu

NeurIPS 2025 Text-to-Decision Agent: Offline Meta-Reinforcement Learning from Natural Language Supervision Shilin Zhang, Zican Hu, Wenhao Wu, Xinyi Xie, Jianxiang Tang, Chunlin Chen, Daoyi Dong, Yu Cheng, Zhenhong Sun, Zhi Wang

NeurIPS 2024 Automated Multi-Level Preference for MLLMs Mengxi Zhang, Wenhao Wu, Yu Lu, Yuxin Song, Kang Rong, Huanjin Yao, Jianbo Zhao, Fanglong Liu, Haocheng Feng, Jingdong Wang, Yifan Sun

NeurIPS 2024 Dense Connector for MLLMs Huanjin Yao, Wenhao Wu, Taojiannan Yang, Yuxin Song, Mengxi Zhang, Haocheng Feng, Yifan Sun, Zhiheng Li, Wanli Ouyang, Jingdong Wang

ECCV 2024 DetToolChain: A New Prompting Paradigm to Unleash Detection Ability of MLLM Yixuan Wu, Yizhou Wang, Shixiang Tang, Wenhao Wu, Tong He, Wanli Ouyang, Philip Torr, Jian Wu

NeurIPS 2024 Meta-DT: Offline Meta-RL as Conditional Sequence Modeling with World Model Disentanglement Zhi Wang, Li Zhang, Wenhao Wu, Yuanheng Zhu, Dongbin Zhao, Chunlin Chen

ICLR 2024 PoSE: Efficient Context Window Extension of LLMs via Positional Skip-Wise Training Dawei Zhu, Nan Yang, Liang Wang, Yifan Song, Wenhao Wu, Furu Wei, Sujian Li

CVPR 2024 Relational Matching for Weakly Semi-Supervised Oriented Object Detection Wenhao Wu, Hau-San Wong, Si Wu, Tianyou Zhang

AAAI 2023 AdaCM: Adaptive ColorMLP for Real-Time Universal Photo-Realistic Style Transfer Tianwei Lin, Honglin Lin, Fu Li, Dongliang He, Wenhao Wu, Meiling Wang, Xin Li, Yong Liu

CVPR 2023 Bidirectional Cross-Modal Knowledge Exploration for Video Recognition with Pre-Trained Vision-Language Models Wenhao Wu, Xiaohan Wang, Haipeng Luo, Jingdong Wang, Yi Yang, Wanli Ouyang

CVPR 2023 Cap4Video: What Can Auxiliary Captions Do for Text-Video Retrieval? Wenhao Wu, Haipeng Luo, Bo Fang, Jingdong Wang, Wanli Ouyang

WACV 2023 Effective Invertible Arbitrary Image Rescaling Zhihong Pan, Baopu Li, Dongliang He, Wenhao Wu, Errui Ding

JAIR 2023 FactGen: Faithful Text Generation by Factuality-Aware Pre-Training and Contrastive Ranking Fine-Tuning Zhibin Lan, Wei Li, Jinsong Su, Xinyan Xiao, Jiachen Liu, Wenhao Wu, Yajuan Lyu

AAAI 2023 Revisiting Classifier: Transferring Vision-Language Models for Video Recognition Wenhao Wu, Zhun Sun, Wanli Ouyang

CVPR 2023 Semi-Supervised Stereo-Based 3D Object Detection via Cross-View Consensus Wenhao Wu, Hau San Wong, Si Wu

ICCV 2023 UATVR: Uncertainty-Adaptive Text-Video Retrieval Bo Fang, Wenhao Wu, Chang Liu, Yu Zhou, Yuxin Song, Weiping Wang, Xiangbo Shu, Xiangyang Ji, Jingdong Wang

ICCV 2023 What Can Simple Arithmetic Operations Do for Temporal Modeling? Wenhao Wu, Yuxin Song, Zhun Sun, Jingdong Wang, Chang Xu, Wanli Ouyang

ECCV 2022 CODER: Coupled Diversity-Sensitive Momentum Contrastive Learning for Image-Text Retrieval Haoran Wang, Dongliang He, Wenhao Wu, Boyang Xia, Min Yang, Fu Li, Yunlong Yu, Zhong Ji, Errui Ding, Jingdong Wang

CVPR 2022 Maximum Spatial Perturbation Consistency for Unpaired Image-to-Image Translation Yanwu Xu, Shaoan Xie, Wenhao Wu, Kun Zhang, Mingming Gong, Kayhan Batmanghelich

ECCV 2022 NSNet: Non-Saliency Suppression Sampler for Efficient Video Recognition Boyang Xia, Wenhao Wu, Haoran Wang, Rui Su, Dongliang He, Haosen Yang, Xiaoran Fan, Wanli Ouyang

AAAI 2022 Temporal Action Proposal Generation with Background Constraint Haosen Yang, Wenhao Wu, Lining Wang, Sheng Jin, Boyang Xia, Hongxun Yao, Hujie Huang

ECCV 2022 Temporal Saliency Query Network for Efficient Video Recognition Boyang Xia, Zhihao Wang, Wenhao Wu, Haoran Wang, Jungong Han

CVPR 2022 Towards Bidirectional Arbitrary Image Rescaling: Joint Optimization and Cycle Idempotence Zhihong Pan, Baopu Li, Dongliang He, Mingde Yao, Wenhao Wu, Tianwei Lin, Xin Li, Errui Ding

ICCV 2021 ASCNet: Self-Supervised Video Representation Learning with Appearance-Speed Consistency Deng Huang, Wenhao Wu, Weiwen Hu, Xu Liu, Dongliang He, Zhihua Wu, Xiangmiao Wu, Mingkui Tan, Errui Ding

CVPRW 2021 Good Practices and a Strong Baseline for Traffic Anomaly Detection Yuxiang Zhao, Wenhao Wu, Yue He, Yingying Li, Xiao Tan, Shifeng Chen

AAAI 2021 MVFNet: Multi-View Fusion Network for Efficient Video Recognition Wenhao Wu, Dongliang He, Tianwei Lin, Fu Li, Chuang Gan, Errui Ding

IJCAI 2021 Weakly-Supervised Spatio-Temporal Anomaly Detection in Surveillance Video Jie Wu, Wei Zhang, Guanbin Li, Wenhao Wu, Xiao Tan, Yingying Li, Errui Ding, Liang Lin

ECCV 2020 Attention-Driven Dynamic Graph Convolutional Network for Multi-Label Image Recognition Jin Ye, Junjun He, Xiaojiang Peng, Wenhao Wu, Yu Qiao

CVPRW 2020 Dynamic Inference: A New Approach Toward Efficient Video Action Recognition Wenhao Wu, Dongliang He, Xiao Tan, Shifeng Chen, Yi Yang, Shilei Wen

CVPRW 2020 NTIRE 2020 Challenge on Perceptual Extreme Super-Resolution: Methods and Results Kai Zhang, Shuhang Gu, Radu Timofte, Taizhang Shang, Qiuju Dai, Shengchen Zhu, Tong Yang, Yandong Guo, Younghyun Jo, Sejong Yang, Seon Joo Kim, Lin Zha, Jiande Jiang, Xinbo Gao, Wen Lu, Jing Liu, Kwangjin Yoon, Taegyun Jeon, Kazutoshi Akita, Takeru Ooba, Norimichi Ukita, Zhipeng Luo, Yuehan Yao, Zhenyu Xu, Dongliang He, Wenhao Wu, Yukang Ding, Chao Li, Fu Li, Shilei Wen, Jianwei Li, Fuzhi Yang, Huan Yang, Jianlong Fu, Byung-Hoon Kim, JaeHyun Baek, Jong Chul Ye, Yuchen Fan, Thomas S. Huang, Junyeop Lee, Bokyeung Lee, Jungki Min, Gwantae Kim, Kanghyu Lee, Jaihyun Park, Mykola Mykhailych, Haoyu Zhong, Yukai Shi, Xiaojun Yang, Zhijing Yang, Liang Lin, Tongtong Zhao, Jinjia Peng, Huibing Wang, Zhi Jin, Jiahao Wu, Yifu Chen, Chenming Shang, Huanrong Zhang, Jeongki Min, P. S Hrishikesh, Densen Puthussery, C. V. Jiji

ECCV 2018 Mask TextSpotter: An End-to-End Trainable Neural Network for Spotting Text with Arbitrary Shapes Pengyuan Lyu, Minghui Liao, Cong Yao, Wenhao Wu, Xiang Bai

ECCV 2018 TextSnake: A Flexible Representation for Detecting Text of Arbitrary Shapes Shangbang Long, Jiaqiang Ruan, Wenjie Zhang, Xin He, Wenhao Wu, Cong Yao