Wang, Wenhai

56 publications

NeurIPS 2025 ArchCAD-400k: A Large-Scale CAD Drawings Dataset and New Baseline for Panoptic Symbol Spotting Ruifeng Luo, Zhengjie Liu, Tianxiao Cheng, Jie Wang, Tongjie Wang, Fei Cheng, Fu Chai, Yanpeng Li, Xingguang Wei, Haomin Wang, Shenglong Ye, Wenhai Wang, Yanting Zhang, Yu Qiao, Hongjie Zhang, Xianzhong Zhao

AAAI 2025 ChemVLM: Exploring the Power of Multimodal Large Language Models in Chemistry Area Junxian Li, Di Zhang, Xunzhi Wang, Zeying Hao, Jingdi Lei, Qian Tan, Cai Zhou, Wei Liu, Yaotian Yang, Xinrui Xiong, Weiyun Wang, Zhe Chen, Wenhai Wang, Wei Li, Mao Su, Shufei Zhang, Wanli Ouyang, Yuqiang Li, Dongzhan Zhou

ICML 2025 CoMemo: LVLMs Need Image Context with Image Memory Shi Liu, Weijie Su, Xizhou Zhu, Wenhai Wang, Jifeng Dai

IJCAI 2025 Diffuse&Refine: Intrinsic Knowledge Generation and Aggregation for Incremental Object Detection Jianzhou Wang, Yirui Wu, Lixin Yuan, Wenxiao Zhang, Jun Liu, Junyang Chen, Huan Wang, Wenhai Wang

CVPR 2025 Docopilot: Improving Multimodal Models for Document-Level Understanding Yuchen Duan, Zhe Chen, Yusong Hu, Weiyun Wang, Shenglong Ye, Botian Shi, Lewei Lu, Qibin Hou, Tong Lu, Hongsheng Li, Jifeng Dai, Wenhai Wang

CVPR 2025 HoVLE: Unleashing the Power of Monolithic Vision-Language Models with Holistic Vision-Language Embedding Chenxin Tao, Shiqian Su, Xizhou Zhu, Chenyu Zhang, Zhe Chen, Jiawen Liu, Wenhai Wang, Lewei Lu, Gao Huang, Yu Qiao, Jifeng Dai

ICCV 2025 Lumina-Image 2.0: A Unified and Efficient Image Generative Framework Qi Qin, Le Zhuo, Yi Xin, Ruoyi Du, Zhen Li, Bin Fu, Yiting Lu, Xinyue Li, Dongyang Liu, Xiangyang Zhu, Will Beddow, Erwann Millon, Victor Perez, Wenhai Wang, Yu Qiao, Bo Zhang, Xiaohong Liu, Hongsheng Li, Chang Xu, Peng Gao

ICML 2025 MuLan: Adapting Multilingual Diffusion Models for Hundreds of Languages with Negligible Cost Sen Xing, Muyan Zhong, Zeqiang Lai, Liangchen Li, Jiawen Liu, Yaohui Wang, Jifeng Dai, Wenhai Wang

NeurIPS 2025 NaViL: Rethinking Scaling Properties of Native Multimodal Large Language Models Under Data Constraints Changyao Tian, Hao Li, Gen Luo, Xizhou Zhu, Weijie Su, Hanming Deng, Jinguo Zhu, Jie Shao, Ziran Zhu, Yunpeng Liu, Lewei Lu, Wenhai Wang, Hongsheng Li, Jifeng Dai

NeurIPS 2025 OPMapper: Enhancing Open-Vocabulary Semantic Segmentation with Multi-Guidance Information Xuehui Wang, Chongjie Si, Xue Yang, Yuzhi Zhao, Wenhai Wang, Xiaokang Yang, Wei Shen

NeurIPS 2025 OWMM-Agent: Open World Mobile Manipulation with Multi-Modal Agentic Data Synthesis Junting Chen, Haotian Liang, Lingxiao Du, Weiyun Wang, Mengkang Hu, Yao Mu, Wenhai Wang, Jifeng Dai, Ping Luo, Wenqi Shao, Lin Shao

ICLR 2025 OmniCorpus: A Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text Qingyun Li, Zhe Chen, Weiyun Wang, Wenhai Wang, Shenglong Ye, Zhenjiang Jin, Guanzhou Chen, Yinan He, Zhangwei Gao, Erfei Cui, Jiashuo Yu, Hao Tian, Jiasheng Zhou, Chao Xu, Bin Wang, Xingjian Wei, Wei Li, Wenjian Zhang, Bo Zhang, Pinlong Cai, Licheng Wen, Xiangchao Yan, Pei Chu, Yi Wang, Min Dou, Changyao Tian, Xizhou Zhu, Lewei Lu, Yushi Chen, Junjun He, Tong Lu, Yali Wang, Limin Wang, Dahua Lin, Yu Qiao, Botian Shi, Conghui He, Jifeng Dai

CVPR 2025 PVC: Progressive Visual Token Compression for Unified Image and Video Processing in Large Vision-Language Models Chenyu Yang, Xuan Dong, Xizhou Zhu, Weijie Su, Jiahao Wang, Hao Tian, Zhe Chen, Wenhai Wang, Lewei Lu, Jifeng Dai

NeurIPS 2025 Point or Line? Using Line-Based Representation for Panoptic Symbol Spotting in CAD Drawings Xingguang Wei, Haomin Wang, Shenglong Ye, Ruifeng Luo, Yanting Zhang, Lixin Gu, Jifeng Dai, Yu Qiao, Wenhai Wang, Hongjie Zhang

IJCAI 2025 UltraModel: A Modeling Paradigm for Industrial Objects Haoran Yang, Yinan Zhang, Qunshan He, Yuqi Ye, Jing Zhao, Wenhai Wang

ICCV 2025 Unbiased Region-Language Alignment for Open-Vocabulary Dense Prediction Yunheng Li, Yuxuan Li, Quan-Sheng Zeng, Wenhai Wang, Qibin Hou, Ming-Ming Cheng

AAAI 2025 Uncovering LLM-Generated Code: A Zero-Shot Synthetic Code Detector via Code Rewriting Tong Ye, Yangkai Du, Tengfei Ma, Lingfei Wu, Xuhong Zhang, Shouling Ji, Wenhai Wang

ICLR 2025 Vision-RWKV: Efficient and Scalable Visual Perception with RWKV-like Architectures Yuchen Duan, Weiyun Wang, Zhe Chen, Xizhou Zhu, Lewei Lu, Tong Lu, Yu Qiao, Hongsheng Li, Jifeng Dai, Wenhai Wang

AAAI 2024 AVSegFormer: Audio-Visual Segmentation with Transformer Shengyi Gao, Zhe Chen, Guo Chen, Wenhai Wang, Tong Lu

ICLR 2024 Bounding Box Stability Against Feature Dropout Reflects Detector Generalization Across Environments Yang Yang, Wenhai Wang, Zhe Chen, Jifeng Dai, Liang Zheng

ECCV 2024 ControlLLM: Augment Language Models with Tools by Searching on Graphs Zhaoyang Liu, Zeqiang Lai, Zhangwei Gao, Erfei Cui, Ziheng Li, Xizhou Zhu, Lewei Lu, Qifeng Chen, Yu Qiao, Jifeng Dai, Wenhai Wang

ECCV 2024 Distilling Knowledge from Large-Scale Image Models for Object Detection Gang Li, Wenhai Wang, Xiang Li, Ziheng Li, Jian Yang, Jifeng Dai, Yu Qiao, Shanshan Zhang

CVPR 2024 Efficient Deformable ConvNets: Rethinking Dynamic and Sparse Operator for Vision Applications Yuwen Xiong, Zhiqi Li, Yuntao Chen, Feng Wang, Xizhou Zhu, Jiapeng Luo, Wenhai Wang, Tong Lu, Hongsheng Li, Yu Qiao, Lewei Lu, Jie Zhou, Jifeng Dai

NeurIPS 2024 InternLM-XComposer2-4KHD: A Pioneering Large Vision-Language Model Handling Resolutions from 336 Pixels to 4k HD Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Bin Wang, Linke Ouyang, Songyang Zhang, Haodong Duan, Wenwei Zhang, Yining Li, Hang Yan, Yang Gao, Zhe Chen, Xinyue Zhang, Wei Li, Jingwen Li, Wenhai Wang, Kai Chen, Conghui He, Xingcheng Zhang, Jifeng Dai, Yu Qiao, Dahua Lin, Jiaqi Wang

CVPR 2024 InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks Zhe Chen, Jiannan Wu, Wenhai Wang, Weijie Su, Guo Chen, Sen Xing, Muyan Zhong, Qinglong Zhang, Xizhou Zhu, Lewei Lu, Bin Li, Ping Luo, Tong Lu, Yu Qiao, Jifeng Dai

NeurIPS 2024 Needle in a Multimodal Haystack Weiyun Wang, Shuibo Zhang, Yiming Ren, Yuchen Duan, Tiantong Li, Shuo Liu, Mengkang Hu, Zhe Chen, Kaipeng Zhang, Lewei Lu, Xizhou Zhu, Ping Luo, Yu Qiao, Jifeng Dai, Wenqi Shao, Wenhai Wang

ICML 2024 RoboCodeX: Multimodal Code Generation for Robotic Behavior Synthesis Yao Mu, Junting Chen, Qing-Long Zhang, Shoufa Chen, Qiaojun Yu, Chongjian Ge, Runjian Chen, Zhixuan Liang, Mengkang Hu, Chaofan Tao, Peize Sun, Haibao Yu, Chao Yang, Wenqi Shao, Wenhai Wang, Jifeng Dai, Yu Qiao, Mingyu Ding, Ping Luo

ECCV 2024 The All-Seeing Project V2: Towards General Relation Comprehension of the Open World Weiyun Wang, Yiming Ren, Haowen Luo, Tiantong Li, Chenxiang Yan, Zhe Chen, Wenhai Wang, Qingyun Li, Lewei Lu, Xizhou Zhu, Yu Qiao, Jifeng Dai

ICLR 2024 The All-Seeing Project: Towards Panoptic Visual Recognition and Understanding of the Open World Weiyun Wang, Min Shi, Qingyun Li, Wenhai Wang, Zhenhang Huang, Linjie Xing, Zhe Chen, Hao Li, Xizhou Zhu, Zhiguo Cao, Yushi Chen, Tong Lu, Jifeng Dai, Yu Qiao

NeurIPS 2024 Vision Model Pre-Training on Interleaved Image-Text Data via Latent Compression Learning Chenyu Yang, Xizhou Zhu, Jinguo Zhu, Weijie Su, Junjie Wang, Xuan Dong, Wenhai Wang, Lewei Lu, Bin Li, Jie Zhou, Yu Qiao, Jifeng Dai

NeurIPS 2024 VisionLLM V2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks Jiannan Wu, Muyan Zhong, Sen Xing, Zeqiang Lai, Zhaoyang Liu, Zhe Chen, Wenhai Wang, Xizhou Zhu, Lewei Lu, Tong Lu, Ping Luo, Yu Qiao, Jifeng Dai

NeurIPS 2023 EmbodiedGPT: Vision-Language Pre-Training via Embodied Chain of Thought Yao Mu, Qinglong Zhang, Mengkang Hu, Wenhai Wang, Mingyu Ding, Jun Jin, Bin Wang, Jifeng Dai, Yu Qiao, Ping Luo

ICCV 2023 FB-BEV: BEV Representation from Forward-Backward View Transformations Zhiqi Li, Zhiding Yu, Wenhai Wang, Anima Anandkumar, Tong Lu, Jose M. Alvarez

CVPR 2023 InternImage: Exploring Large-Scale Vision Foundation Models with Deformable Convolutions Wenhai Wang, Jifeng Dai, Zhe Chen, Zhenhang Huang, Zhiqi Li, Xizhou Zhu, Xiaowei Hu, Tong Lu, Lewei Lu, Hongsheng Li, Xiaogang Wang, Yu Qiao

NeurIPS 2023 Leveraging Vision-Centric Multi-Modal Expertise for 3D Object Detection Linyan Huang, Zhiqi Li, Chonghao Sima, Wenhai Wang, Jingdong Wang, Yu Qiao, Hongyang Li

CVPR 2023 Planning-Oriented Autonomous Driving Yihan Hu, Jiazhi Yang, Li Chen, Keyu Li, Chonghao Sima, Xizhou Zhu, Siqi Chai, Senyao Du, Tianwei Lin, Wenhai Wang, Lewei Lu, Xiaosong Jia, Qiang Liu, Jifeng Dai, Yu Qiao, Hongyang Li

CVPR 2023 Uni-Perceiver V2: A Generalist Model for Large-Scale Vision and Vision-Language Tasks Hao Li, Jinguo Zhu, Xiaohu Jiang, Xizhou Zhu, Hongsheng Li, Chun Yuan, Xiaohua Wang, Yu Qiao, Xiaogang Wang, Wenhai Wang, Jifeng Dai

ICLR 2023 Vision Transformer Adapter for Dense Predictions Zhe Chen, Yuchen Duan, Wenhai Wang, Junjun He, Tong Lu, Jifeng Dai, Yu Qiao

NeurIPS 2023 VisionLLM: Large Language Model Is Also an Open-Ended Decoder for Vision-Centric Tasks Wenhai Wang, Zhe Chen, Xiaokang Chen, Jiannan Wu, Xizhou Zhu, Gang Zeng, Ping Luo, Tong Lu, Jie Zhou, Yu Qiao, Jifeng Dai

ECCV 2022 BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers Zhiqi Li, Wenhai Wang, Hongyang Li, Enze Xie, Chonghao Sima, Tong Lu, Yu Qiao, Jifeng Dai

JAIR 2022 On Efficient Reinforcement Learning for Full-Length Game of StarCraft II Ruo-Ze Liu, Zhen-Jia Pang, Zhou-Yu Meng, Wenhai Wang, Yang Yu, Tong Lu

CVPR 2022 Panoptic SegFormer: Delving Deeper into Panoptic Segmentation with Transformers Zhiqi Li, Wenhai Wang, Enze Xie, Zhiding Yu, Anima Anandkumar, Jose M. Alvarez, Ping Luo, Tong Lu

AAAI 2022 Towards Ultra-Resolution Neural Style Transfer via Thumbnail Instance Normalization Zhe Chen, Wenhai Wang, Enze Xie, Tong Lu, Ping Luo

NeurIPS 2022 Uni-Perceiver-MoE: Learning Sparse Generalist Models with Conditional MoEs Jinguo Zhu, Xizhou Zhu, Wenhai Wang, Xiaohua Wang, Hongsheng Li, Xiaogang Wang, Jifeng Dai

ECCV 2022 VL-LTR: Learning Class-Wise Visual-Linguistic Representation for Long-Tailed Visual Recognition Changyao Tian, Wenhai Wang, Xizhou Zhu, Jifeng Dai, Yu Qiao

ICCV 2021 DetCo: Unsupervised Contrastive Learning for Object Detection Enze Xie, Jian Ding, Wenhai Wang, Xiaohang Zhan, Hang Xu, Peize Sun, Zhenguo Li, Ping Luo

CVPR 2021 Generalized Focal Loss V2: Learning Reliable Localization Quality Estimation for Dense Object Detection Xiang Li, Wenhai Wang, Xiaolin Hu, Jun Li, Jinhui Tang, Jian Yang

ICCV 2021 Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction Without Convolutions Wenhai Wang, Enze Xie, Xiang Li, Deng-Ping Fan, Kaitao Song, Ding Liang, Tong Lu, Ping Luo, Ling Shao

NeurIPS 2021 SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers Enze Xie, Wenhai Wang, Zhiding Yu, Anima Anandkumar, Jose M. Alvarez, Ping Luo

IJCAI 2021 Segmenting Transparent Objects in the Wild with Transformer Enze Xie, Wenjia Wang, Wenhai Wang, Peize Sun, Hang Xu, Ding Liang, Ping Luo

ECCV 2020 AE TextSpotter: Learning Visual and Linguistic Representation for Ambiguous Text Spotting Wenhai Wang, Xuebo Liu, Xiaozhong Ji, Enze Xie, Ding Liang, ZhiBo Yang, Tong Lu, Chunhua Shen, Ping Luo

ECCV 2020 Differentiable Hierarchical Graph Grouping for Multi-Person Pose Estimation Sheng Jin, Wentao Liu, Enze Xie, Wenhai Wang, Chen Qian, Wanli Ouyang, Ping Luo

NeurIPS 2020 Generalized Focal Loss: Learning Qualified and Distributed Bounding Boxes for Dense Object Detection Xiang Li, Wenhai Wang, Lijun Wu, Shuo Chen, Xiaolin Hu, Jun Li, Jinhui Tang, Jian Yang

ECCV 2020 Scene Text Image Super-Resolution in the Wild Wenjia Wang, Enze Xie, Xuebo Liu, Wenhai Wang, Ding Liang, Chunhua Shen, Xiang Bai

ECCV 2020 Segmenting Transparent Objects in the Wild Enze Xie, Wenjia Wang, Wenhai Wang, Mingyu Ding, Chunhua Shen, Ping Luo

IJCAI 2018 Mixed Link Networks Wenhai Wang, Xiang Li, Tong Lu, Jian Yang