Li, Hongsheng

233 publications

CVPR 2025 Adaptive Markup Language Generation for Contextually-Grounded Visual Document Understanding Han Xiao, Yina Xie, Guanxin Tan, Yinghao Chen, Rui Hu, Ke Wang, Aojun Zhou, Hao Li, Hao Shao, Xudong Lu, Peng Gao, Yafei Wen, Xiaoxin Chen, Shuai Ren, Hongsheng Li

NeurIPS 2025 BLINK-Twice: You See, but Do You Observe? a Reasoning Benchmark on Visual Perception Junyan Ye, Dongzhi Jiang, Jun He, Baichuan Zhou, Zilong Huang, Zhiyuan Yan, Hongsheng Li, Conghui He, Weijia Li

CVPR 2025 BlueLM-V-3b: Algorithm and System Co-Design for Multimodal Large Language Models on Mobile Devices Xudong Lu, Yinghao Chen, Cheng Chen, Hui Tan, Boheng Chen, Yina Xie, Rui Hu, Guanxin Tan, Renshou Wu, Yan Hu, Yi Zeng, Lei Wu, Liuyang Bian, Zhaoxiong Wang, Long Liu, Yanzhou Yang, Han Xiao, Aojun Zhou, Yafei Wen, Xiaoxin Chen, Shuai Ren, Hongsheng Li

ICCV 2025 CameraCtrl II: Dynamic Scene Exploration via Camera-Controlled Video Diffusion Models Hao He, Ceyuan Yang, Shanchuan Lin, Yinghao Xu, Meng Wei, Liangke Gui, Qi Zhao, Gordon Wetzstein, Lu Jiang, Hongsheng Li

ICLR 2025 CameraCtrl: Enabling Camera Control for Video Diffusion Models Hao He, Yinghao Xu, Yuwei Guo, Gordon Wetzstein, Bo Dai, Hongsheng Li, Ceyuan Yang

ICCV 2025 ConsistentCity: Semantic Flow-Guided Occupancy DiT for Temporally Consistent Driving Scene Synthesis Benjin Zhu, Xiaogang Wang, Hongsheng Li

NeurIPS 2025 Delving into RL for Image Generation with CoT: A Study on DPO vs. GRPO Chengzhuo Tong, Ziyu Guo, Renrui Zhang, Wenyu Shan, Xinyu Wei, Zhenghao Xing, Hongsheng Li, Pheng-Ann Heng

ICLR 2025 Diffusion-NPO: Negative Preference Optimization for Better Preference Aligned Generation of Diffusion Models Fu-Yun Wang, Yunhao Shui, Jingtan Piao, Keqiang Sun, Hongsheng Li

CVPR 2025 DirectTriGS: Triplane-Based Gaussian Splatting Field Representation for 3D Generation Xiaoliang Ju, Hongsheng Li

CVPR 2025 Docopilot: Improving Multimodal Models for Document-Level Understanding Yuchen Duan, Zhe Chen, Yusong Hu, Weiyun Wang, Shenglong Ye, Botian Shi, Lewei Lu, Qibin Hou, Tong Lu, Hongsheng Li, Jifeng Dai, Wenhai Wang

ICLR 2025 Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want Weifeng Lin, Xinyu Wei, Ruichuan An, Peng Gao, Bocheng Zou, Yulin Luo, Siyuan Huang, Shanghang Zhang, Hongsheng Li

ICML 2025 EasyRef: Omni-Generalized Group Image Reference for Diffusion Models via Multimodal LLM Zhuofan Zong, Dongzhi Jiang, Bingqi Ma, Guanglu Song, Hao Shao, Dazhong Shen, Yu Liu, Hongsheng Li

ICLRW 2025 Empowering LLMs in Decision Games Through Algorithmic Data Synthesis Haolin Wang, Xueyan Li, Yazhe Niu, Shuai Hu, Hongsheng Li

NeurIPS 2025 EnerVerse: Envisioning Embodied Future Space for Robotics Manipulation Siyuan Huang, Liliang Chen, Pengfei Zhou, Shengcong Chen, Yue Liao, Zhengkai Jiang, Yue Hu, Peng Gao, Hongsheng Li, Maoqing Yao, Guanghui Ren

CVPR 2025 FlexDrive: Toward Trajectory Flexibility in Driving Scene Gaussian Splatting Reconstruction and Rendering Jingqiu Zhou, Lue Fan, Linjiang Huang, Xiaoyu Shi, Si Liu, Zhaoxiang Zhang, Hongsheng Li

CVPR 2025 FreeSim: Toward Free-Viewpoint Camera Simulation in Driving Scenes Lue Fan, Hao Zhang, Qitai Wang, Hongsheng Li, Zhaoxiang Zhang

ICCV 2025 From Reflection to Perfection: Scaling Inference-Time Optimization for Text-to-Image Diffusion Models via Reflection Tuning Le Zhuo, Liangbing Zhao, Sayak Paul, Yue Liao, Renrui Zhang, Yi Xin, Peng Gao, Mohamed Elhoseiny, Hongsheng Li

CVPR 2025 GS-DiT: Advancing Video Generation with Dynamic 3D Gaussian Fields Through Efficient Dense 3D Point Tracking Weikang Bian, Zhaoyang Huang, Xiaoyu Shi, Yijin Li, Fu-Yun Wang, Hongsheng Li

AAAI 2025 GaussianPainter: Painting Point Cloud into 3D Gaussians with Normal Guidance Jingqiu Zhou, Lue Fan, Xuesong Chen, Linjiang Huang, Si Liu, Hongsheng Li

ICCV 2025 GenieBlue: Integrating Both Linguistic and Multimodal Capabilities for Large Language Models on Mobile Devices Xudong Lu, Yinghao Chen, Renshou Wu, Haohao Gao, Xi Chen, Xue Yang, Xiangyu Zhao, Aojun Zhou, Fangyuan Li, Yafei Wen, Xiaoxin Chen, Shuai Ren, Hongsheng Li

NeurIPS 2025 GoT: Unleashing Reasoning Capability of MLLM for Visual Generation and Editing Rongyao Fang, Chengqi Duan, Kun Wang, Linjiang Huang, Hao Li, Hao Tian, Shilin Yan, Weihao Yu, Xingyu Zeng, Jifeng Dai, Xihui Liu, Hongsheng Li

ICCV 2025 HPSv3: Towards Wide-Spectrum Human Preference Score Yuhang Ma, Xiaoshi Wu, Keqiang Sun, Hongsheng Li

TMLR 2025 LLM-Powered GUI Agents in Phone Automation: Surveying Progress and Prospects Guangyi Liu, Pengxiang Zhao, Yaozhen Liang, Liang Liu, Yaxuan Guo, Han Xiao, Weifeng Lin, Yuxiang Chai, Yue Han, Shuai Ren, Hao Wang, Xiaoyu Liang, WenHao Wang, Tianze Wu, Zhengxi Lu, Siheng Chen, LiLinghao, Hao Wang, Guanjing Xiong, Yong Liu, Hongsheng Li

ICLR 2025 LLaVA-MoD: Making LLaVA Tiny via MoE-Knowledge Distillation Fangxun Shu, Yue Liao, Lei Zhang, Le Zhuo, Chenning Xu, Guanghao Zhang, Haonan Shi, Long Chan, TaoZhong, Zhelun Yu, Wanggui He, Siming Fu, Haoyuan Li, Si Liu, Hongsheng Li, Hao Jiang

CVPR 2025 Let's Verify and Reinforce Image Generation Step by Step Renrui Zhang, Chengzhuo Tong, Zhizheng Zhao, Ziyu Guo, Haoquan Zhang, Manyuan Zhang, Jiaming Liu, Peng Gao, Hongsheng Li

AAAI 2025 LiDAR-LLM: Exploring the Potential of Large Language Models for 3D LiDAR Understanding Senqiao Yang, Jiaming Liu, Renrui Zhang, Mingjie Pan, Ziyu Guo, Xiaoqi Li, Zehui Chen, Peng Gao, Hongsheng Li, Yandong Guo, Shanghang Zhang

ICCV 2025 Lumina-Image 2.0: A Unified and Efficient Image Generative Framework Qi Qin, Le Zhuo, Yi Xin, Ruoyi Du, Zhen Li, Bin Fu, Yiting Lu, Xinyue Li, Dongyang Liu, Xiangyang Zhu, Will Beddow, Erwann Millon, Victor Perez, Wenhai Wang, Yu Qiao, Bo Zhang, Xiaohong Liu, Hongsheng Li, Chang Xu, Peng Gao

ICLR 2025 Lumina-T2X: Scalable Flow-Based Large Diffusion Transformer for Flexible Resolution Generation Peng Gao, Le Zhuo, Dongyang Liu, Ruoyi Du, Xu Luo, Longtian Qiu, Yuhang Zhang, Rongjie Huang, Shijie Geng, Renrui Zhang, Junlin Xie, Wenqi Shao, Zhengkai Jiang, Tianshuo Yang, Weicai Ye, Tong He, Jingwen He, Junjun He, Yu Qiao, Hongsheng Li

AAAI 2025 M3Net: Multimodal Multi-Task Learning for 3D Detection, Segmentation, and Occupancy Prediction in Autonomous Driving Xuesong Chen, Shaoshuai Shi, Tao Ma, Jingqiu Zhou, Simon See, Ka Chun Cheung, Hongsheng Li

ICLR 2025 MAVIS: Mathematical Visual Instruction Tuning with an Automatic Data Engine Renrui Zhang, Xinyu Wei, Dongzhi Jiang, Ziyu Guo, Yichi Zhang, Chengzhuo Tong, Jiaming Liu, Aojun Zhou, Shanghang Zhang, Peng Gao, Hongsheng Li

NeurIPS 2025 MINT-CoT: Enabling Interleaved Visual Tokens in Mathematical Chain-of-Thought Reasoning Xinyan Chen, Renrui Zhang, Dongzhi Jiang, Aojun Zhou, Shilin Yan, Weifeng Lin, Hongsheng Li

ICML 2025 MME-CoT: Benchmarking Chain-of-Thought in Large Multimodal Models for Reasoning Quality, Robustness, and Efficiency Dongzhi Jiang, Renrui Zhang, Ziyu Guo, Yanwei Li, Yu Qi, Xinyan Chen, Liuhui Wang, Jianhan Jin, Claire Guo, Shen Yan, Bo Zhang, Chaoyou Fu, Peng Gao, Hongsheng Li

ICLR 2025 MMSearch: Unveiling the Potential of Large Models as Multi-Modal Search Engines Dongzhi Jiang, Renrui Zhang, Ziyu Guo, Yanmin Wu, Jiayi Lei, Pengshuo Qiu, Pan Lu, Zehui Chen, Guanglu Song, Peng Gao, Yu Liu, Chunyuan Li, Hongsheng Li

ICLR 2025 MathCoder2: Better Math Reasoning from Continued Pretraining on Model-Translated Mathematical Code Zimu Lu, Aojun Zhou, Ke Wang, Houxing Ren, Weikang Shi, Junting Pan, Mingjie Zhan, Hongsheng Li

ICLR 2025 Mixture Compressor for Mixture-of-Experts LLMs Gains More Wei Huang, Yue Liao, Jianhui Liu, Ruifei He, Haoru Tan, Shiming Zhang, Hongsheng Li, Si Liu, Xiaojuan Qi

NeurIPS 2025 NaViL: Rethinking Scaling Properties of Native Multimodal Large Language Models Under Data Constraints Changyao Tian, Hao Li, Gen Luo, Xizhou Zhu, Weijie Su, Hanming Deng, Jinguo Zhu, Jie Shao, Ziran Zhu, Yunpeng Liu, Lewei Lu, Wenhai Wang, Hongsheng Li, Jifeng Dai

NeurIPS 2025 NopeRoomGS: Indoor 3D Gaussian Splatting Optimization Without Camera Pose Input Wenbo Li, Yan Xu, Mingde Yao, Fengjie Liang, Jiankai Sun, Menglu Wang, Guofeng Zhang, Linjiang Huang, Hongsheng Li

CVPR 2025 OPTICAL: Leveraging Optimal Transport for Contribution Allocation in Dataset Distillation Xiao Cui, Yulei Qin, Wengang Zhou, Hongsheng Li, Houqiang Li

ICML 2025 One Leaf Reveals the Season: Occlusion-Based Contrastive Learning with Semantic-Aware Views for Efficient Visual Representation Xiaoyu Yang, Lijian Xu, Hongsheng Li, Shaoting Zhang

NeurIPS 2025 Optimizing Distributional Geometry Alignment with Optimal Transport for Generative Dataset Distillation Xiao Cui, Yulei Qin, Wengang Zhou, Hongsheng Li, Houqiang Li

ICCV 2025 PUMA: Empowering Unified MLLM with Multi-Granular Visual Generation Rongyao Fang, Chengqi Duan, Kun Wang, Hao Li, Linjiang Huang, Hao Tian, Xingyu Zeng, Rui Zhao, Jifeng Dai, Hongsheng Li, Xihui Liu

NeurIPS 2025 Perceive Anything: Recognize, Explain, Caption, and Segment Anything in Images and Videos Weifeng Lin, Xinyu Wei, Ruichuan An, Tianhe Ren, Tingwei Chen, Renrui Zhang, Ziyu Guo, Wentao Zhang, Lei Zhang, Hongsheng Li

ICLR 2025 PixWizard: Versatile Image-to-Image Visual Assistant with Open-Language Instructions Weifeng Lin, Xinyu Wei, Renrui Zhang, Le Zhuo, Shitian Zhao, Siyuan Huang, Junlin Xie, Peng Gao, Hongsheng Li

ICLR 2025 Point Cluster: A Compact Message Unit for Communication-Efficient Collaborative Perception Zihan Ding, Jiahui Fu, Si Liu, Hongyu Li, Siheng Chen, Hongsheng Li, Shifeng Zhang, Xu Zhou

ICLR 2025 Rectified Diffusion: Straightness Is Not Your Need in Rectified Flow Fu-Yun Wang, Ling Yang, Zhaoyang Huang, Mengdi Wang, Hongsheng Li

CVPR 2025 SOLVE: Synergy of Language-Vision and End-to-End Networks for Autonomous Driving Xuesong Chen, Linjiang Huang, Tao Ma, Rongyao Fang, Shaoshuai Shi, Hongsheng Li

ICLR 2025 SmartPretrain: Model-Agnostic and Dataset-Agnostic Representation Learning for Motion Prediction Yang Zhou, Hao Shao, Letian Wang, Steven L. Waslander, Hongsheng Li, Yu Liu

ICLRW 2025 Stable Consistency Tuning: Understanding and Improving Consistency Models Fu-Yun Wang, Zhengyang Geng, Hongsheng Li

TMLR 2025 Step-Controlled DPO: Leveraging Stepwise Errors for Enhancing Mathematical Reasoning of Language Models Zimu Lu, Aojun Zhou, Ke Wang, Houxing Ren, Weikang Shi, Yunqiao Yang, Junting Pan, Mingjie Zhan, Hongsheng Li

CVPR 2025 SynerGen-VL: Towards Synergistic Image Understanding and Generation with Vision Experts and Token Folding Hao Li, Changyao Tian, Jie Shao, Xizhou Zhu, Zhaokai Wang, Jinguo Zhu, Wenhan Dou, Xiaogang Wang, Hongsheng Li, Lewei Lu, Jifeng Dai

NeurIPS 2025 T2I-R1: Reinforcing Image Generation with Collaborative Semantic-Level and Token-Level CoT Dongzhi Jiang, Ziyu Guo, Renrui Zhang, Zhuofan Zong, Hao Li, Le Zhuo, Shilin Yan, Pheng-Ann Heng, Hongsheng Li

ICLR 2025 Towards Realistic UAV Vision-Language Navigation: Platform, Benchmark, and Methodology Xiangyu Wang, Donglin Yang, Ziqin Wang, Hohin Kwan, Jinyu Chen, Wenjun Wu, Hongsheng Li, Yue Liao, Si Liu

NeurIPS 2025 UAV-Flow Colosseo: A Real-World Benchmark for Flying-on-a-Word UAV Imitation Learning Xiangyu Wang, Donglin Yang, Yue Liao, Wenhao Zheng, Wenjun Wu, Bin Dai, Hongsheng Li, Si Liu

NeurIPS 2025 UI-Genie: A Self-Improving Approach for Iteratively Boosting MLLM-Based Mobile GUI Agents Han Xiao, Guozhi Wang, Yuxiang Chai, Zimu Lu, Weifeng Lin, Hao He, Lue Fan, Liuyang Bian, Rui Hu, Liang Liu, Shuai Ren, Yafei Wen, Xiaoxin Chen, Aojun Zhou, Hongsheng Li

TMLR 2025 UniZero: Generalized and Efficient Planning with Scalable Latent World Models Yuan Pu, Yazhe Niu, Zhenjie Yang, Jiyuan Ren, Hongsheng Li, Yu Liu

ICLR 2025 Vision-RWKV: Efficient and Scalable Visual Perception with RWKV-like Architectures Yuchen Duan, Weiyun Wang, Zhe Chen, Xizhou Zhu, Lewei Lu, Tong Lu, Yu Qiao, Hongsheng Li, Jifeng Dai, Wenhai Wang

NeurIPS 2025 VividFace: A Robost and High-Fidelity Video Face Swapping Framework Hao Shao, Shulun Wang, Yang Zhou, Guanglu Song, Dailan He, Zhuofan Zong, Shuo Qin, Yu Liu, Hongsheng Li

NeurIPS 2025 WebGen-Bench: Evaluating LLMs on Generating Interactive and Functional Websites from Scratch Zimu Lu, Yunqiao Yang, Houxing Ren, Haotian Hou, Han Xiao, Ke Wang, Weikang Shi, Aojun Zhou, Mingjie Zhan, Hongsheng Li

NeurIPS 2024 A Global Depth-Range-Free Multi-View Stereo Transformer Network with Pose Embedding Yitong Dong, Yijin Li, Zhaoyang Huang, Weikang Bian, Jingbo Liu, Hujun Bao, Zhaopeng Cui, Hongsheng Li, Guofeng Zhang

CoRL 2024 A3VLM: Actionable Articulation-Aware Vision Language Model Siyuan Huang, Haonan Chang, Yuhan Liu, Yimeng Zhu, Hao Dong, Abdeslam Boularias, Peng Gao, Hongsheng Li

ICLR 2024 ADDP: Learning General Representations for Image Recognition and Generation with Alternating Denoising Diffusion Process Changyao Tian, Chenxin Tao, Jifeng Dai, Hao Li, Ziheng Li, Lewei Lu, Xiaogang Wang, Hongsheng Li, Gao Huang, Xizhou Zhu

ECCV 2024 Any2Point: Empowering Any-Modality Transformers for Efficient 3D Understanding Yiwen Tang, Ray Zhang, Jiaming Liu, Zoey Guo, Bin Zhao, Zhigang Wang, Dong Wang, Peng Gao, Hongsheng Li, Xuelong Li

CVPR 2024 Auto MC-Reward: Automated Dense Reward Design with Large Language Models for Minecraft Hao Li, Xue Yang, Zhaokai Wang, Xizhou Zhu, Jie Zhou, Yu Qiao, Xiaogang Wang, Hongsheng Li, Lewei Lu, Jifeng Dai

ECCV 2024 Be-Your-Outpainter: Mastering Video Outpainting Through Input-Specific Adaptation Fu-Yun Wang, Xiaoshi Wu, Zhaoyang Huang, Xiaoyu Shi, Dazhong Shen, Guanglu Song, Yu Liu, Hongsheng Li

ECCV 2024 BlinkVision: A Benchmark for Optical Flow, Scene Flow and Point Tracking Estimation Using RGB Frames and Events Yijin Li, Yichen Shen, Zhaoyang Huang, Shuo Chen, Weikang Bian, Xiaoyu Shi, Fu-Yun Wang, Keqiang Sun, Hujun Bao, Zhaopeng Cui, Guofeng Zhang, Hongsheng Li

NeurIPS 2024 CoMat: Aligning Text-to-Image Diffusion Model with Image-to-Text Concept Matching Dongzhi Jiang, Guanglu Song, Xiaoshi Wu, Renrui Zhang, Dazhong Shen, Zhuofan Zong, Yu Liu, Hongsheng Li

NeurIPS 2024 Collaborative Video Diffusion: Consistent Multi-Video Generation with Camera Control Zhengfei Kuang, Shengqu Cai, Hao He, Yinghao Xu, Hongsheng Li, Leonidas Guibas, Gordon Wetzstein

ECCV 2024 DailyDVS-200: A Comprehensive Benchmark Dataset for Event-Based Action Recognition Qi Wang, Zhou Xu, Yuming Lin, Jingtao Ye, Hongsheng Li, Guangming Zhu, Syed Afaq Ali Shah, Mohammed Bennamoun, Liang Zhang

ECCV 2024 Deep Reward Supervisions for Tuning Text-to-Image Diffusion Models Xiaoshi Wu, Yiming Hao, Manyuan Zhang, Keqiang Sun, Zhaoyang Huang, Guanglu Song, Yu Liu, Hongsheng Li

ECCV 2024 Delving Deep into Engagement Prediction of Short Videos Dasong Li, Wenjie Li, Baili Lu, Hongsheng Li, Sizhuo Ma, Gurunandan Krishnan, Jian Wang

CVPR 2024 DiffInDScene: Diffusion-Based High-Quality 3D Indoor Scene Generation Xiaoliang Ju, Zhaoyang Huang, Yijin Li, Guofeng Zhang, Yu Qiao, Hongsheng Li

CVPR 2024 Efficient Deformable ConvNets: Rethinking Dynamic and Sparse Operator for Vision Applications Yuwen Xiong, Zhiqi Li, Yuntao Chen, Feng Wang, Xizhou Zhu, Jiapeng Luo, Wenhai Wang, Tong Lu, Hongsheng Li, Yu Qiao, Lewei Lu, Jie Zhou, Jifeng Dai

TMLR 2024 Enhancing Vision-Language Model with Unmasked Token Alignment Jihao Liu, Jinliang Zheng, Boxiao Liu, Yu Liu, Hongsheng Li

NeurIPS 2024 Exploring the Role of Large Language Models in Prompt Encoding for Diffusion Models Bingqi Ma, Zhuofan Zong, Guanglu Song, Hongsheng Li, Yu Liu

ECCV 2024 FouriScale: A Frequency Perspective on Training-Free High-Resolution Image Synthesis Linjiang Huang, Rongyao Fang, Aiping Zhang, Guanglu Song, Si Liu, Yu Liu, Hongsheng Li

CVPR 2024 GLID: Pre-Training a Generalist Encoder-Decoder Vision Model Jihao Liu, Jinliang Zheng, Yu Liu, Hongsheng Li

ECCV 2024 GiT: Towards Generalist Vision Transformer Through Universal Language Interface Haiyang Wang, Hao Tang, Li Jiang, Shaoshuai Shi, Muhammad Ferjad Naeem, Hongsheng Li, Bernt Schiele, Liwei Wang

CVPR 2024 LMDrive: Closed-Loop End-to-End Driving with Large Language Models Hao Shao, Yuxuan Hu, Letian Wang, Guanglu Song, Steven L. Waslander, Yu Liu, Hongsheng Li

NeurIPS 2024 Learning 1d Causal Visual Representation with De-Focus Attention Networks Chenxin Tao, Xizhou Zhu, Shiqian Su, Lewei Lu, Changyao Tian, Xuan Luo, Gao Huang, Hongsheng Li, Yu Qiao, Jie Zhou, Jifeng Dai

ICLR 2024 Llama-Adapter: Efficient Fine-Tuning of Large Language Models with Zero-Initialized Attention Renrui Zhang, Jiaming Han, Chris Liu, Aojun Zhou, Pan Lu, Yu Qiao, Hongsheng Li, Peng Gao

NeurIPS 2024 Lumina-Next : Making Lumina-T2X Stronger and Faster with Next-DiT Le Zhuo, Ruoyi Du, Han Xiao, Yangguang Li, Dongyang Liu, Rongjie Huang, Wenze Liu, Xiangyang Zhu, Fu-Yun Wang, Zhanyu Ma, Xu Luo, Zehan Wang, Kaipeng Zhang, Lirui Zhao, Si Liu, Xiangyu Yue, Wanli Ouyang, Yu Qiao, Hongsheng Li, Peng Gao

ICLR 2024 MathCoder: Seamless Code Integration in LLMs for Enhanced Mathematical Reasoning Ke Wang, Houxing Ren, Aojun Zhou, Zimu Lu, Sichun Luo, Weikang Shi, Renrui Zhang, Linqi Song, Mingjie Zhan, Hongsheng Li

ECCV 2024 MathVerse: Does Your Multi-Modal LLM Truly See the Diagrams in Visual Math Problems? Renrui Zhang, Dongzhi Jiang, Yichi Zhang, Haokun Lin, Ziyu Guo, Pengshuo Qiu, Aojun Zhou, Pan Lu, Kai-Wei Chang, Peng Gao, Hongsheng Li

NeurIPS 2024 Measuring Multimodal Mathematical Reasoning with MATH-Vision Dataset Ke Wang, Junting Pan, Weikang Shi, Zimu Lu, Houxing Ren, Aojun Zhou, Mingjie Zhan, Hongsheng Li

NeurIPS 2024 MoVA: Adapting Mixture of Vision Experts to Multimodal Context Zhuofan Zong, Bingqi Ma, Dazhong Shen, Guanglu Song, Hao Shao, Dongzhi Jiang, Hongsheng Li, Yu Liu

ICLR 2024 Personalize Segment Anything Model with One Shot Renrui Zhang, Zhengkai Jiang, Ziyu Guo, Shilin Yan, Junting Pan, Hao Dong, Yu Qiao, Peng Gao, Hongsheng Li

NeurIPS 2024 Phased Consistency Models Fu-Yun Wang, Zhaoyang Huang, Alexander William Bergman, Dazhong Shen, Peng Gao, Michael Lingelbach, Keqiang Sun, Weikang Bian, Guanglu Song, Yu Liu, Xiaogang Wang, Hongsheng Li

ECCV 2024 Ponymation: Learning Articulated 3D Animal Motions from Unlabeled Online Videos Keqiang Sun, Dor Litvak, Yunzhi Zhang, Hongsheng Li, Jiajun Wu, Shangzhe Wu

ICML 2024 SPHINX-X: Scaling Data and Parameters for a Family of Multi-Modal Large Language Models Dongyang Liu, Renrui Zhang, Longtian Qiu, Siyuan Huang, Weifeng Lin, Shitian Zhao, Shijie Geng, Ziyi Lin, Peng Jin, Kaipeng Zhang, Wenqi Shao, Chao Xu, Conghui He, Junjun He, Hao Shao, Pan Lu, Yu Qiao, Hongsheng Li, Peng Gao

ECCV 2024 SPHINX: A Mixer of Weights, Visual Embeddings and Image Scales for Multi-Modal Large Language Models Ziyi Lin, Dongyang Liu, Renrui Zhang, Peng Gao, Longtian Qiu, Han Xiao, Han Qiu, Wenqi Shao, Keqin Chen, Jiaming Han, Siyuan Huang, Yichi Zhang, Xuming He, Yu Qiao, Hongsheng Li

ICML 2024 SPP: Sparsity-Preserved Parameter-Efficient Fine-Tuning for Large Language Models Xudong Lu, Aojun Zhou, Yuhui Xu, Renrui Zhang, Peng Gao, Hongsheng Li

CVPR 2024 SmartRefine: A Scenario-Adaptive Refinement Framework for Efficient Motion Prediction Yang Zhou, Hao Shao, Letian Wang, Steven L. Waslander, Hongsheng Li, Yu Liu

ICLR 2024 Solving Challenging Math Word Problems Using GPT-4 Code Interpreter with Code-Based Self-Verification Aojun Zhou, Ke Wang, Zimu Lu, Weikang Shi, Sichun Luo, Zipeng Qin, Shaoqing Lu, Anya Jia, Linqi Song, Mingjie Zhan, Hongsheng Li

ECCV 2024 Three Things We Need to Know About Transferring Stable Diffusion to Visual Dense Prediciton Tasks Manyuan Zhang, Guanglu Song, Xiaoyu Shi, Yu Liu, Hongsheng Li

ECCV 2024 Unmasking Bias in Diffusion Model Training Hu Yu, Li Shen, Jie Huang, Hongsheng Li, Feng Zhao

NeurIPS 2024 Visual CoT: Advancing Multi-Modal Language Models with a Comprehensive Dataset and Benchmark for Chain-of-Thought Reasoning Hao Shao, Shengju Qian, Han Xiao, Guanglu Song, Zhuofan Zong, Letian Wang, Yu Liu, Hongsheng Li

NeurIPS 2024 ZOPP: A Framework of Zero-Shot Offboard Panoptic Perception for Autonomous Driving Tao Ma, Hongbin Zhou, Qiusheng Huang, Xuemeng Yang, Jianfei Guo, Bo Zhang, Min Dou, Yu Qiao, Botian Shi, Hongsheng Li

ECCV 2024 ZoLA: Zero-Shot Creative Long Animation Generation with Short Video Model Fu-Yun Wang, Zhaoyang Huang, Qiang Ma, Guanglu Song, Xudong Lu, Weikang Bian, Yijin Li, Yu Liu, Hongsheng Li

ECCV 2024 nuCraft: Crafting High Resolution 3D Semantic Occupancy for Unified 3D Scene Understanding Benjin Zhu, Zhe Wang, Hongsheng Li

CVPR 2023 A Simple Baseline for Video Restoration with Grouped Spatial-Temporal Shift Dasong Li, Xiaoyu Shi, Yi Zhang, Ka Chun Cheung, Simon See, Xiaogang Wang, Hongwei Qin, Hongsheng Li

NeurIPS 2023 A Unified Conditional Framework for Diffusion-Based Image Restoration Yi Zhang, Xiaoyu Shi, Dasong Li, Xiaogang Wang, Jian Wang, Hongsheng Li

CVPR 2023 Adaptive Zone-Aware Hierarchical Planner for Vision-Language Navigation Chen Gao, Xingyu Peng, Mi Yan, He Wang, Lirong Yang, Haibing Ren, Hongsheng Li, Si Liu

CVPR 2023 CORA: Adapting CLIP for Open-Vocabulary Detection with Region Prompting and Anchor Pre-Matching Xiaoshi Wu, Feng Zhu, Rui Zhao, Hongsheng Li

CVPR 2023 ConQueR: Query Contrast Voxel-DETR for 3D Object Detection Benjin Zhu, Zhe Wang, Shaoshuai Shi, Hang Xu, Lanqing Hong, Hongsheng Li

NeurIPS 2023 Context-PIPs: Persistent Independent Particles Demands Spatial Context Features Weikang Bian, Zhaoyang Huang, Xiaoyu Shi, Yitong Dong, Yijin Li, Hongsheng Li

ICCV 2023 Decoupled DETR: Spatially Disentangling Localization and Classification for Improved End-to-End Object Detection Manyuan Zhang, Guanglu Song, Yu Liu, Hongsheng Li

ICCV 2023 DetZero: Rethinking Offboard 3D Object Detection with Long-Term Sequential Point Clouds Tao Ma, Xuemeng Yang, Hongbin Zhou, Xin Li, Botian Shi, Junjie Liu, Yuchen Yang, Zhizheng Liu, Liang He, Yu Qiao, Yikang Li, Hongsheng Li

CVPR 2023 FlowFormer++: Masked Cost Volume Autoencoding for Pretraining Optical Flow Estimation Xiaoyu Shi, Zhaoyang Huang, Dasong Li, Manyuan Zhang, Ka Chun Cheung, Simon See, Hongwei Qin, Jifeng Dai, Hongsheng Li

ICCV 2023 GeoMIM: Towards Better 3D Knowledge Transfer via Masked Image Modeling for Multi-View 3D Understanding Jihao Liu, Tai Wang, Boxiao Liu, Qihang Zhang, Yu Liu, Hongsheng Li

ICLRW 2023 Geometry-Based End-to-End Segmentation of Coronary Artery in Computed Tomography Angiograph Xiaoyu Yang, Lijian Xu, Simon Chun Ho Yu, Qing Xia, Hongsheng Li, Shaoting Zhang

ICCV 2023 Human Preference Score: Better Aligning Text-to-Image Models with Human Preference Xiaoshi Wu, Keqiang Sun, Feng Zhu, Rui Zhao, Hongsheng Li

CVPR 2023 Improving Weakly Supervised Temporal Action Localization by Bridging Train-Test Gap in Pseudo Labels Jingqiu Zhou, Linjiang Huang, Liang Wang, Si Liu, Hongsheng Li

CVPR 2023 InternImage: Exploring Large-Scale Vision Foundation Models with Deformable Convolutions Wenhai Wang, Jifeng Dai, Zhe Chen, Zhenhang Huang, Zhiqi Li, Xizhou Zhu, Xiaowei Hu, Tong Lu, Lewei Lu, Hongsheng Li, Xiaogang Wang, Yu Qiao

NeurIPS 2023 JourneyDB: A Benchmark for Generative Image Understanding Keqiang Sun, Junting Pan, Yuying Ge, Hao Li, Haodong Duan, Xiaoshi Wu, Renrui Zhang, Aojun Zhou, Zipeng Qin, Yi Wang, Jifeng Dai, Yu Qiao, Limin Wang, Hongsheng Li

CVPR 2023 Learning 3D Representations from 2D Pre-Trained Models via Image-to-Point Masked Autoencoders Renrui Zhang, Liuhui Wang, Yu Qiao, Peng Gao, Hongsheng Li

NeurIPS 2023 LightZero: A Unified Benchmark for Monte Carlo Tree Search in General Sequential Decision Scenarios Yazhe Niu, Yuan Pu, Zhenjie Yang, Xueyan Li, Tong Zhou, Jiyuan Ren, Shuai Hu, Hongsheng Li, Yu Liu

CVPR 2023 MixMAE: Mixed and Masked Autoencoder for Efficient Pretraining of Hierarchical Vision Transformers Jihao Liu, Xin Huang, Jinliang Zheng, Yu Liu, Hongsheng Li

ICCV 2023 MonoDETR: Depth-Guided Transformer for Monocular 3D Object Detection Renrui Zhang, Han Qiu, Tai Wang, Ziyu Guo, Ziteng Cui, Yu Qiao, Hongsheng Li, Peng Gao

ICCV 2023 NDC-Scene: Boost Monocular 3D Semantic Scene Completion in Normalized Device Coordinates Space Jiawei Yao, Chuming Li, Keqiang Sun, Yingjie Cai, Hao Li, Wanli Ouyang, Hongsheng Li

ICCV 2023 Omnidirectional Information Gathering for Knowledge Transfer-Based Audio-Visual Navigation Jinyu Chen, Wenguan Wang, Si Liu, Hongsheng Li, Yi Yang

CVPR 2023 PATS: Patch Area Transportation with Subdivision for Local Feature Matching Junjie Ni, Yijin Li, Zhaoyang Huang, Hongsheng Li, Hujun Bao, Zhaopeng Cui, Guofeng Zhang

CVPR 2023 Prompt, Generate, Then Cache: Cascade of Foundation Models Makes Strong Few-Shot Learners Renrui Zhang, Xiangfei Hu, Bohao Li, Siyuan Huang, Hanqiu Deng, Yu Qiao, Peng Gao, Hongsheng Li

CVPR 2023 ReasonNet: End-to-End Driving with Temporal and Global Reasoning Hao Shao, Letian Wang, Ruobing Chen, Steven L. Waslander, Hongsheng Li, Yu Liu

ICCVW 2023 Retrieving-to-Answer: Zero-Shot Video Question Answering with Frozen Large Language Models Junting Pan, Ziyi Lin, Yuying Ge, Xiatian Zhu, Renrui Zhang, Yi Wang, Yu Qiao, Hongsheng Li

ICCV 2023 Simulating Fluids in Real-World Still Images Siming Fan, Jingtan Piao, Chen Qian, Hongsheng Li, Kwan-Yee Lin

ICCV 2023 SparseMAE: Sparse Training Meets Masked Autoencoders Aojun Zhou, Yang Li, Zipeng Qin, Jianbo Liu, Junting Pan, Renrui Zhang, Rui Zhao, Peng Gao, Hongsheng Li

CVPR 2023 Starting from Non-Parametric Networks for 3D Point Cloud Analysis Renrui Zhang, Liuhui Wang, Yali Wang, Peng Gao, Hongsheng Li, Jianbo Shi

ICCV 2023 Temporal Enhanced Training of Multi-View 3D Object Detector via Historical Object Prediction Zhuofan Zong, Dongzhi Jiang, Guanglu Song, Zeyue Xue, Jingyong Su, Hongsheng Li, Yu Liu

ICCV 2023 TrajectoryFormer: 3D Object Tracking Transformer with Predictive Trajectory Hypotheses Xuesong Chen, Shaoshuai Shi, Chao Zhang, Benjin Zhu, Qiang Wang, Ka Chun Cheung, Simon See, Hongsheng Li

NeurIPS 2023 UE4-NeRF:Neural Radiance Field for Real-Time Rendering of Large-Scale Scene Jiaming Gu, Minchao Jiang, Hongsheng Li, Xiaoyuan Lu, Guangming Zhu, Syed Afaq Ali Shah, Liang Zhang, Mohammed Bennamoun

CVPR 2023 Uni-Perceiver V2: A Generalist Model for Large-Scale Vision and Vision-Language Tasks Hao Li, Jinguo Zhu, Xiaohu Jiang, Xizhou Zhu, Hongsheng Li, Chun Yuan, Xiaohua Wang, Yu Qiao, Xiaogang Wang, Wenhai Wang, Jifeng Dai

ICCV 2023 Urban Radiance Field Representation with Deformable Neural Mesh Primitives Fan Lu, Yan Xu, Guang Chen, Hongsheng Li, Kwan-Yee Lin, Changjun Jiang

ICCV 2023 VideoFlow: Exploiting Temporal Cues for Multi-Frame Optical Flow Estimation Xiaoyu Shi, Zhaoyang Huang, Weikang Bian, Dasong Li, Manyuan Zhang, Ka Chun Cheung, Simon See, Hongwei Qin, Jifeng Dai, Hongsheng Li

CVPR 2022 AutoLoss-Zero: Searching Loss Functions from Scratch for Generic Tasks Hao Li, Tianwen Fu, Jifeng Dai, Hongsheng Li, Gao Huang, Xizhou Zhu

NeurIPS 2022 Controllable 3D Face Synthesis with Conditional Generative Occupancy Fields Keqiang Sun, Shangzhe Wu, Zhaoyang Huang, Ning Zhang, Quan Wang, Hongsheng Li

ECCV 2022 EdgeViTs: Competing Light-Weight CNNs on Mobile Devices with Vision Transformers Junting Pan, Adrian Bulat, Fuwen Tan, Xiatian Zhu, Lukasz Dudziak, Hongsheng Li, Georgios Tzimiropoulos, Brais Martinez

ECCV 2022 FlowFormer: A Transformer Architecture for Optical Flow Zhaoyang Huang, Xiaoyu Shi, Chao Zhang, Qiang Wang, Ka Chun Cheung, Hongwei Qin, Jifeng Dai, Hongsheng Li

ECCV 2022 Frozen CLIP Models Are Efficient Video Learners Ziyi Lin, Shijie Geng, Renrui Zhang, Peng Gao, Gerard de Melo, Xiaogang Wang, Jifeng Dai, Yu Qiao, Hongsheng Li

CVPR 2022 IDR: Self-Supervised Image Denoising via Iterative Data Refinement Yi Zhang, Dasong Li, Ka Lung Law, Xiaogang Wang, Hongwei Qin, Hongsheng Li

ECCV 2022 Learning Degradation Representations for Image Deblurring Dasong Li, Yi Zhang, Ka Chun Cheung, Xiaogang Wang, Hongwei Qin, Hongsheng Li

CVPR 2022 Learning a Structured Latent Space for Unsupervised Point Cloud Completion Yingjie Cai, Kwan-Yee Lin, Chao Zhang, Qiang Wang, Xiaogang Wang, Hongsheng Li

NeurIPS 2022 MCMAE: Masked Convolution Meets Masked Autoencoders Peng Gao, Teli Ma, Hongsheng Li, Ziyi Lin, Jifeng Dai, Yu Qiao

ECCV 2022 MPPNet: Multi-Frame Feature Intertwining with Proxy Points for 3D Temporal Object Detection Xuesong Chen, Shaoshuai Shi, Benjin Zhu, Ka Chun Cheung, Hang Xu, Hongsheng Li

NeurIPS 2022 Point-M2AE: Multi-Scale Masked Autoencoders for Hierarchical Point Cloud Pre-Training Renrui Zhang, Ziyu Guo, Peng Gao, Rongyao Fang, Bin Zhao, Dong Wang, Yu Qiao, Hongsheng Li

CVPR 2022 PointCLIP: Point Cloud Understanding by CLIP Renrui Zhang, Ziyu Guo, Wei Zhang, Kunchang Li, Xupeng Miao, Bin Cui, Yu Qiao, Peng Gao, Hongsheng Li

CVPR 2022 RBGNet: Ray-Based Grouping for 3D Object Detection Haiyang Wang, Shaoshuai Shi, Ze Yang, Rongyao Fang, Qi Qian, Hongsheng Li, Bernt Schiele, Liwei Wang

CVPR 2022 RNNPose: Recurrent 6-DoF Object Pose Refinement with Robust Correspondence Field Estimation and Pose Optimization Yan Xu, Kwan-Yee Lin, Guofeng Zhang, Xiaogang Wang, Hongsheng Li

NeurIPS 2022 ST-Adapter: Parameter-Efficient Image-to-Video Transfer Learning Junting Pan, Ziyi Lin, Xiatian Zhu, Jing Shao, Hongsheng Li

CoRL 2022 Safety-Enhanced Autonomous Driving Using Interpretable Sensor Fusion Transformer Hao Shao, Letian Wang, Ruobing Chen, Hongsheng Li, Yu Liu

ECCV 2022 Tip-Adapter: Training-Free Adaption of CLIP for Few-Shot Classification Renrui Zhang, Wei Zhang, Rongyao Fang, Peng Gao, Kunchang Li, Jifeng Dai, Yu Qiao, Hongsheng Li

ECCV 2022 TokenMix: Rethinking Image Mixing for Data Augmentation in Vision Transformers Jihao Liu, Boxiao Liu, Hang Zhou, Hongsheng Li, Yu Liu

ECCV 2022 Towards Robust Face Recognition with Comprehensive Search Manyuan Zhang, Guanglu Song, Yu Liu, Hongsheng Li

NeurIPS 2022 Uni-Perceiver-MoE: Learning Sparse Generalist Models with Conditional MoEs Jinguo Zhu, Xizhou Zhu, Wenhai Wang, Xiaohua Wang, Hongsheng Li, Xiaogang Wang, Jifeng Dai

CVPR 2022 Uni-Perceiver: Pre-Training Unified Architecture for Generic Perception for Zero-Shot and Few-Shot Tasks Xizhou Zhu, Jinguo Zhu, Hao Li, Xiaoshi Wu, Hongsheng Li, Xiaohua Wang, Jifeng Dai

ICLR 2022 UniFormer: Unified Transformer for Efficient Spatial-Temporal Representation Learning Kunchang Li, Yali Wang, Gao Peng, Guanglu Song, Yu Liu, Hongsheng Li, Yu Qiao

ECCV 2022 UniNet: Unified Architecture Search with Convolution, Transformer, and MLP Jihao Liu, Xin Huang, Guanglu Song, Hongsheng Li, Yu Liu

CVPR 2022 Weakly Supervised Temporal Action Localization via Representative Snippet Knowledge Propagation Linjiang Huang, Liang Wang, Hongsheng Li

AAAI 2021 A Unified Multi-Scenario Attacking Network for Visual Object Tracking Xuesong Chen, Canmiao Fu, Feng Zheng, Yong Zhao, Hongsheng Li, Ping Luo, Guo-Jun Qi

CVPR 2021 Actor-Context-Actor Relation Network for Spatio-Temporal Action Localization Junting Pan, Siyu Chen, Mike Zheng Shou, Yu Liu, Jing Shao, Hongsheng Li

NeurIPS 2021 Container: Context Aggregation Networks Peng Gao, Jiasen Lu, Hongsheng Li, Roozbeh Mottaghi, Aniruddha Kembhavi

CVPR 2021 Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR Segmentation Xinge Zhu, Hui Zhou, Tai Wang, Fangzhou Hong, Yuexin Ma, Wei Li, Hongsheng Li, Dahua Lin

CVPR 2021 DivCo: Diverse Conditional Image Synthesis via Contrastive Generative Adversarial Network Rui Liu, Yixiao Ge, Ching Lam Choi, Xiaogang Wang, Hongsheng Li

NeurIPS 2021 DominoSearch: Find Layer-Wise Fine-Grained N:M Sparse Schemes from Dense Neural Networks Wei Sun, Aojun Zhou, Sander Stuijk, Rob Wijnhoven, Andrew Oakleigh Nelson, Hongsheng Li, Henk Corporaal

AAAI 2021 Dynamic Graph Representation Learning for Video Dialog via Multi-Modal Shuffled Transformers Shijie Geng, Peng Gao, Moitreya Chatterjee, Chiori Hori, Jonathan Le Roux, Yongfeng Zhang, Hongsheng Li, Anoop Cherian

WACV 2021 Efficient Attention: Attention with Linear Complexities Zhuoran Shen, Mingyuan Zhang, Haiyu Zhao, Shuai Yi, Hongsheng Li

ICCV 2021 Encoder-Decoder with Multi-Level Attention for 3D Human Shape and Pose Estimation Ziniu Wan, Zhengjia Li, Maoqing Tian, Jianbo Liu, Shuai Yi, Hongsheng Li

ICCV 2021 Fast Convergence of DETR with Spatially Modulated Co-Attention Peng Gao, Minghang Zheng, Xiaogang Wang, Jifeng Dai, Hongsheng Li

ICCV 2021 Foreground-Action Consistency Network for Weakly Supervised Temporal Action Localization Linjiang Huang, Liang Wang, Hongsheng Li

ICCV 2021 FuseFormer: Fusing Fine-Grained Information in Transformers for Video Inpainting Rui Liu, Hanming Deng, Yangyi Huang, Xiaoyu Shi, Lewei Lu, Wenxiu Sun, Xiaogang Wang, Jifeng Dai, Hongsheng Li

CVPR 2021 Inverting Generative Adversarial Renderer for Face Reconstruction Jingtan Piao, Keqiang Sun, Quan Wang, Kwan-Yee Lin, Hongsheng Li

ICCV 2021 LIGA-Stereo: Learning LiDAR Geometry Aware Representations for Stereo-Based 3D Detector Xiaoyang Guo, Shaoshuai Shi, Xiaogang Wang, Hongsheng Li

ICLR 2021 Learning N:M Fine-Grained Structured Sparse Neural Networks from Scratch Aojun Zhou, Yukun Ma, Junnan Zhu, Jianbo Liu, Zhijie Zhang, Kun Yuan, Wenxiu Sun, Hongsheng Li

CVPR 2021 LiDAR-Based Panoptic Segmentation via Dynamic Shifting Network Fangzhou Hong, Hui Zhou, Xinge Zhu, Hongsheng Li, Ziwei Liu

ICCV 2021 Progressive Correspondence Pruning by Consensus Learning Chen Zhao, Yixiao Ge, Feng Zhu, Rui Zhao, Hongsheng Li, Mathieu Salzmann

AAAI 2021 REFINE: Prediction Fusion Network for Panoptic Segmentation Jiawei Ren, Cunjun Yu, Zhongang Cai, Mingyuan Zhang, Chongsong Chen, Haiyu Zhao, Shuai Yi, Hongsheng Li

CVPR 2021 Refining Pseudo Labels with Clustering Consensus over Generations for Unsupervised Object Re-Identification Xiao Zhang, Yixiao Ge, Yu Qiao, Hongsheng Li

ICCV 2021 Rethinking Noise Synthesis and Modeling in Raw Denoising Yi Zhang, Hongwei Qin, Xiaogang Wang, Hongsheng Li

CVPR 2021 ST3D: Self-Training for Unsupervised Domain Adaptation on 3D Object Detection Jihan Yang, Shaoshuai Shi, Zhe Wang, Hongsheng Li, Xiaojuan Qi

CVPR 2021 Semantic Scene Completion via Integrating Instances and Scene In-the-Loop Yingjie Cai, Xuesong Chen, Chao Zhang, Kwan-Yee Lin, Xiaogang Wang, Hongsheng Li

ICCV 2021 Unsupervised Domain Adaptive 3D Detection with Multi-Level Consistency Zhipeng Luo, Zhongang Cai, Changqing Zhou, Gongjie Zhang, Haiyu Zhao, Shuai Yi, Shijian Lu, Hongsheng Li, Shanghang Zhang, Ziwei Liu

CVPR 2021 VS-Net: Voting with Segmentation for Visual Localization Zhaoyang Huang, Han Zhou, Yijin Li, Bangbang Yang, Yan Xu, Xiaowei Zhou, Hujun Bao, Guofeng Zhang, Hongsheng Li

NeurIPS 2020 Balanced Meta-SoftMax for Long-Tailed Visual Recognition Jiawei Ren, Cunjun Yu, Shunan Sheng, Xiao Ma, Haiyu Zhao, Shuai Yi, Hongsheng Li

ECCV 2020 Bi-Directional Cross-Modality Feature Propagation with Separation-and-Aggregation Gate for RGB-D Semantic Segmentation Xiaokang Chen, Kwan-Yee Lin, Jingbo Wang, Wayne Wu, Chen Qian, Hongsheng Li, Gang Zeng

ECCV 2020 EfficientFCN: Holistically-Guided Decoding for Semantic Segmentation Jianbo Liu, Junjun He, Jiawei Zhang, Jimmy S. Ren, Hongsheng Li

ECCV 2020 Learning to Predict Context-Adaptive Convolution for Semantic Segmentation Jianbo Liu, Junjun He, Yu Qiao, Jimmy S. Ren, Hongsheng Li

AAAI 2020 Monocular 3D Object Detection with Decoupled Structured Polygon Estimation and Height-Guided Depth Estimation Yingjie Cai, Buyu Li, Zeyu Jiao, Hongsheng Li, Xingyu Zeng, Xiaogang Wang

ICLR 2020 Mutual Mean-Teaching: Pseudo Label Refinery for Unsupervised Domain Adaptation on Person Re-Identification Yixiao Ge, Dapeng Chen, Hongsheng Li

ECCV 2020 Open-Edit: Open-Domain Image Manipulation with Open-Vocabulary Instructions Xihui Liu, Zhe Lin, Jianming Zhang, Handong Zhao, Quan Tran, Xiaogang Wang, Hongsheng Li

ECCV 2020 RBF-SoftMax: Learning Deep Representative Prototypes with Radial Basis Function SoftMax Xiao Zhang, Rui Zhao, Yu Qiao, Hongsheng Li

NeurIPS 2020 Self-Paced Contrastive Learning with Hybrid Memory for Domain Adaptive Object Re-ID Yixiao Ge, Feng Zhu, Dapeng Chen, Rui Zhao, Hongsheng Li

ECCV 2020 Self-Supervising Fine-Grained Region Similarities for Large-Scale Image Localization Yixiao Ge, Haibo Wang, Feng Zhu, Rui Zhao, Hongsheng Li

CoRL 2020 SelfVoxeLO: Self-Supervised LiDAR Odometry with Voxel-Based Deep Neural Networks Yan Xu, Zhaoyang Huang, Kwan-Yee Lin, Xinge Zhu, Jianping Shi, Hujun Bao, Guofeng Zhang, Hongsheng Li

AAAI 2019 A2-Net: Molecular Structure Estimation from Cryo-EM Density Volumes Kui Xu, Zhe Wang, Jianping Shi, Hongsheng Li, Qiangfeng Cliff Zhang

ICCVW 2019 Generalizing Monocular 3D Human Pose Estimation in the Wild Luyang Wang, Yan Chen, Zhenhua Guo, Keyuan Qian, Mude Lin, Hongsheng Li, Jimmy S. J. Ren

NeurIPS 2019 Learning to Predict Layout-to-Image Conditional Convolutions for Semantic Image Synthesis Xihui Liu, Guojun Yin, Jing Shao, Xiaogang Wang, Hongsheng Li

AAAI 2019 Unsupervised Cross-Spectral Stereo Matching by Learning to Synthesize Mingyang Liang, Xiaoyang Guo, Hongsheng Li, Xiaogang Wang, You Song

AAAI 2018 Co-Attending Free-Form Regions and Detections with Multi-Modal Multiplicative Feature Embedding for Visual Question Answering Pan Lu, Hongsheng Li, Wei Zhang, Jianyong Wang, Xiaogang Wang

NeurIPS 2018 FD-GAN: Pose-Guided Feature Distilling GAN for Robust Person Re-Identification Yixiao Ge, Zhuowan Li, Haiyu Zhao, Guojun Yin, Shuai Yi, Xiaogang Wang, Hongsheng Li

ECCV 2018 Improving Deep Visual Representation for Person Re-Identification by Global and Local Image-Language Association Dapeng Chen, Hongsheng Li, Xihui Liu, Yantao Shen, Jing Shao, Zejian Yuan, Xiaogang Wang

ECCV 2018 Learning Monocular Depth by Distilling Cross-Domain Stereo Networks Xiaoyang Guo, Hongsheng Li, Shuai Yi, Jimmy Ren, Xiaogang Wang

ECCV 2018 Person Re-Identification with Deep Similarity-Guided Graph Neural Network Yantao Shen, Hongsheng Li, Shuai Yi, Dapeng Chen, Xiaogang Wang

ECCV 2018 Question-Guided Hybrid Convolution for Visual Question Answering Peng Gao, Hongsheng Li, Shuang Li, Pan Lu, Yikang Li, Steven C.H. Hoi, Xiaogang Wang

ECCV 2018 Show, Tell and Discriminate: Image Captioning by Self-Retrieval with Partially Labeled Data Xihui Liu, Hongsheng Li, Jing Shao, Dapeng Chen, Xiaogang Wang

ICCV 2017 Identity-Aware Textual-Visual Matching with Latent Co-Attention Shuang Li, Tong Xiao, Hongsheng Li, Wei Yang, Xiaogang Wang

ICCV 2017 Learning Deep Neural Networks for Vehicle Re-ID with Visual-Spatio-Temporal Path Proposals Yantao Shen, Tong Xiao, Hongsheng Li, Shuai Yi, Xiaogang Wang

ICCV 2017 Learning Feature Pyramids for Human Pose Estimation Wei Yang, Shuang Li, Wanli Ouyang, Hongsheng Li, Xiaogang Wang

CVPR 2017 Learning Spatial Regularization with Image-Level Supervisions for Multi-Label Image Classification Feng Zhu, Hongsheng Li, Wanli Ouyang, Nenghai Yu, Xiaogang Wang

CVPR 2017 Object Detection in Videos with Tubelet Proposal Networks Kai Kang, Hongsheng Li, Tong Xiao, Wanli Ouyang, Junjie Yan, Xihui Liu, Xiaogang Wang

ICCV 2017 Online Multi-Object Tracking Using CNN-Based Single Object Tracker with Spatial-Temporal Attention Mechanism Qi Chu, Wanli Ouyang, Hongsheng Li, Xiaogang Wang, Bin Liu, Nenghai Yu

ICCV 2017 Orientation Invariant Feature Embedding and Spatial Temporal Regularization for Vehicle Re-Identification Zhongdao Wang, Luming Tang, Xihui Liu, Zhuliang Yao, Shuai Yi, Jing Shao, Junjie Yan, Shengjin Wang, Hongsheng Li, Xiaogang Wang

CVPR 2017 Person Search with Natural Language Description Shuang Li, Tong Xiao, Hongsheng Li, Bolei Zhou, Dayu Yue, Xiaogang Wang

ICCV 2017 StackGAN: Text to Photo-Realistic Image Synthesis with Stacked Generative Adversarial Networks Han Zhang, Tao Xu, Hongsheng Li, Shaoting Zhang, Xiaogang Wang, Xiaolei Huang, Dimitris N. Metaxas

NeurIPS 2016 CRF-CNN: Modeling Structured Information in Human Pose Estimation Xiao Chu, Wanli Ouyang, Hongsheng Li, Xiaogang Wang

ECCV 2016 Crossing-Line Crowd Counting with Two-Phase Deep Neural Networks Zhuoyi Zhao, Hongsheng Li, Rui Zhao, Xiaogang Wang

CVPR 2016 End-to-End Learning of Deformable Mixture of Parts and Deep Convolutional Neural Networks for Human Pose Estimation Wei Yang, Wanli Ouyang, Hongsheng Li, Xiaogang Wang

ECCV 2016 Learnable Histogram: Statistical Context Features for Deep Neural Networks Zhe Wang, Hongsheng Li, Wanli Ouyang, Xiaogang Wang

CVPR 2016 Learning Deep Feature Representations with Domain Guided Dropout for Person Re-Identification Tong Xiao, Hongsheng Li, Wanli Ouyang, Xiaogang Wang

CVPR 2016 Object Detection from Video Tubelets with Convolutional Neural Networks Kai Kang, Wanli Ouyang, Hongsheng Li, Xiaogang Wang

ECCV 2016 Pedestrian Behavior Understanding and Prediction with Deep Neural Networks Shuai Yi, Hongsheng Li, Xiaogang Wang

CVPR 2016 Structured Feature Learning for Pose Estimation Xiao Chu, Wanli Ouyang, Hongsheng Li, Xiaogang Wang

CVPR 2015 Cross-Scene Crowd Counting via Deep Convolutional Neural Networks Cong Zhang, Hongsheng Li, Xiaogang Wang, Xiaokang Yang

CVPR 2015 DeepID-Net: Deformable Deep Convolutional Neural Networks for Object Detection Wanli Ouyang, Xiaogang Wang, Xingyu Zeng, Shi Qiu, Ping Luo, Yonglong Tian, Hongsheng Li, Shuo Yang, Zhe Wang, Chen-Change Loy, Xiaoou Tang

ICCV 2015 Pedestrian Travel Time Estimation in Crowded Scenes Shuai Yi, Hongsheng Li, Xiaogang Wang

CVPR 2015 Saliency Detection by Multi-Context Deep Learning Rui Zhao, Wanli Ouyang, Hongsheng Li, Xiaogang Wang

CVPR 2015 Understanding Pedestrian Behaviors from Stationary Crowd Groups Shuai Yi, Hongsheng Li, Xiaogang Wang

CVPR 2014 Preconditioning for Accelerated Iteratively Reweighted Least Squares in Structured Sparsity Reconstruction Chen Chen, Junzhou Huang, Lei He, Hongsheng Li

CVPR 2012 A Hierarchical Image Clustering Cosegmentation Framework Edward Kim, Hongsheng Li, Xiaolei Huang

ICCV 2011 A 3D Laplacian-Driven Parametric Deformable Model Tian Shen, Xiaolei Huang, Hongsheng Li, Edward Kim, Shaoting Zhang, Junzhou Huang

ICCV 2011 Optimal Object Matching via Convexification and Composition Hongsheng Li, Junzhou Huang, Shaoting Zhang, Xiaolei Huang

CVPR 2010 Automatic Image Annotation Using Group Sparsity Shaoting Zhang, Junzhou Huang, Yuchi Huang, Yang Yu, Hongsheng Li, Dimitris N. Metaxas

CVPR 2010 Object Matching with a Locally Affine-Invariant Constraint Hongsheng Li, Edward Kim, Xiaolei Huang, Lei He

CVPR 2009 Active Volume Models for 3D Medical Image Segmentation Tian Shen, Hongsheng Li, Zhen Qian, Xiaolei Huang

CVPR 2009 Global Optimization for Alignment of Generalized Shapes Hongsheng Li, Tian Shen, Xiaolei Huang