Zhao, Hengshuang

92 publications

ICML 2025 BOOD: Boundary-Based Out-of-Distribution Data Generation Qilin Liao, Shuo Yang, Bo Zhao, Ping Luo, Hengshuang Zhao

NeurIPS 2025 Concerto: Joint 2D-3D Self-Supervised Learning Emerges Spatial Representations Yujia Zhang, Xiaoyang Wu, Yixing Lao, Chengyao Wang, Zhuotao Tian, Naiyan Wang, Hengshuang Zhao

ICCV 2025 DiffDoctor: Diagnosing Image Diffusion Models Before Treating Yiyang Wang, Xi Chen, Xiaogang Xu, Sihui Ji, Yu Liu, Yujun Shen, Hengshuang Zhao

ICCV 2025 DisCo: Towards Distinct and Coherent Visual Encapsulation in Video MLLMs Jiahe Zhao, Rongkun Zheng, Yi Wang, Helin Wang, Hengshuang Zhao

CVPR 2025 DriveGPT4-V2: Harnessing Large Language Model Capabilities for Enhanced Closed-Loop Autonomous Driving Zhenhua Xu, Yan Bai, Yujia Zhang, Zhuoling Li, Fei Xia, Kwan-Yee K. Wong, Jianqiang Wang, Hengshuang Zhao

CVPR 2025 EMOVA: Empowering Language Models to See, Hear and Speak with Vivid Emotions Kai Chen, Yunhao Gou, Runhui Huang, Zhili Liu, Daxin Tan, Jing Xu, Chunwei Wang, Yi Zhu, Yihan Zeng, Kuo Yang, Dingdong Wang, Kun Xiang, Haoyuan Li, Haoli Bai, Jianhua Han, Xiaohui Li, Weike Jin, Nian Xie, Yu Zhang, James T. Kwok, Hengshuang Zhao, Xiaodan Liang, Dit-Yan Yeung, Xiao Chen, Zhenguo Li, Wei Zhang, Qun Liu, Lanqing Hong, Lu Hou, Hang Xu

CVPR 2025 Empowering Large Language Models with 3D Situation Awareness Zhihao Yuan, Yibo Peng, Jinke Ren, Yinghong Liao, Yatong Han, Chun-Mei Feng, Hengshuang Zhao, Guanbin Li, Shuguang Cui, Zhen Li

NeurIPS 2025 GenSpace: Benchmarking Spatially-Aware Image Generation Zehan Wang, Jiayang Xu, Ziang Zhang, Tianyu Pang, Chao Du, Hengshuang Zhao, Zhou Zhao

ICCV 2025 HERMES: A Unified Self-Driving World Model for Simultaneous 3D Scene Understanding and Generation Xin Zhou, Dingkang Liang, Sifan Tu, Xiwu Chen, Yikang Ding, Dingyuan Zhang, Feiyang Tan, Hengshuang Zhao, Xiang Bai

ICML 2025 HaploVL: A Single-Transformer Baseline for Multi-Modal Understanding Rui Yang, Lin Song, Yicheng Xiao, Runhui Huang, Yixiao Ge, Ying Shan, Hengshuang Zhao

CVPR 2025 HiRes-LLaVA: Restoring Fragmentation Input in High-Resolution Large Vision-Language Models Runhui Huang, Xinpeng Ding, Chunwei Wang, Jianhua Han, Yulong Liu, Hengshuang Zhao, Hang Xu, Lu Hou, Wei Zhang, Xiaodan Liang

ICML 2025 LARM: Large Auto-Regressive Model for Long-Horizon Embodied Intelligence Zhuoling Li, Xiaogang Xu, Zhenhua Xu, Ser-Nam Lim, Hengshuang Zhao

NeurIPS 2025 LiteReality: Graphics-Ready 3D Scene Reconstruction from RGB-D Scans Zhening Huang, Xiaoyang Wu, Fangcheng Zhong, Hengshuang Zhao, Matthias Nießner, Joan Lasenby

NeurIPS 2025 MiCo: Multi-Image Contrast for Reinforcement Visual Reasoning Xi Chen, Mingkang Zhu, Shaoteng Liu, Xiaoyang Wu, Xiaogang Xu, Yu Liu, Xiang Bai, Hengshuang Zhao

ICLR 2025 OmniBind: Large-Scale Omni Multimodal Representation via Binding Spaces Zehan Wang, Ziang Zhang, Minjie Hong, Hang Zhang, Luping Liu, Rongjie Huang, Xize Cheng, Shengpeng Ji, Tao Jin, Hengshuang Zhao, Zhou Zhao

NeurIPS 2025 Orient Anything V2: Unifying Orientation and Rotation Understanding Zehan Wang, Ziang Zhang, Jiayang Xu, Jialei Wang, Tianyu Pang, Chao Du, Hengshuang Zhao, Zhou Zhao

ICML 2025 Orient Anything: Learning Robust Object Orientation Estimation from Rendering 3D Models Zehan Wang, Ziang Zhang, Tianyu Pang, Chao Du, Hengshuang Zhao, Zhou Zhao

CVPR 2025 PanDA: Towards Panoramic Depth Anything with Unlabeled Panoramas and Mobius Spatial Augmentation Zidong Cao, Jinjing Zhu, Weiming Zhang, Hao Ai, Haotian Bai, Hengshuang Zhao, Lin Wang

NeurIPS 2025 PlayerOne: Egocentric World Simulator Yuanpeng Tu, Hao Luo, Xi Chen, Xiang Bai, Fan Wang, Hengshuang Zhao

NeurIPS 2025 ROSE: Remove Objects with Side Effects in Videos Chenxuan Miao, Yutong Feng, Jianshu Zeng, Zixiang Gao, Liu Hantang, Yunfeng Yan, Donglian Qi, Xi Chen, Bin Wang, Hengshuang Zhao

NeurIPS 2025 Seg-VAR:Image Segmentation with Visual Autoregressive Modeling Rongkun Zheng, Lu Qi, Xi Chen, Yi Wang, Kun Wang, Hengshuang Zhao

CVPR 2025 Sonata: Self-Supervised Learning of Reliable Point Representations Xiaoyang Wu, Daniel DeTone, Duncan Frost, Tianwei Shen, Chris Xie, Nan Yang, Jakob Engel, Richard Newcombe, Hengshuang Zhao, Julian Straub

CVPR 2025 SpatialCLIP: Learning 3D-Aware Image Representations from Spatially Discriminative Language Zehan Wang, Sashuai Zhou, Shaoxuan He, Haifeng Huang, Lihe Yang, Ziang Zhang, Xize Cheng, Shengpeng Ji, Tao Jin, Hengshuang Zhao, Zhou Zhao

ICCV 2025 StableDepth: Scene-Consistent and Scale-Invariant Monocular Depth Zheng Zhang, Lihe Yang, Tianyu Yang, Chaohui Yu, Xiaoyang Guo, Yixing Lao, Hengshuang Zhao

ICML 2025 TGDPO: Harnessing Token-Level Reward Guidance for Enhancing Direct Preference Optimization Mingkang Zhu, Xi Chen, Zhongdao Wang, Bei Yu, Hengshuang Zhao, Jiaya Jia

CVPR 2025 UniReal: Universal Image Generation and Editing via Learning Real-World Dynamics Xi Chen, Zhifei Zhang, He Zhang, Yuqian Zhou, Soo Ye Kim, Qing Liu, Yijun Li, Jianming Zhang, Nanxuan Zhao, Yilin Wang, Hui Ding, Zhe Lin, Hengshuang Zhao

ICML 2025 VIP: Vision Instructed Pre-Training for Robotic Manipulation Zhuoling Li, Liangliang Ren, Jinrong Yang, Yong Zhao, Xiaoyang Wu, Zhenhua Xu, Xiang Bai, Hengshuang Zhao

ICCV 2025 ViLLa: Video Reasoning Segmentation with Large Language Model Rongkun Zheng, Lu Qi, Xi Chen, Yi Wang, Kun Wang, Hengshuang Zhao

NeurIPS 2025 VisionThink: Smart and Efficient Vision Language Model via Reinforcement Learning Senqiao Yang, Junyi Li, Xin Lai, Jinming Wu, Wei Li, Zejun Ma, Bei Yu, Hengshuang Zhao, Jiaya Jia

NeurIPS 2025 Wan-Move: Motion-Controllable Video Generation via Latent Trajectory Guidance Ruihang Chu, Yefei He, Zhekai Chen, Shiwei Zhang, Xiaogang Xu, Bin Xia, Dingdong Wang, Hongwei Yi, Xihui Liu, Hengshuang Zhao, Yu Liu, Yingya Zhang, Yujiu Yang

CVPR 2024 AnyDoor: Zero-Shot Object-Level Image Customization Xi Chen, Lianghua Huang, Yu Liu, Yujun Shen, Deli Zhao, Hengshuang Zhao

NeurIPS 2024 Depth Anything V2 Lihe Yang, Bingyi Kang, Zilong Huang, Zhen Zhao, Xiaogang Xu, Jiashi Feng, Hengshuang Zhao

CVPR 2024 Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data Lihe Yang, Bingyi Kang, Zilong Huang, Xiaogang Xu, Jiashi Feng, Hengshuang Zhao

CVPR 2024 DreamComposer: Controllable 3D Object Generation via Multi-View Conditions Yunhan Yang, Yukun Huang, Xiaoyang Wu, Yuan-Chen Guo, Song-Hai Zhang, Hengshuang Zhao, Tong He, Xihui Liu

CVPR 2024 GPT4Point: A Unified Framework for Point-Language Understanding and Generation Zhangyang Qi, Ye Fang, Zeyi Sun, Xiaoyang Wu, Tong Wu, Jiaqi Wang, Dahua Lin, Hengshuang Zhao

CVPR 2024 GroupContrast: Semantic-Aware Self-Supervised Representation Learning for 3D Understanding Chengyao Wang, Li Jiang, Xiaoyang Wu, Zhuotao Tian, Bohao Peng, Hengshuang Zhao, Jiaya Jia

ICLR 2024 Influencer Backdoor Attack on Semantic Segmentation Haoheng Lan, Jindong Gu, Philip Torr, Hengshuang Zhao

ECCV 2024 InsMapper: Exploring Inner-Instance Information for Vectorized HD Mapping Zhenhua Xu, Kwan-Yee K. Wong, Hengshuang Zhao

NeurIPS 2024 LION: Linear Group RNN for 3D Object Detection in Point Clouds Zhe Liu, Jinghua Hou, Xinyu Wang, Xiaoqing Ye, Jingdong Wang, Hengshuang Zhao, Xiang Bai

NeurIPS 2024 LiT: Unifying LiDAR "Languages" with LiDAR Translator Yixing Lao, Tao Tang, Xiaoyang Wu, Peng Chen, Kaicheng Yu, Hengshuang Zhao

ECCV 2024 LivePhoto: Real Image Animation with Text-Guided Motion Control Xi Chen, Zhiheng Liu, Mengting Chen, Yutong Feng, Yu Liu, Yujun Shen, Hengshuang Zhao

ECCV 2024 LogoSticker: Inserting Logos into Diffusion Models for Customized Generation Mingkang Zhu, Xi Chen, Zhongdao Wang, Hengshuang Zhao, Jiaya Jia

ECCV 2024 Mind the Interference: Retaining Pre-Trained Knowledge in Parameter Efficient Continual Learning of Vision-Language Models Longxiang Tang, Zhuotao Tian, Kai Li, Chunming He, Hantao Zhou, Hengshuang Zhao, Xiu Li, Jiaya Jia

CVPR 2024 OA-CNNs: Omni-Adaptive Sparse CNNs for 3D Semantic Segmentation Bohao Peng, Xiaoyang Wu, Li Jiang, Yukang Chen, Hengshuang Zhao, Zhuotao Tian, Jiaya Jia

ECCV 2024 OV-Uni3DETR: Towards Unified Open-Vocabulary 3D Object Detection via Cycle-Modality Propagation Zhenyu Wang, Ya-Li Li, Taichi Liu, Hengshuang Zhao, Shengjin Wang

NeurIPS 2024 One for All: Multi-Domain Joint Training for Point Cloud Based 3D Object Detection Zhenyu Wang, Yali Li, Hengshuang Zhao, Shengjin Wang

ECCV 2024 OpenIns3D: Snap and Lookup for 3D Open-Vocabulary Instance Segmentation Zhening Huang, Xiaoyang Wu, Xi Chen, Hengshuang Zhao, Lei Zhu, Joan Lasenby

ECCV 2024 Pixel-GS Density Control with Pixel-Aware Gradient for 3D Gaussian Splatting Zheng Zhang, Wenbo Hu, Yixing Lao, Tong He, Hengshuang Zhao

CVPR 2024 Point Transformer V3: Simpler Faster Stronger Xiaoyang Wu, Li Jiang, Peng-Shuai Wang, Zhijian Liu, Xihui Liu, Yu Qiao, Wanli Ouyang, Tong He, Hengshuang Zhao

NeurIPS 2024 SyncVIS: Synchronized Video Instance Segmentation Rongkun Zheng, Lu Qi, Xi Chen, Yi Wang, Kun Wang, Yu Qiao, Hengshuang Zhao

CVPR 2024 Towards Large-Scale 3D Representation Learning with Multi-Dataset Point Prompt Training Xiaoyang Wu, Zhuotao Tian, Xin Wen, Bohao Peng, Xihui Liu, Kaicheng Yu, Hengshuang Zhao

CVPR 2024 UniMODE: Unified Monocular 3D Object Detection Zhuoling Li, Xiaogang Xu, SerNam Lim, Hengshuang Zhao

CVPR 2024 UniPAD: A Universal Pre-Training Paradigm for Autonomous Driving Honghui Yang, Sha Zhang, Di Huang, Xiaoyang Wu, Haoyi Zhu, Tong He, Shixiang Tang, Hengshuang Zhao, Qibo Qiu, Binbin Lin, Xiaofei He, Wanli Ouyang

CVPR 2024 Visual Programming for Zero-Shot Open-Vocabulary 3D Visual Grounding Zhihao Yuan, Jinke Ren, Chun-Mei Feng, Hengshuang Zhao, Shuguang Cui, Zhen Li

NeurIPS 2024 Zero-Shot Image Editing with Reference Imitation Xi Chen, Yutong Feng, Mengting Chen, Yiyang Wang, Shilong Zhang, Yu Liu, Yujun Shen, Hengshuang Zhao

ICCV 2023 BT^2: Backward-Compatible Training with Basis Transformation Yifei Zhou, Zilu Li, Abhinav Shrivastava, Hengshuang Zhao, Antonio Torralba, Taipeng Tian, Ser-Nam Lim

NeurIPS 2023 CorresNeRF: Image Correspondence Priors for Neural Radiance Fields Yixing Lao, Xiaogang Xu, Zhipeng Cai, Xihui Liu, Hengshuang Zhao

CVPR 2023 Detecting Everything in the Open World: Towards Universal Object Detection Zhenyu Wang, Yali Li, Xi Chen, Ser-Nam Lim, Antonio Torralba, Hengshuang Zhao, Shengjin Wang

NeurIPS 2023 FreeMask: Synthetic Images with Dense Annotations Make Stronger Segmentation Models Lihe Yang, Xiaogang Xu, Bingyi Kang, Yinghuan Shi, Hengshuang Zhao

CVPR 2023 Masked Scene Contrast: A Scalable Framework for Unsupervised 3D Representation Learning Xiaoyang Wu, Xin Wen, Xihui Liu, Hengshuang Zhao

CVPR 2023 Mod-SQuAD: Designing Mixtures of Experts as Modular Multi-Task Learners Zitian Chen, Yikang Shen, Mingyu Ding, Zhenfang Chen, Hengshuang Zhao, Erik G. Learned-Miller, Chuang Gan

ICCV 2023 Open-Vocabulary Panoptic Segmentation with Embedding Modulation Xi Chen, Shuang Li, Ser-Nam Lim, Antonio Torralba, Hengshuang Zhao

AAAI 2023 Semantics-Aware Dynamic Localization and Refinement for Referring Image Segmentation Zhao Yang, Jiaqi Wang, Yansong Tang, Kai Chen, Hengshuang Zhao, Philip H. S. Torr

ICCV 2023 Shrinking Class Space for Enhanced Certainty in Semi-Supervised Learning Lihe Yang, Zhen Zhao, Lei Qi, Yu Qiao, Yinghuan Shi, Hengshuang Zhao

NeurIPS 2023 TMT-VIS: Taxonomy-Aware Multi-Dataset Joint Training for Video Instance Segmentation Rongkun Zheng, Lu Qi, Xi Chen, Yi Wang, Kun Wang, Yu Qiao, Hengshuang Zhao

NeurIPS 2023 Uni3DETR: Unified 3D Detection Transformer Zhenyu Wang, Ya-Li Li, Xi Chen, Hengshuang Zhao, Shengjin Wang

IJCAI 2023 Universal Adaptive Data Augmentation Xiaogang Xu, Hengshuang Zhao

ECCV 2022 DecoupleNet: Decoupled Network for Domain Adaptive Semantic Segmentation Xin Lai, Zhuotao Tian, Xiaogang Xu, Yingcong Chen, Shu Liu, Hengshuang Zhao, Liwei Wang, Jiaya Jia

CVPR 2022 FocalClick: Towards Practical Interactive Image Segmentation Xi Chen, Zhiyan Zhao, Yilei Zhang, Manni Duan, Donglian Qi, Hengshuang Zhao

CVPR 2022 Generalized Few-Shot Semantic Segmentation Zhuotao Tian, Xin Lai, Li Jiang, Shu Liu, Michelle Shu, Hengshuang Zhao, Jiaya Jia

CVPR 2022 LAVT: Language-Aware Vision Transformer for Referring Image Segmentation Zhao Yang, Jiaqi Wang, Yansong Tang, Kai Chen, Hengshuang Zhao, Philip H.S. Torr

ECCV 2022 MTFormer: Multi-Task Learning via Transformer and Cross-Task Reasoning Xiaogang Xu, Hengshuang Zhao, Vibhav Vineet, Ser-Nam Lim, Antonio Torralba

CVPR 2022 PhysFormer: Facial Video-Based Physiological Measurement with Temporal Difference Transformer Zitong Yu, Yuming Shen, Jingang Shi, Hengshuang Zhao, Philip H.S. Torr, Guoying Zhao

NeurIPS 2022 Point Transformer V2: Grouped Vector Attention and Partition-Based Pooling Xiaoyang Wu, Yixing Lao, Li Jiang, Xihui Liu, Hengshuang Zhao

ECCV 2022 SegPGD: An Effective and Efficient Adversarial Attack for Evaluating and Boosting Segmentation Robustness Jindong Gu, Hengshuang Zhao, Volker Tresp, Philip H. S. Torr

CVPR 2022 Stratified Transformer for 3D Point Cloud Segmentation Xin Lai, Jianhui Liu, Li Jiang, Liwei Wang, Hengshuang Zhao, Shu Liu, Xiaojuan Qi, Jiaya Jia

CVPR 2021 Bidirectional Projection Network for Cross Dimension Scene Understanding Wenbo Hu, Hengshuang Zhao, Li Jiang, Jiaya Jia, Tien-Tsin Wong

CVPR 2021 Distilling Knowledge via Knowledge Review Pengguang Chen, Shu Liu, Hengshuang Zhao, Jiaya Jia

NeurIPS 2021 Do Different Tracking Tasks Require Different Appearance Models? Zhongdao Wang, Hengshuang Zhao, Ya-Li Li, Shengjin Wang, Philip Torr, Luca Bertinetto

IJCAI 2021 Dual-Cross Central Difference Network for Face Anti-Spoofing Zitong Yu, Yunxiao Qin, Hengshuang Zhao, Xiaobai Li, Guoying Zhao

ICCV 2021 Dynamic Divide-and-Conquer Adversarial Training for Robust Semantic Segmentation Xiaogang Xu, Hengshuang Zhao, Jiaya Jia

CVPR 2021 Fully Convolutional Networks for Panoptic Segmentation Yanwei Li, Hengshuang Zhao, Xiaojuan Qi, Liwei Wang, Zeming Li, Jian Sun, Jiaya Jia

CVPR 2021 PAConv: Position Adaptive Convolution with Dynamic Kernel Assembling on Point Clouds Mutian Xu, Runyu Ding, Hengshuang Zhao, Xiaojuan Qi

ICCV 2021 Point Transformer Hengshuang Zhao, Li Jiang, Jiaya Jia, Philip H.S. Torr, Vladlen Koltun

CVPR 2021 Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective with Transformers Sixiao Zheng, Jiachen Lu, Hengshuang Zhao, Xiatian Zhu, Zekun Luo, Yabiao Wang, Yanwei Fu, Jianfeng Feng, Tao Xiang, Philip H.S. Torr, Li Zhang

CVPR 2021 Semi-Supervised Semantic Segmentation with Directional Context-Aware Consistency Xin Lai, Zhuotao Tian, Li Jiang, Shu Liu, Hengshuang Zhao, Liwei Wang, Jiaya Jia

ECCV 2018 Compositing-Aware Image Search Hengshuang Zhao, Xiaohui Shen, Zhe Lin, Kalyan Sunkavalli, Brian Price, Jiaya Jia

ECCV 2018 ICNet for Real-Time Semantic Segmentation on High-Resolution Images Hengshuang Zhao, Xiaojuan Qi, Xiaoyong Shen, Jianping Shi, Jiaya Jia

ECCV 2018 PSANet: Point-Wise Spatial Attention Network for Scene Parsing Hengshuang Zhao, Yi Zhang, Shu Liu, Jianping Shi, Chen Change Loy, Dahua Lin, Jiaya Jia

ECCV 2018 SegStereo: Exploiting Semantic Information for Disparity Estimation Guorun Yang, Hengshuang Zhao, Jianping Shi, Zhidong Deng, Jiaya Jia

CVPR 2017 Pyramid Scene Parsing Network Hengshuang Zhao, Jianping Shi, Xiaojuan Qi, Xiaogang Wang, Jiaya Jia

ECCV 2016 Augmented Feedback in Semantic Segmentation Under Image Level Supervision Xiaojuan Qi, Zhengzhe Liu, Jianping Shi, Hengshuang Zhao, Jiaya Jia