Yu, Gang

71 publications

ICLR 2026 IGGT: Instance-Grounded Geometry Transformer for Semantic 3D Reconstruction Hao Li, Zhengyu Zou, Fangfu Liu, Xuanyang Zhang, Fangzhou Hong, Yukang Cao, Yushi Lan, Manyuan Zhang, Gang Yu, Dingwen Zhang, Ziwei Liu

ICLR 2026 LazyDrag: Enabling Stable Drag-Based Editing on Multi-Modal Diffusion Transformers via Explicit Correspondence Zixin Yin, Xili Dai, Duomin Wang, Xianfang Zeng, Lionel Ni, Gang Yu, Heung-Yeung Shum

ICLR 2026 RegionE: Adaptive Region-Aware Generation for Efficient Image Editing Pengtao Chen, Xianfang Zeng, Maosen Zhao, Mingzhu Shen, Peng Ye, Bangyin Xiang, Zhibo Wang, Wei Cheng, Gang Yu, Tao Chen

ICLR 2026 SpeakerVid-5m: A Large-Scale High-Quality Dataset for Audio-Visual Dyadic Interactive Human Generation Youliang Zhang, Zhaoyang Li, Duomin Wang, Jiahe Zhang, Deyu Zhou, Zixin Yin, Xili Dai, Gang Yu, Xiu Li

ICLR 2026 Training-Free Text-Guided Color Editing with Multi-Modal Diffusion Transformer Zixin Yin, Xili Dai, Ling-Hao Chen, Deyu Zhou, Jianan Wang, Duomin Wang, Gang Yu, Lionel Ni, Lei Zhang, Heung-Yeung Shum

ICLR 2026 WithAnyone: Toward Controllable and ID Consistent Image Generation Hengyuan Xu, Wei Cheng, Peng Xing, Yixiao Fang, Shuhan Wu, Rui Wang, Xianfang Zeng, Daxin Jiang, Gang Yu, Xingjun Ma, Yu-Gang Jiang

CVPR 2025 DeRS: Towards Extremely Efficient Upcycled Mixture-of-Experts Models Yongqi Huang, Peng Ye, Chenyu Huang, Jianjian Cao, Lin Zhang, Baopu Li, Gang Yu, Tao Chen

NeurIPS 2025 FAVOR-Bench: A Comprehensive Benchmark for Fine-Grained Video Motion Understanding Chongjun Tu, Lin Zhang, Pengtao Chen, Peng Ye, Xianfang Zeng, Wei Cheng, Gang Yu, Tao Chen

NeurIPS 2025 KRIS-Bench: Benchmarking Next-Level Intelligent Image Editing Models Yongliang Wu, Zonghui Li, Xinting Hu, Xinyu Ye, Xianfang Zeng, Gang Yu, Wenbo Zhu, Bernt Schiele, Ming-Hsuan Yang, Xu Yang

CVPR 2025 MVPaint: Synchronized Multi-View Diffusion for Painting Anything 3D Wei Cheng, Juncheng Mu, Xianfang Zeng, Xin Chen, Anqi Pang, Chi Zhang, Zhibin Wang, Bin Fu, Gang Yu, Ziwei Liu, Liang Pan

ICLR 2025 MeshAnything: Artist-Created Mesh Generation with Autoregressive Transformers Yiwen Chen, Tong He, Di Huang, Weicai Ye, Sijin Chen, Jiaxiang Tang, Zhongang Cai, Lei Yang, Gang Yu, Guosheng Lin, Chi Zhang

ICCV 2025 MikuDance: Animating Character Art with Mixed Motion Dynamics Jiaxu Zhang, Xianfang Zeng, Xin Chen, Wei Zuo, Gang Yu, Zhigang Tu

ICCV 2025 MotionAgent: Fine-Grained Controllable Video Generation via Motion Field Agent Xinyao Liao, Xianfang Zeng, Liao Wang, Gang Yu, Guosheng Lin, Chi Zhang

NeurIPS 2025 OmniSVG: A Unified Scalable Vector Graphics Generation Model Yiying Yang, Wei Cheng, Sijin Chen, Xianfang Zeng, Fukun Yin, Jiaxu Zhang, Liao Wang, Gang Yu, Xingjun Ma, Yu-Gang Jiang

NeurIPS 2025 OneIG-Bench: Omni-Dimensional Nuanced Evaluation for Image Generation Jingjing Chang, Yixiao Fang, Peng Xing, Shuhan Wu, Wei Cheng, Rui Wang, Xianfang Zeng, Gang Yu, Hai-Bao Chen

ICCV 2025 SC-Captioner: Improving Image Captioning with Self-Correction by Reinforcement Learning Lin Zhang, Xianfang Zeng, Kangcong Li, Gang Yu, Tao Chen

ICLR 2025 SaMer: A Scenario-Aware Multi-Dimensional Evaluator for Large Language Models Kehua Feng, Keyan Ding, Jing Yu, Yiwen Qu, Zhiwen Chen, Chengfei Lv, Gang Yu, Qiang Zhang, Huajun Chen

NeurIPS 2025 Vision Foundation Models as Effective Visual Tokenizers for Autoregressive Generation Anlin Zheng, Xin Wen, Xuanyang Zhang, Chuofan Ma, Tiancai Wang, Gang Yu, Xiangyu Zhang, Xiaojuan Qi

WACV 2024 Disentangled Pre-Training for Image Matting Yanda Li, Zilong Huang, Gang Yu, Ling Chen, Yunchao Wei, Jianbo Jiao

AAAI 2024 IT3D: Improved Text-to-3D Generation with Explicit View Synthesis Yiwen Chen, Chi Zhang, Xiaofeng Yang, Zhongang Cai, Gang Yu, Lei Yang, Guosheng Lin

CVPR 2024 LL3DA: Visual Interactive Instruction Tuning for Omni-3D Understanding Reasoning and Planning Sijin Chen, Xin Chen, Chi Zhang, Mingsheng Li, Gang Yu, Hao Fei, Hongyuan Zhu, Jiayuan Fan, Tao Chen

ECCV 2024 M3DBench: Towards Omni 3D Assistant with Interleaved Multi-Modal Instructions Mingsheng Li, Xin Chen, Chi Zhang, Sijin Chen, Hongyuan Zhu, Fukun Yin, Zhuoyuan Li, Gang Yu, Tao Chen

NeurIPS 2024 MeshXL: Neural Coordinate Field for Generative 3D Foundation Models Sijin Chen, Xin Chen, Anqi Pang, Xianfang Zeng, Wei Cheng, Yijun Fu, Fukun Yin, Zhibin Wang, Jingyi Yu, Gang Yu, Bin Fu, Tao Chen

ECCV 2024 MotionChain: Conversational Motion Controllers via Multimodal Prompts Biao Jiang, Xin Chen, Chi Zhang, Fukun Yin, Zhuoyuan Li, Gang Yu, Jiayuan Fan

AAAI 2024 PM-INR: Prior-Rich Multi-Modal Implicit Large-Scale Scene Neural Representation Yiying Yang, Fukun Yin, Wen Liu, Jiayuan Fan, Xin Chen, Gang Yu, Tao Chen

CVPR 2024 Paint3D: Paint Anything 3D with Lighting-Less Texture Diffusion Models Xianfang Zeng, Xin Chen, Zhongqi Qi, Wen Liu, Zibo Zhao, Zhibin Wang, Bin Fu, Yong Liu, Gang Yu

ICLR 2024 TapMo: Shape-Aware Motion Generation of Skeleton-Free Characters Jiaxu Zhang, Shaoli Huang, Zhigang Tu, Xin Chen, Xiaohang Zhan, Gang Yu, Ying Shan

ICCV 2023 A Large-Scale Outdoor Multi-Modal Dataset and Benchmark for Novel View Synthesis and Implicit Scene Reconstruction Chongshan Lu, Fukun Yin, Xin Chen, Wen Liu, Tao Chen, Gang Yu, Jiayuan Fan

ICLR 2023 Capturing the Motion of Every Joint: 3D Human Pose and Shape Estimation with Independent Tokens Sen Yang, Wen Heng, Gang Liu, Guozhong Luo, Wankou Yang, Gang Yu

CVPR 2023 End-to-End 3D Dense Captioning with Vote2Cap-DETR Sijin Chen, Hongyuan Zhu, Xin Chen, Yinjie Lei, Gang Yu, Tao Chen

CVPR 2023 Executing Your Commands via Motion Diffusion in Latent Space Xin Chen, Biao Jiang, Wen Liu, Zilong Huang, Bin Fu, Tao Chen, Gang Yu

ICCV 2023 Metric3D: Towards Zero-Shot Metric 3D Prediction from a Single Image Wei Yin, Chi Zhang, Hao Chen, Zhipeng Cai, Gang Yu, Kaixuan Wang, Xiaozhi Chen, Chunhua Shen

NeurIPS 2023 Michelangelo: Conditional 3D Shape Generation Based on Shape-Image-Text Aligned Latent Representation Zibo Zhao, Wen Liu, Xin Chen, Xianfang Zeng, Rui Wang, Pei Cheng, Bin Fu, Tao Chen, Gang Yu, Shenghua Gao

NeurIPS 2023 MotionGPT: Human Motion as a Foreign Language Biao Jiang, Xin Chen, Wen Liu, Jingyi Yu, Gang Yu, Tao Chen

NeurIPS 2023 PDF: Point Diffusion Implicit Function for Large-Scale Scene Neural Representation Yuhan Ding, Fukun Yin, Jiayuan Fan, Hui Li, Xin Chen, Wen Liu, Chongshan Lu, Gang Yu, Tao Chen

ICCV 2023 Robust Geometry-Preserving Depth Estimation Using Differentiable Rendering Chi Zhang, Wei Yin, Gang Yu, Zhibin Wang, Tao Chen, Bin Fu, Joey Tianyi Zhou, Chunhua Shen

CVPR 2023 STAR Loss: Reducing Semantic Ambiguity in Facial Landmark Detection Zhenglin Zhou, Huaxia Li, Hong Liu, Nanyang Wang, Gang Yu, Rongrong Ji

ICLR 2023 SeaFormer: Squeeze-Enhanced Axial Transformer for Mobile Semantic Segmentation Qiang Wan, Zilong Huang, Jiachen Lu, Gang Yu, Li Zhang

NeurIPS 2022 Coordinates Are NOT Lonely - Codebook Prior Helps Implicit Neural 3D Representations Fukun Yin, Wen Liu, Zilong Huang, Pei Cheng, Tao Chen, Gang Yu

ECCV 2022 D&D: Learning Human Dynamics from Dynamic Camera Jiefeng Li, Siyuan Bian, Chao Xu, Gang Liu, Gang Yu, Cewu Lu

ECCVW 2022 Efficient Single-Image Depth Estimation on Mobile Devices, Mobile AI & AIM 2022 Challenge: Report Andrey Ignatov, Grigory Malivenko, Radu Timofte, Lukasz Treszczotko, Xin Chang, Piotr Ksiazek, Michal Lopuszynski, Maciej Pioro, Rafal Rudnicki, Maciej Smyl, Yujie Ma, Zhenyu Li, Zehui Chen, Jialei Xu, Xianming Liu, Junjun Jiang, XueChao Shi, Difan Xu, Yanan Li, Xiaotao Wang, Lei Lei, Ziyu Zhang, Yicheng Wang, Zilong Huang, Guozhong Luo, Gang Yu, Bin Fu, Jiaqi Li, Yiran Wang, Zihao Huang, Zhiguo Cao, Marcos V. Conde, Denis Sapozhnikov, Byeong Hyun Lee, Dongwon Park, Seongmin Hong, Joonhee Lee, Seunggyu Lee, Se Young Chun

NeurIPS 2022 Hierarchical Normalization for Robust Monocular Depth Estimation Chi Zhang, Wei Yin, Billzb Wang, Gang Yu, Bin Fu, Chunhua Shen

CVPRW 2022 NTIRE 2022 Challenge on Super-Resolution and Quality Enhancement of Compressed Video: Dataset, Methods and Results Ren Yang, Radu Timofte, Meisong Zheng, Qunliang Xing, Minglang Qiao, Mai Xu, Lai Jiang, Huaida Liu, Ying Chen, Youcheng Ben, Xiao Zhou, Chen Fu, Pei Cheng, Gang Yu, Junyi Li, Renlong Wu, Zhilu Zhang, Wei Shang, Zhengyao Lv, Yunjin Chen, Mingcai Zhou, Dongwei Ren, Kai Zhang, Wangmeng Zuo, Pavel Ostyakov, Dmitry Vyal, Shakarim Soltanayev, Chervontsev Sergey, Magauiya Zhussip, Xueyi Zou, Youliang Yan, Pablo Navarrete Michelini, Yunhua Lu, Diankai Zhang, Shaoli Liu, Si Gao, Biao Wu, Chengjian Zheng, Xiaofeng Zhang, Kaidi Lu, Ning Wang, Thuong Nguyen Canh, Thong Bach, Qing Wang, Xiaopeng Sun, Haoyu Ma, Shijie Zhao, Junlin Li, Liangbin Xie, Shuwei Shi, Yujiu Yang, Xintao Wang, Jinjin Gu, Chao Dong, Xiaodi Shi, Chunmei Nian, Dong Jiang, Jucai Lin, Zhihuai Xie, Mao Ye, Dengyan Luo, Liuhan Peng, Shengjie Chen, Xin Liu, Qian Wang, Boyang Liang, Hang Dong, Yuhao Huang, Kai Chen, Xingbei Guo, Yujing Sun, Huilei Wu, Pengxu Wei, Yulin Huang, Junying Chen, Ik Hyun Lee, Sunder Ali Khowaja, Jiseok Yoon

CVPR 2022 TopFormer: Token Pyramid Transformer for Mobile Semantic Segmentation Wenqiang Zhang, Zilong Huang, Guozhong Luo, Tao Chen, Xinggang Wang, Wenyu Liu, Gang Yu, Chunhua Shen

CVPRW 2021 A Simple Baseline for Fast and Accurate Depth Estimation on Mobile Devices Ziyu Zhang, Yicheng Wang, Zilong Huang, Guozhong Luo, Gang Yu, Bin Fu

CVPR 2020 Context Prior for Scene Segmentation Changqian Yu, Jingbo Wang, Changxin Gao, Gang Yu, Chunhua Shen, Nong Sang

CVPR 2020 High-Order Information Matters: Learning Relation and Topology for Occluded Person Re-Identification Guan'an Wang, Shuo Yang, Huanyu Liu, Zhicheng Wang, Yang Yang, Shuliang Wang, Gang Yu, Erjin Zhou, Jian Sun

AAAI 2020 SiamFC++: Towards Robust and Accurate Visual Tracking with Target Estimation Guidelines Yinda Xu, Zeyu Wang, Zuoxin Li, Ye Yuan, Gang Yu

CVPR 2020 State-Aware Tracker for Real-Time Video Object Segmentation Xi Chen, Zuoxin Li, Ye Yuan, Gang Yu, Jianxin Shen, Donglian Qi

CVPR 2019 An End-to-End Network for Panoptic Segmentation Huanyu Liu, Chao Peng, Changqian Yu, Jingbo Wang, Xu Liu, Gang Yu, Wei Jiang

AAAI 2019 Attention-Based Multi-Context Guiding for Few-Shot Semantic Segmentation Tao Hu, Pengwan Yang, Chiliang Zhang, Gang Yu, Yadong Mu, Cees G. M. Snoek

ICCV 2019 Efficient and Accurate Arbitrary-Shaped Text Detection with Pixel Aggregation Network Wenhai Wang, Enze Xie, Xiaoge Song, Yuhang Zang, Wenjia Wang, Tong Lu, Gang Yu, Chunhua Shen

NeurIPS 2019 Learnable Tree Filter for Structure-Preserving Feature Transform Lin Song, Yanwei Li, Zeming Li, Gang Yu, Hongbin Sun, Jian Sun, Nanning Zheng

CVPR 2019 Modeling Local Geometric Structure of 3D Point Clouds Using Geo-CNN Shiyi Lan, Ruichi Yu, Gang Yu, Larry S. Davis

ICCV 2019 Objects365: A Large-Scale, High-Quality Dataset for Object Detection Shuai Shao, Zeming Li, Tianyuan Zhang, Chao Peng, Gang Yu, Xiangyu Zhang, Jing Li, Jian Sun

AAAI 2019 Scene Text Detection with Supervised Pyramid Context Network Enze Xie, Yuhang Zang, Shuai Shao, Gang Yu, Cong Yao, Guangyao Li

CVPR 2019 Shape Robust Text Detection with Progressive Scale Expansion Network Wenhai Wang, Enze Xie, Xiang Li, Wenbo Hou, Tong Lu, Gang Yu, Shuai Shao

CVPR 2019 TACNet: Transition-Aware Context Network for Spatio-Temporal Action Detection Lin Song, Shiwei Zhang, Gang Yu, Hongbin Sun

ICCV 2019 ThunderNet: Towards Real-Time Generic Object Detection on Mobile Devices Zheng Qin, Zeming Li, Zhaoning Zhang, Yiping Bao, Gang Yu, Yuxing Peng, Jian Sun

ECCV 2018 Associating Inter-Image Salient Instances for Weakly Supervised Semantic Segmentation Ruochen Fan, Qibin Hou, Ming-Ming Cheng, Gang Yu, Ralph R. Martin, Shi-Min Hu

ECCV 2018 BiSeNet: Bilateral Segmentation Network for Real-Time Semantic Segmentation Changqian Yu, Jingbo Wang, Chao Peng, Changxin Gao, Gang Yu, Nong Sang

CVPR 2018 Cascaded Pyramid Network for Multi-Person Pose Estimation Yilun Chen, Zhicheng Wang, Yuxiang Peng, Zhiqiang Zhang, Gang Yu, Jian Sun

ECCV 2018 DetNet: Design Backbone for Object Detection Zeming Li, Chao Peng, Gang Yu, Xiangyu Zhang, Yangdong Deng, Jian Sun

CVPR 2018 Learning a Discriminative Feature Network for Semantic Segmentation Changqian Yu, Jingbo Wang, Chao Peng, Changxin Gao, Gang Yu, Nong Sang

CVPR 2018 MegDet: A Large Mini-Batch Object Detector Chao Peng, Tete Xiao, Zeming Li, Yuning Jiang, Xiangyu Zhang, Kai Jia, Gang Yu, Jian Sun

AAAI 2018 R-FCN++: Towards Accurate Region-Based Fully Convolutional Networks for Object Detection Zeming Li, Yilun Chen, Gang Yu, Yangdong Deng

CVPR 2017 Large Kernel Matters -- Improve Semantic Segmentation by Global Convolutional Network Chao Peng, Xiangyu Zhang, Gang Yu, Guiming Luo, Jian Sun

CVPR 2015 Fast Action Proposals for Human Action Detection and Search Gang Yu, Junsong Yuan

ECCV 2012 Propagative Hough Voting for Human Activity Recognition Gang Yu, Junsong Yuan, Zicheng Liu

ECCV 2012 Randomized Spatial Partition for Scene Recognition Yuning Jiang, Junsong Yuan, Gang Yu

CVPR 2011 Unsupervised Random Forest Indexing for Fast Action Search Gang Yu, Junsong Yuan, Zicheng Liu