Guo, Baining

38 publications

CVPR 2025 ART: Anonymous Region Transformer for Variable Multi-Layer Transparent Image Generation Yifan Pu, Yiming Zhao, Zhicong Tang, Ruihong Yin, Haoxing Ye, Yuhui Yuan, Dong Chen, Jianmin Bao, Sirui Zhang, Yanbin Wang, Lin Liang, Lijuan Wang, Ji Li, Xiu Li, Zhouhui Lian, Gao Huang, Baining Guo

ICCV 2025 Gaussian Variation Field Diffusion for High-Fidelity Video-to-4D Synthesis Bowen Zhang, Sicheng Xu, Chuxin Wang, Jiaolong Yang, Feng Zhao, Dong Chen, Baining Guo

ICCV 2025 Improved Noise Schedule for Diffusion Training Tiankai Hang, Shuyang Gu, Jianmin Bao, Fangyun Wei, Dong Chen, Xin Geng, Baining Guo

ICML 2025 Optimizing Large Language Model Training Using FP4 Quantization Ruizhe Wang, Yeyun Gong, Xiao Liu, Guoshuai Zhao, Ziyue Yang, Baining Guo, Zheng-Jun Zha, Peng Cheng

ICLRW 2025 Revisiting Noise Schedule Design for Diffusion Training Tiankai Hang, Shuyang Gu, Xin Geng, Baining Guo

CVPR 2025 UniGraspTransformer: Simplified Policy Distillation for Scalable Dexterous Robotic Grasping Wenbo Wang, Fangyun Wei, Lei Zhou, Xi Chen, Lin Luo, Xiaohan Yi, Yizhong Zhang, Yaobo Liang, Chang Xu, Yan Lu, Jiaolong Yang, Baining Guo

NeurIPS 2025 VASA-3D: Lifelike Audio-Driven Gaussian Head Avatars from a Single Image Sicheng Xu, Guojun Chen, Jiaolong Yang, Yizhong Zhang, Yu Deng, Stephen Lin, Baining Guo

NeurIPS 2025 VideoVLA: Video Generators Can Be Generalizable Robot Manipulators Yichao Shen, Fangyun Wei, Zhiying Du, Yaobo Liang, Yan Lu, Jiaolong Yang, Nanning Zheng, Baining Guo

NeurIPS 2024 Aligning Vision Models with Human Aesthetics in Retrieval: Benchmarks and Algorithms Miaosen Zhang, Yixuan Wei, Zhen Xing, Yifei Ma, Zuxuan Wu, Ji Li, Zheng Zhang, Qi Dai, Chong Luo, Xin Geng, Baining Guo

CVPR 2024 CCEdit: Creative and Controllable Video Editing via Diffusion Models Ruoyu Feng, Wenming Weng, Yanhui Wang, Yuhui Yuan, Jianmin Bao, Chong Luo, Zhibo Chen, Baining Guo

NeurIPS 2024 GaussianCube: A Structured and Explicit Radiance Representation for 3D Generative Modeling Bowen Zhang, Yiji Cheng, Jiaolong Yang, Chunyu Wang, Feng Zhao, Yansong Tang, Dong Chen, Baining Guo

ECCV 2024 IRGen: Generative Modeling for Image Retrieval Yidan Zhang, Ting Zhang, Dong Chen, Yujing Wang, Qi Chen, Xing Xie, Hao Sun, Weiwei Deng, Qi Zhang, Fan Yang, Mao Yang, Qingmin Liao, Jingdong Wang, Baining Guo

CVPR 2024 InstructDiffusion: A Generalist Modeling Interface for Vision Tasks Zigang Geng, Binxin Yang, Tiankai Hang, Chen Li, Shuyang Gu, Ting Zhang, Jianmin Bao, Zheng Zhang, Houqiang Li, Han Hu, Dong Chen, Baining Guo

CVPR 2024 MicroCinema: A Divide-and-Conquer Approach for Text-to-Video Generation Yanhui Wang, Jianmin Bao, Wenming Weng, Ruoyu Feng, Dacheng Yin, Tao Yang, Jingxu Zhang, Qi Dai, Zhiyuan Zhao, Chunyu Wang, Kai Qiu, Yuhui Yuan, Xiaoyan Sun, Chong Luo, Baining Guo

ECCV 2024 RodinHD: High-Fidelity 3D Avatar Generation with Diffusion Models Bowen Zhang, Yiji Cheng, Chunyu Wang, Ting Zhang, Jiaolong Yang, Yansong Tang, Feng Zhao, Dong Chen, Baining Guo

WACV 2024 Unsupervised Graphic Layout Grouping with Transformers Jialiang Zhu, Danqing Huang, Chunyu Wang, Mingxi Cheng, Ji Li, Han Hu, Xin Geng, Baining Guo

ICLR 2024 V-DETR: DETR with Vertex Relative Position Encoding for 3D Object Detection Yichao Shen, Zigang Geng, Yuhui Yuan, Yutong Lin, Ze Liu, Chunyu Wang, Han Hu, Nanning Zheng, Baining Guo

NeurIPS 2024 VASA-1: Lifelike Audio-Driven Talking Faces Generated in Real Time Sicheng Xu, Guojun Chen, Yu-Xiao Guo, Jiaolong Yang, Chong Li, Zhenyu Zang, Yizhong Zhang, Xin Tong, Baining Guo

ICCV 2023 Adaptive Frequency Filters as Efficient Global Token Mixers Zhipeng Huang, Zhizheng Zhang, Cuiling Lan, Zheng-Jun Zha, Yan Lu, Baining Guo

ICCV 2023 Efficient Diffusion Training via Min-SNR Weighting Strategy Tiankai Hang, Shuyang Gu, Chen Li, Jianmin Bao, Dong Chen, Han Hu, Xin Geng, Baining Guo

ICCV 2023 Improving CLIP Fine-Tuning Performance Yixuan Wei, Han Hu, Zhenda Xie, Ze Liu, Zheng Zhang, Yue Cao, Jianmin Bao, Dong Chen, Baining Guo

CVPR 2023 MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and Video Generation Ludan Ruan, Yiyang Ma, Huan Yang, Huiguo He, Bei Liu, Jianlong Fu, Nicholas Jing Yuan, Qin Jin, Baining Guo

AAAI 2023 PeCo: Perceptual Codebook for BERT Pre-Training of Vision Transformers Xiaoyi Dong, Jianmin Bao, Ting Zhang, Dongdong Chen, Weiming Zhang, Lu Yuan, Dong Chen, Fang Wen, Nenghai Yu, Baining Guo

CVPR 2023 RODIN: A Generative Model for Sculpting 3D Digital Avatars Using Diffusion Tengfei Wang, Bo Zhang, Ting Zhang, Shuyang Gu, Jianmin Bao, Tadas Baltrusaitis, Jingjing Shen, Dong Chen, Fang Wen, Qifeng Chen, Baining Guo

CVPR 2023 iCLIP: Bridging Image Classification and Contrastive Language-Image Pre-Training for Visual Recognition Yixuan Wei, Yue Cao, Zheng Zhang, Houwen Peng, Zhuliang Yao, Zhenda Xie, Han Hu, Baining Guo

CVPR 2022 Advancing High-Resolution Video-Language Representation with Large-Scale Video Transcriptions Hongwei Xue, Tiankai Hang, Yanhong Zeng, Yuchong Sun, Bei Liu, Huan Yang, Jianlong Fu, Baining Guo

CVPR 2022 CSWin Transformer: A General Vision Transformer Backbone with Cross-Shaped Windows Xiaoyi Dong, Jianmin Bao, Dongdong Chen, Weiming Zhang, Nenghai Yu, Lu Yuan, Dong Chen, Baining Guo

CVPR 2022 Protecting Celebrities from DeepFake with Identity Consistency Transformer Xiaoyi Dong, Jianmin Bao, Dongdong Chen, Ting Zhang, Weiming Zhang, Nenghai Yu, Dong Chen, Fang Wen, Baining Guo

CVPR 2022 StyleSwin: Transformer-Based GAN for High-Resolution Image Generation Bowen Zhang, Shuyang Gu, Bo Zhang, Jianmin Bao, Dong Chen, Fang Wen, Yong Wang, Baining Guo

CVPR 2022 Swin Transformer V2: Scaling up Capacity and Resolution Ze Liu, Han Hu, Yutong Lin, Zhuliang Yao, Zhenda Xie, Yixuan Wei, Jia Ning, Yue Cao, Zheng Zhang, Li Dong, Furu Wei, Baining Guo

CVPR 2022 Vector Quantized Diffusion Model for Text-to-Image Synthesis Shuyang Gu, Dong Chen, Jianmin Bao, Fang Wen, Bo Zhang, Dongdong Chen, Lu Yuan, Baining Guo

ICCV 2021 Swin Transformer: Hierarchical Vision Transformer Using Shifted Windows Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, Baining Guo

ICML 2018 Compressing Neural Networks Using the Variational Information Bottleneck Bin Dai, Chen Zhu, Baining Guo, David Wipf

ICCV 2015 Unsupervised Extraction of Video Highlights via Robust Recurrent Auto-Encoders Huan Yang, Baoyuan Wang, Stephen Lin, David Wipf, Minyi Guo, Baining Guo

CVPR 2014 Orientational Pyramid Matching for Recognizing Indoor Scenes Lingxi Xie, Jingdong Wang, Baining Guo, Bo Zhang, Qi Tian

ICCV 2013 Fast Neighborhood Graph Search Using Cartesian Concatenation Jing Wang, Jingdong Wang, Gang Zeng, Rui Gan, Shipeng Li, Baining Guo

CVPR 2012 Exemplar-Based Human Action Pose Correction and Tagging Wei Shen, Ke Deng, Xiang Bai, Tommer Leyvand, Baining Guo, Zhuowen Tu

UAI 2001 Planning and Acting Under Uncertainty: A New Model for Spoken Dialogue System Bo Zhang, Qingsheng Cai, Jianfeng Mao, Baining Guo