Bai, Song

49 publications

ICCV 2025 Describe, Adapt and Combine: Empowering CLIP Encoders for Open-Set 3D Object Retrieval Zhichuan Wang, Yang Zhou, Zhe Liu, Rui Yu, Song Bai, Yulong Wang, Xinwei He, Xiang Bai

NeurIPS 2025 GUI-Rise: Structured Reasoning and History Summarization for GUI Navigation Tao Liu, Chongyu Wang, Rongjie Li, Yingchen Yu, Xuming He, Song Bai

CVPRW 2025 PVUW 2025 Challenge Report: Advances in Pixel-Level Understanding of Complex Videos in the Wild Henghui Ding, Chang Liu, Nikhila Ravi, Shuting He, Yunchao Wei, Song Bai, Philip Torr

ICCV 2025 TimeExpert: An Expert-Guided Video LLM for Video Temporal Grounding Zuhao Yang, Yingchen Yu, Yunqing Zhao, Shijian Lu, Song Bai

ICCV 2025 Versatile Transition Generation with Image-to-Video Diffusion Zuhao Yang, Jiahui Zhang, Yingchen Yu, Shijian Lu, Song Bai

CVPR 2024 DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data Qihao Liu, Yi Zhang, Song Bai, Adam Kortylewski, Alan Yuille

ICLR 2024 Discovering Failure Modes of Text-Guided Diffusion Models via Adversarial Search Qihao Liu, Adam Kortylewski, Yutong Bai, Song Bai, Alan Yuille

CVPR 2024 DragDiffusion: Harnessing Diffusion Models for Interactive Point-Based Image Editing Yujun Shi, Chuhui Xue, Jun Hao Liew, Jiachun Pan, Hanshu Yan, Wenqing Zhang, Vincent Y. F. Tan, Song Bai

ECCV 2024 Free-ATM: Harnessing Free Attention Masks for Representation Learning on Diffusion-Generated Images David Junhao Zhang, Mutian Xu, Jay Zhangjie Wu, Chuhui Xue, Wenqing Zhang, Xiaoguang Han, Song Bai, Mike Zheng Shou

CVPR 2024 General Object Foundation Model for Images and Videos at Scale Junfeng Wu, Yi Jiang, Qihao Liu, Zehuan Yuan, Xiang Bai, Song Bai

ECCVW 2024 PVUW 2024 Challenge on Complex Video Understanding: Methods and Results Henghui Ding, Chang Liu, Yunchao Wei, Nikhila Ravi, Shuting He, Song Bai, Philip Torr, Deshui Miao, Xin Li, Zhenyu He, Yaowei Wang, Ming-Hsuan Yang, Zhensong Xu, Jiangtao Yao, Chengjing Wu, Ting Liu, Luoqi Liu, Xinyu Liu, Jing Zhang, Kexin Zhang, Yuting Yang, Licheng Jiao, Shuyuan Yang, Mingqi Gao, Jingnan Luo, Jinyu Yang, Jungong Han, Feng Zheng, Bin Cao, Yisi Zhang, Xuanxu Lin, Xingjian He, Bo Zhao, Jing Liu, Feiyu Pan, Hao Fang, Xiankai Lu

ECCV 2024 PartGLEE: A Foundation Model for Recognizing and Parsing Any Objects Junyi Li, Junfeng Wu, Weizhi Zhao, Song Bai, Xiang Bai

CVPR 2023 InstMove: Instance Motion for Object-Centric Video Segmentation Qihao Liu, Junfeng Wu, Yi Jiang, Xiang Bai, Alan L. Yuille, Song Bai

ICLR 2023 Is Synthetic Data from Generative Models Ready for Image Recognition? Ruifei He, Shuyang Sun, Xin Yu, Chuhui Xue, Wenqing Zhang, Philip Torr, Song Bai, Xiaojuan Qi

ICCV 2023 MOSE: A New Dataset for Video Object Segmentation in Complex Scenes Henghui Ding, Chang Liu, Shuting He, Xudong Jiang, Philip H.S. Torr, Song Bai

NeurIPS 2023 Mixed Samples as Probes for Unsupervised Model Selection in Domain Adaptation Dapeng Hu, Jian Liang, Jun Hao Liew, Chuhui Xue, Song Bai, Xinchao Wang

CVPR 2023 PLA: Language-Driven Open-Vocabulary 3D Scene Understanding Runyu Ding, Jihan Yang, Chuhui Xue, Wenqing Zhang, Song Bai, Xiaojuan Qi

ICLR 2023 PV3D: A 3D Generative Model for Portrait Video Generation Zhongcong Xu, Jianfeng Zhang, Jun Hao Liew, Wenqing Zhang, Song Bai, Jiashi Feng, Mike Zheng Shou

ICCV 2023 SRFormer: Permuted Self-Attention for Single Image Super-Resolution Yupeng Zhou, Zhen Li, Chun-Le Guo, Song Bai, Ming-Ming Cheng, Qibin Hou

ICLR 2023 Towards Understanding and Mitigating Dimensional Collapse in Heterogeneous Federated Learning Yujun Shi, Jian Liang, Wenqing Zhang, Vincent Tan, Song Bai

CVPR 2022 An Empirical Study of End-to-End Temporal Action Detection Xiaolong Liu, Song Bai, Xiang Bai

ECCV 2022 Contextual Text Block Detection Towards Scene Text Understanding Chuhui Xue, Jiaxing Huang, Wenqing Zhang, Shijian Lu, Changhu Wang, Song Bai

CVPR 2022 DanceTrack: Multi-Object Tracking in Uniform Appearance and Diverse Motion Peize Sun, Jinkun Cao, Yi Jiang, Zehuan Yuan, Song Bai, Kris Kitani, Ping Luo

ECCV 2022 Explicit Occlusion Reasoning for Multi-Person 3D Human Pose Estimation Qihao Liu, Yi Zhang, Song Bai, Alan Yuille

CVPR 2022 Fourier Document Restoration for Robust Document Dewarping and Recognition Chuhui Xue, Zichen Tian, Fangneng Zhan, Shijian Lu, Song Bai

ECCV 2022 In Defense of Online Models for Video Instance Segmentation Junfeng Wu, Qihao Liu, Yi Jiang, Song Bai, Alan Yuille, Xiang Bai

CVPR 2022 Knowledge Distillation as Efficient Pre-Training: Faster Convergence, Higher Data-Efficiency, and Better Transferability Ruifei He, Shuyang Sun, Jihan Yang, Song Bai, Xiaojuan Qi

ECCV 2022 Language Matters: A Weakly Supervised Vision-Language Pre-Training Approach for Scene Text Detection and Spotting Chuhui Xue, Wenqing Zhang, Yu Hao, Shijian Lu, Philip H. S. Torr, Song Bai

CVPR 2022 Mimicking the Oracle: An Initial Phase Decorrelation Approach for Class Incremental Learning Yujun Shi, Kuangqi Zhou, Jian Liang, Zihang Jiang, Jiashi Feng, Philip H.S. Torr, Song Bai, Vincent Y. F. Tan

ECCV 2022 SeqFormer: Sequential Transformer for Video Instance Segmentation Junfeng Wu, Yi Jiang, Song Bai, Wenqing Zhang, Xiang Bai

CVPR 2022 TransMix: Attend to Mix for Vision Transformers Jie-Neng Chen, Shuyang Sun, Ju He, Philip H.S. Torr, Alan Yuille, Song Bai

CVPR 2022 YouMVOS: An Actor-Centric Multi-Shot Video Object Segmentation Dataset Donglai Wei, Siddhant Kharbanda, Sarthak Arora, Roshan Roy, Nishant Jain, Akash Palrecha, Tanav Shah, Shray Mathur, Ritik Mathur, Abhijay Kemkar, Anirudh Chakravarthy, Zudi Lin, Won-Dong Jang, Yansong Tang, Song Bai, James Tompkin, Philip H.S. Torr, Hanspeter Pfister

CVPR 2021 Anchor-Free Person Search Yichao Yan, Jinpeng Li, Jie Qin, Song Bai, Shengcai Liao, Li Liu, Fan Zhu, Ling Shao

CVPR 2021 Multi-Shot Temporal Event Localization: A Benchmark Xiaolong Liu, Yao Hu, Song Bai, Fei Ding, Xiang Bai, Philip H. S. Torr

ICCV 2021 PlaneTR: Structure-Guided Transformers for 3D Plane Recovery Bin Tan, Nan Xue, Song Bai, Tianfu Wu, Gui-Song Xia

CVPR 2021 SwiftNet: Real-Time Video Object Segmentation Haochen Wang, Xiaolong Jiang, Haibing Ren, Yao Hu, Song Bai

ECCV 2020 Corner Proposal Network for Anchor-Free, Two-Stage Object Detection Kaiwen Duan, Lingxi Xie, Honggang Qi, Song Bai, Qingming Huang, Qi Tian

AAAI 2020 Importance-Aware Semantic Segmentation in Self-Driving with Discrete Wasserstein Training Xiaofeng Liu, Yuzhuo Han, Song Bai, Yi Ge, Tianxing Wang, Xu Han, Site Li, Jane You, Jun Lu

AAAI 2020 Learning Transferable Adversarial Examples via Ghost Networks Yingwei Li, Song Bai, Yuyin Zhou, Cihang Xie, Zhishuai Zhang, Alan L. Yuille

ECCV 2020 Regional Homogeneity: Towards Learning Transferable Universal Adversarial Perturbations Against Defenses Yingwei Li, Song Bai, Cihang Xie, Zhenyu Liao, Xiaohui Shen, Alan Yuille

ECCV 2020 XingGAN for Person Image Generation Hao Tang, Song Bai, Li Zhang, Philip H.S. Torr, Nicu Sebe

WACV 2019 Semi-Supervised 3D Abdominal Multi-Organ Segmentation via Deep Multi-Planar Co-Training Yuyin Zhou, Yan Wang, Peng Tang, Song Bai, Wei Shen, Elliot K. Fishman, Alan L. Yuille

ECCV 2018 Hard-Aware Point-to-Set Deep Metric for Person Re-Identification Rui Yu, Zhiyong Dou, Song Bai, Zhaoxiang Zhang, Yongchao Xu, Xiang Bai

ICCV 2017 Ensemble Diffusion for Retrieval Song Bai, Zhichao Zhou, Jingdong Wang, Xiang Bai, Longin Jan Latecki, Qi Tian

AAAI 2017 Multidimensional Scaling on Multiple Input Distance Matrices Song Bai, Xiang Bai, Longin Jan Latecki, Qi Tian

AAAI 2017 Regularized Diffusion Process for Visual Retrieval Song Bai, Xiang Bai, Qi Tian, Longin Jan Latecki

CVPR 2017 Scalable Person Re-Identification on Supervised Smoothed Manifold Song Bai, Xiang Bai, Qi Tian

CVPR 2016 GIFT: A Real-Time and Scalable 3D Shape Search Engine Song Bai, Xiang Bai, Zhichao Zhou, Zhaoxiang Zhang, Longin Jan Latecki

ECCV 2016 Smooth Neighborhood Structure Mining on Multiple Affinity Graphs with Applications to Context-Sensitive Similarity Song Bai, Shaoyan Sun, Xiang Bai, Zhaoxiang Zhang, Qi Tian