Dai, Qi

34 publications

ICCV 2025 AID: Adapting Image2Video Diffusion Models for Instruction-Guided Video Prediction Zhen Xing, Qi Dai, Zejia Weng, Zuxuan Wu, Yu-Gang Jiang

AAAI 2025 FaceA-Net: Facial Attribute-Driven ID Preserving Image Generation Network Jiayu Wang, Yue Yu, Jingjing Chen, Qi Dai, Yu-Gang Jiang

CVPR 2025 FloVD: Optical Flow Meets Video Diffusion Model for Enhanced Camera-Controlled Video Synthesis Wonjoon Jin, Qi Dai, Chong Luo, Seung-Hwan Baek, Sunghyun Cho

CVPR 2025 HomoGen: Enhanced Video Inpainting via Homography Propagation and Diffusion Ding Ding, Yueming Pan, Ruoyu Feng, Qi Dai, Kai Qiu, Jianmin Bao, Chong Luo, Zhenzhong Chen

ICCV 2025 JointDiT: Enhancing RGB-Depth Joint Modeling with Diffusion Transformers Kwon Byung-Ki, Qi Dai, Lee Hyoseok, Chong Luo, Tae-Hyun Oh

ICCV 2025 MagicMotion: Controllable Video Generation with Dense-to-Sparse Trajectory Guidance Quanhao Li, Zhen Xing, Rui Wang, Hui Zhang, Qi Dai, Zuxuan Wu

ICCV 2025 MotionFollower: Editing Video Motion via Score-Guided Diffusion Shuyuan Tu, Qi Dai, Zihao Zhang, Sicheng Xie, Zhi-Qi Cheng, Chong Luo, Xintong Han, Zuxuan Wu, Yu-Gang Jiang

ICCV 2025 REDUCIO! Generating 1k Video Within 16 Seconds Using Extremely Compressed Motion Latents Rui Tian, Qi Dai, Jianmin Bao, Kai Qiu, Yifan Yang, Chong Luo, Zuxuan Wu, Yu-Gang Jiang

CVPRW 2025 Securing the Skies: A Comprehensive Survey on Anti-UAV Methods, Benchmarking, and Future Directions Yifei Dong, Fengyi Wu, Sanjian Zhang, Guangyu Chen, Yuzhi Hu, Masumi Yano, Jingdong Sun, Siyu Huang, Feng Liu, Qi Dai, Zhi-Qi Cheng

CVPR 2025 StableAnimator: High-Quality Identity-Preserving Human Image Animation Shuyuan Tu, Zhen Xing, Xintong Han, Zhi-Qi Cheng, Qi Dai, Chong Luo, Zuxuan Wu

WACV 2025 UCDR-Adapter: Exploring Adaptation of Pre-Trained Vision-Language Models for Universal Cross-Domain Retrieval Haoyu Jiang, Zhi-Qi Cheng, Gabriel Moreira, Jiawen Zhu, Jingdong Sun, Bukun Ren, Jun-Yan He, Qi Dai, Xian-Sheng Hua

CVPRW 2024 ART•V: Auto-Regressive Text-to-Video Generation with Diffusion Models Wenming Weng, Ruoyu Feng, Yanhui Wang, Qi Dai, Chunyu Wang, Dacheng Yin, Zhiyuan Zhao, Kai Qiu, Jianmin Bao, Yuhui Yuan, Chong Luo, Yueyi Zhang, Zhiwei Xiong

NeurIPS 2024 Aligning Vision Models with Human Aesthetics in Retrieval: Benchmarks and Algorithms Miaosen Zhang, Yixuan Wei, Zhen Xing, Yifei Ma, Zuxuan Wu, Ji Li, Zheng Zhang, Qi Dai, Chong Luo, Xin Geng, Baining Guo

CVPR 2024 BlockGCN: Redefine Topology Awareness for Skeleton-Based Action Recognition Yuxuan Zhou, Xudong Yan, Zhi-Qi Cheng, Yan Yan, Qi Dai, Xian-Sheng Hua

NeurIPS 2024 Human-Aware Vision-and-Language Navigation: Bridging Simulation to Reality with Dynamic Human Interactions Heng Li, Minghan Li, Zhi-Qi Cheng, Yifei Dong, Yuxuan Zhou, Jun-Yan He, Qi Dai, Teruko Mitamura, Alexander G. Hauptmann

CVPR 2024 MicroCinema: A Divide-and-Conquer Approach for Text-to-Video Generation Yanhui Wang, Jianmin Bao, Wenming Weng, Ruoyu Feng, Dacheng Yin, Tao Yang, Jingxu Zhang, Qi Dai, Zhiyuan Zhao, Chunyu Wang, Kai Qiu, Yuhui Yuan, Xiaoyan Sun, Chong Luo, Baining Guo

CVPR 2024 MotionEditor: Editing Video Motion via Content-Aware Diffusion Shuyuan Tu, Qi Dai, Zhi-Qi Cheng, Han Hu, Xintong Han, Zuxuan Wu, Yu-Gang Jiang

CVPR 2024 SimDA: Simple Diffusion Adapter for Efficient Video Generation Zhen Xing, Qi Dai, Han Hu, Zuxuan Wu, Yu-Gang Jiang

ICCV 2023 All in Tokens: Unifying Output Space of Visual Tasks via Soft Token Jia Ning, Chen Li, Zheng Zhang, Chunyu Wang, Zigang Geng, Qi Dai, Kun He, Han Hu

ICCV 2023 ChartReader: A Unified Framework for Chart Derendering and Comprehension Without Heuristic Rules Zhi-Qi Cheng, Qi Dai, Alexander G. Hauptmann

ICLR 2023 HiViT: A Simpler and More Efficient Design of Hierarchical Vision Transformer Xiaosong Zhang, Yunjie Tian, Lingxi Xie, Wei Huang, Qi Dai, Qixiang Ye, Qi Tian

ICCV 2023 Implicit Temporal Modeling with Learnable Alignment for Video Recognition Shuyuan Tu, Qi Dai, Zuxuan Wu, Zhi-Qi Cheng, Han Hu, Yu-Gang Jiang

CVPR 2023 On Data Scaling in Masked Image Modeling Zhenda Xie, Zheng Zhang, Yue Cao, Yutong Lin, Yixuan Wei, Qi Dai, Han Hu

CVPR 2023 ResFormer: Scaling ViTs with Multi-Resolution Training Rui Tian, Zuxuan Wu, Qi Dai, Han Hu, Yu Qiao, Yu-Gang Jiang

CVPR 2023 SVFormer: Semi-Supervised Video Transformer for Action Recognition Zhen Xing, Qi Dai, Han Hu, Jingjing Chen, Zuxuan Wu, Yu-Gang Jiang

ICLR 2022 On the Connection Between Local Attention and Dynamic Depth-Wise Convolution Qi Han, Zejia Fan, Qi Dai, Lei Sun, Ming-Ming Cheng, Jiaying Liu, Jingdong Wang

CVPR 2022 Rethinking Spatial Invariance of Convolutional Networks for Object Counting Zhi-Qi Cheng, Qi Dai, Hong Li, Jingkuan Song, Xiao Wu, Alexander G. Hauptmann

CVPR 2022 SimMIM: A Simple Framework for Masked Image Modeling Zhenda Xie, Zheng Zhang, Yue Cao, Yutong Lin, Jianmin Bao, Zhuliang Yao, Qi Dai, Han Hu

ICCV 2021 Temporal Action Detection with Multi-Level Supervision Baifeng Shi, Qi Dai, Judy Hoffman, Kate Saenko, Trevor Darrell, Huijuan Xu

ICML 2020 Informative Dropout for Robust Representation Learning: A Shape-Bias Perspective Baifeng Shi, Dinghuai Zhang, Qi Dai, Zhanxing Zhu, Yadong Mu, Jingdong Wang

CVPRW 2020 Self-Supervised Object Motion and Depth Estimation from Video Qi Dai, Vaishakh Patil, Simon Hecker, Dengxin Dai, Luc Van Gool, Konrad Schindler

ECCV 2018 Recurrent Tubelet Proposal and Recognition Networks for Action Detection Dong Li, Zhaofan Qiu, Qi Dai, Ting Yao, Tao Mei

IJCAI 2015 Optimal Bayesian Hashing for Efficient Face Recognition Qi Dai, Jianguo Li, Jun Wang, Yurong Chen, Yu-Gang Jiang

ECCV 2012 Trajectory-Based Modeling of Human Actions with Motion Reference Points Yu-Gang Jiang, Qi Dai, Xiangyang Xue, Wei Liu, Chong-Wah Ngo