Shou, Mike Zheng

107 publications

ICCV 2025 Balanced Image Stylization with Style Matching Score Yuxin Jiang, Liming Jiang, Shuai Yang, Jia-Wei Liu, Ivor W. Tsang, Mike Zheng Shou

ICLR 2025 Bridging Information Asymmetry in Text-Video Retrieval: A Data-Centric Approach Zechen Bai, Tianjun Xiao, Tong He, Pichao Wang, Zheng Zhang, Thomas Brox, Mike Zheng Shou

NeurIPS 2025 CoFFT: Chain of Foresight-Focus Thought for Visual Language Models Xinyu Zhang, Yuxuan Dong, Lingling Zhang, Chengyou Jia, Zhuohang Dang, Basura Fernando, Jun Liu, Mike Zheng Shou

CVPR 2025 DIFIX3D+: Improving 3D Reconstructions with Single-Step Diffusion Models Jay Zhangjie Wu, Yuxuan Zhang, Haithem Turki, Xuanchi Ren, Jun Gao, Mike Zheng Shou, Sanja Fidler, Zan Gojcic, Huan Ling

NeurIPS 2025 DOTA: Distributional Test-Time Adaptation of Vision-Language Models Zongbo Han, Jialong Yang, Guangyu Wang, Junfan Li, Qianli Xu, Mike Zheng Shou, Changqing Zhang

ICCV 2025 DiffSim: Taming Diffusion Models for Evaluating Visual Similarity Yiren Song, Xiaokang Liu, Mike Zheng Shou

CVPR 2025 DoraCycle: Domain-Oriented Adaptation of Unified Generative Model in Multimodal Cycles Rui Zhao, Weijia Mao, Mike Zheng Shou

ICCV 2025 Factorized Learning for Temporally Grounded Video-Language Models Wenzheng Zeng, Difei Gao, Mike Zheng Shou, Hwee Tou Ng

TMLR 2025 Faster Diffusion Through Temporal Attention Decomposition Haozhe Liu, Wentian Zhang, Jinheng Xie, Francesco Faccio, Mengmeng Xu, Tao Xiang, Mike Zheng Shou, Juan-Manuel Perez-Rua, Jürgen Schmidhuber

ICLR 2025 Grounding Multimodal Large Language Model in GUI World Weixian Lei, Difei Gao, Mike Zheng Shou

CVPR 2025 IDProtector: An Adversarial Noise Encoder to Protect Against ID-Preserving Image Generation Yiren Song, Pei Yang, Hai Ci, Mike Zheng Shou

ICLR 2025 Image Watermarks Are Removable Using Controllable Regeneration from Clean Noise Yepeng Liu, Yiren Song, Hai Ci, Yu Zhang, Haofan Wang, Mike Zheng Shou, Yuheng Bu

ICML 2025 Impossible Videos Zechen Bai, Hai Ci, Mike Zheng Shou

ICLRW 2025 InterFeedback: Unveiling Interactive Intelligence of Large Multimodal Models with Human Feedback Henry Hengyuan Zhao, Wenqi Pei, Yifei Tao, Haiyang Mei, Mike Zheng Shou

ICCV 2025 LayerTracer: Cognitive-Aligned Layered SVG Synthesis via Diffusion Transformer Yiren Song, Danze Chen, Mike Zheng Shou

CVPR 2025 LiveCC: Learning Video LLM with Streaming Speech Transcription at Scale Joya Chen, Ziyun Zeng, Yiqi Lin, Wei Li, Zejun Ma, Mike Zheng Shou

ICLR 2025 MP-Mat: A 3D-and-Instance-Aware Human Matting and Editing Framework with Multiplane Representation Siyi Jiao, Wenzheng Zeng, Yerong Li, Huayu Zhang, Changxin Gao, Nong Sang, Mike Zheng Shou

CVPR 2025 MovieBench: A Hierarchical Movie Level Dataset for Long Video Generation Weijia Wu, Mingyu Liu, Zeyu Zhu, Xi Xia, Haoen Feng, Wen Wang, Kevin Qinghong Lin, Chunhua Shen, Mike Zheng Shou

NeurIPS 2025 OmniConsistency: Learning Style-Agnostic Consistency from Paired Stylization Data Yiren Song, Cheng Liu, Mike Zheng Shou

NeurIPS 2025 PANDA: Towards Generalist Video Anomaly Detection via Agentic AI Engineer Zhiwei Yang, Chen Gao, Mike Zheng Shou

CVPR 2025 ROICtrl: Boosting Instance Control for Visual Generation Yuchao Gu, Yipin Zhou, Yunfan Ye, Yixin Nie, Licheng Yu, Pingchuan Ma, Kevin Qinghong Lin, Mike Zheng Shou

CVPR 2025 ReCapture: Generative Video Camera Controls for User-Provided Videos Using Masked Video Fine-Tuning David Junhao Zhang, Roni Paiss, Shiran Zada, Nikhil Karnad, David E. Jacobs, Yael Pritch, Inbar Mosseri, Mike Zheng Shou, Neal Wadhwa, Nataniel Ruiz

CVPR 2025 SAM-I2V: Upgrading SAM to Support Promptable Video Segmentation with Less than 0.2% Training Cost Haiyang Mei, Pengyu Zhang, Mike Zheng Shou

NeurIPS 2025 Show-O2: Improved Native Unified Multimodal Models Jinheng Xie, Zhenheng Yang, Mike Zheng Shou

ICLR 2025 Show-O: One Single Transformer to Unify Multimodal Understanding and Generation Jinheng Xie, Weijia Mao, Zechen Bai, David Junhao Zhang, Weihao Wang, Kevin Qinghong Lin, Yuchao Gu, Zhijie Chen, Zhenheng Yang, Mike Zheng Shou

CVPR 2025 ShowUI: One Vision-Language-Action Model for GUI Visual Agent Kevin Qinghong Lin, Linjie Li, Difei Gao, Zhengyuan Yang, Shiwei Wu, Zechen Bai, Stan Weixian Lei, Lijuan Wang, Mike Zheng Shou

NeurIPS 2025 Sparse Image Synthesis via Joint Latent and RoI Flow Ziteng Gao, Jay Zhangjie Wu, Mike Zheng Shou

NeurIPS 2025 Think or Not? Selective Reasoning via Reinforcement Learning for Vision-Language Models Jiaqi Wang, Kevin Qinghong Lin, James Cheng, Mike Zheng Shou

AAAI 2025 VG-TVP: Multimodal Procedural Planning via Visually Grounded Text-Video Prompting Muhammet Furkan Ilaslan, Ali Köksal, Kevin Qinghong Lin, Burak Satar, Mike Zheng Shou, Qianli Xu

CVPR 2025 VLog: Video-Language Models by Generative Retrieval of Narration Vocabulary Kevin Qinghong Lin, Mike Zheng Shou

ICML 2025 WMAdapter: Adding WaterMark Control to Latent Diffusion Models Hai Ci, Yiren Song, Pei Yang, Jinheng Xie, Mike Zheng Shou

NeurIPS 2025 macOSWorld: A Multilingual Interactive Benchmark for GUI Agents Pei Yang, Hai Ci, Mike Zheng Shou

IJCAI 2024 Apprenticeship-Inspired Elegance: Synergistic Knowledge Distillation Empowers Spiking Neural Networks for Efficient Single-Eye Emotion Recognition Yang Wang, Haiyang Mei, Qirui Bao, Ziqi Wei, Mike Zheng Shou, Haizhou Li, Bo Dong, Xin Yang

CVPR 2024 AssistGUI: Task-Oriented PC Graphical User Interface Automation Difei Gao, Lei Ji, Zechen Bai, Mingyu Ouyang, Peiran Li, Dongxing Mao, Qinchen Wu, Weichen Zhang, Peiyi Wang, Xiangwu Guo, Hengxu Wang, Luowei Zhou, Mike Zheng Shou

CVPR 2024 Bootstrapping SparseFormers from Vision Foundation Models Ziteng Gao, Zhan Tong, Kevin Qinghong Lin, Joya Chen, Mike Zheng Shou

NeurIPS 2024 Can Simple Averaging Defeat Modern Watermarks? Pei Yang, Hai Ci, Yiren Song, Mike Zheng Shou

IJCAI 2024 Delocate: Detection and Localization for Deepfake Videos with Randomly-Located Tampered Traces Juan Hu, Xin Liao, Difei Gao, Satoshi Tsutsui, Qian Wang, Zheng Qin, Mike Zheng Shou

NeurIPS 2024 DoFIT: Domain-Aware Federated Instruction Tuning with Alleviated Catastrophic Forgetting Binqian Xu, Xiangbo Shu, Haiyang Mei, Zechen Bai, Basura Fernando, Mike Zheng Shou, Jinhui Tang

ECCV 2024 Drag Anything: Motion Control for Anything Using Entity Representation Weijia Wu, Zhuang Li, Yuchao Gu, Rui Zhao, Yefei He, David Junhao Zhang, Mike Zheng Shou, Yan Li, Tingting Gao, Zhang Di

CVPR 2024 DynVideo-E: Harnessing Dynamic NeRF for Large-Scale Motion- and View-Change Human-Centric Video Editing Jia-Wei Liu, Yan-Pei Cao, Jay Zhangjie Wu, Weijia Mao, Yuchao Gu, Rui Zhao, Jussi Keppo, Ying Shan, Mike Zheng Shou

CVPR 2024 Ego-Exo4D: Understanding Skilled Human Activity from First- and Third-Person Perspectives Kristen Grauman, Andrew Westbury, Lorenzo Torresani, Kris Kitani, Jitendra Malik, Triantafyllos Afouras, Kumar Ashutosh, Vijay Baiyya, Siddhant Bansal, Bikram Boote, Eugene Byrne, Zach Chavis, Joya Chen, Feng Cheng, Fu-Jen Chu, Sean Crane, Avijit Dasgupta, Jing Dong, Maria Escobar, Cristhian Forigua, Abrham Gebreselasie, Sanjay Haresh, Jing Huang, Md Mohaiminul Islam, Suyog Jain, Rawal Khirodkar, Devansh Kukreja, Kevin J Liang, Jia-Wei Liu, Sagnik Majumder, Yongsen Mao, Miguel Martin, Effrosyni Mavroudi, Tushar Nagarajan, Francesco Ragusa, Santhosh Kumar Ramakrishnan, Luigi Seminara, Arjun Somayazulu, Yale Song, Shan Su, Zihui Xue, Edward Zhang, Jinxu Zhang, Angela Castillo, Changan Chen, Xinzhu Fu, Ryosuke Furuta, Cristina Gonzalez, Prince Gupta, Jiabo Hu, Yifei Huang, Yiming Huang, Weslie Khoo, Anush Kumar, Robert Kuo, Sach Lakhavani, Miao Liu, Mi Luo, Zhengyi Luo, Brighid Meredith, Austin Miller, Oluwatumininu Oguntola, Xiaqing Pan, Penny Peng, Shraman Pramanick, Merey Ramazanova, Fiona Ryan, Wei Shan, Kiran Somasundaram, Chenan Song, Audrey Southerland, Masatoshi Tateno, Huiyu Wang, Yuchen Wang, Takuma Yagi, Mingfei Yan, Xitong Yang, Zecheng Yu, Shengxin Cindy Zha, Chen Zhao, Ziwei Zhao, Zhifan Zhu, Jeff Zhuo, Pablo Arbelaez, Gedas Bertasius, Dima Damen, Jakob Engel, Giovanni Maria Farinella, Antonino Furnari, Bernard Ghanem, Judy Hoffman, C.V. Jawahar, Richard Newcombe, Hyun Soo Park, James M. Rehg, Yoichi Sato, Manolis Savva, Jianbo Shi, Mike Zheng Shou, Michael Wray

NeurIPS 2024 EvolveDirector: Approaching Advanced Text-to-Image Generation with Large Vision-Language Models Rui Zhao, Hangjie Yuan, Yujie Wei, Shiwei Zhang, Yuchao Gu, Lingmin Ran, Xiang Wang, Zhangjie Wu, Junhao Zhang, Yingya Zhang, Mike Zheng Shou

NeurIPS 2024 Exocentric-to-Egocentric Video Generation Jia-Wei Liu, Weijia Mao, Zhongcong Xu, Jussi Keppo, Mike Zheng Shou

ECCV 2024 Free-ATM: Harnessing Free Attention Masks for Representation Learning on Diffusion-Generated Images David Junhao Zhang, Mutian Xu, Jay Zhangjie Wu, Chuhui Xue, Wenqing Zhang, Xiaoguang Han, Song Bai, Mike Zheng Shou

ECCV 2024 GENIXER: Empowering Multimodal Large Language Models as a Powerful Data Generator Henry Hengyuan Zhao, Pan Zhou, Mike Zheng Shou

CVPR 2024 L4D-Track: Language-to-4D Modeling Towards 6-DoF Tracking and Shape Reconstruction in 3D Point Cloud Stream Jingtao Sun, Yaonan Wang, Mingtao Feng, Yulan Guo, Ajmal Mian, Mike Zheng Shou

NeurIPS 2024 LOVA3: Learning to Visual Question Answering, Asking and Assessment Henry Hengyuan Zhao, Pan Zhou, Difei Gao, Zechen Bai, Mike Zheng Shou

ECCV 2024 Learning Video Context as Interleaved Multimodal Sequences Kevin Qinghong Lin, Pengchuan Zhang, Difei Gao, Xide Xia, Joya Chen, Ziteng Gao, Jinheng Xie, Xuhong Xiao, Mike Zheng Shou

NeurIPS 2024 Leveraging Visual Tokens for Extended Text Contexts in Multi-Modal Learning Alex Jinpeng Wang, Linjie Li, Yiqi Lin, Min Li, Lijuan Wang, Mike Zheng Shou

CVPR 2024 MagicAnimate: Temporally Consistent Human Image Animation Using Diffusion Model Zhongcong Xu, Jianfeng Zhang, Jun Hao Liew, Hanshu Yan, Jia-Wei Liu, Chenxu Zhang, Jiashi Feng, Mike Zheng Shou

ECCV 2024 MotionDirector: Motion Customization of Text-to-Video Diffusion Models Rui Zhao, Yuchao Gu, Jay Zhangjie Wu, David Junhao Zhang, Jia-Wei Liu, Weijia Wu, Jussi Keppo, Mike Zheng Shou

NeurIPS 2024 One Token to Seg Them All: Language Instructed Reasoning Segmentation in Videos Zechen Bai, Tong He, Haiyang Mei, Pichao Wang, Ziteng Gao, Joya Chen, Lei Liu, Zheng Zhang, Mike Zheng Shou

ECCV 2024 Parrot Captions Teach CLIP to Spot Text Yiqi Lin, Conghui He, Alex Jinpeng Wang, Bin Wang, Weijia Li, Mike Zheng Shou

ECCV 2024 Rethinking Tree-Ring Watermarking for Enhanced Multi-Key Identification Hai Ci, Pei Yang, Yiren Song, Mike Zheng Shou

CVPR 2024 Rethinking the Objectives of Vector-Quantized Tokenizers for Image Synthesis Yuchao Gu, Xintao Wang, Yixiao Ge, Ying Shan, Mike Zheng Shou

NeurIPSW 2024 ShowUI: One Vision-Language-Action Model for Generalist GUI Agent Kevin Qinghong Lin, Linjie Li, Difei Gao, Zhengyuan Yang, Zechen Bai, Weixian Lei, Lijuan Wang, Mike Zheng Shou

NeurIPS 2024 Skinned Motion Retargeting with Dense Geometric Interaction Perception Zijie Ye, Jia-Wei Liu, Jia Jia, Shikun Sun, Mike Zheng Shou

ICLRW 2024 Skip $\textbackslash N$: A Simple Method to Reduce Hallucination in Large Vision-Language Models Zongbo Han, Zechen Bai, Haiyang Mei, Qianli Xu, Changqing Zhang, Mike Zheng Shou

ICLR 2024 SparseFormer: Sparse Visual Recognition via Limited Latent Tokens Ziteng Gao, Zhan Tong, Limin Wang, Mike Zheng Shou

CVPR 2024 Tune-an-Ellipse: CLIP Has Potential to Find What You Want Jinheng Xie, Songhe Deng, Bing Li, Haozhe Liu, Yawen Huang, Yefeng Zheng, Jurgen Schmidhuber, Bernard Ghanem, Linlin Shen, Mike Zheng Shou

CVPR 2024 ViT-Lens: Towards Omni-Modal Representations Weixian Lei, Yixiao Ge, Kun Yi, Jianfeng Zhang, Difei Gao, Dylan Sun, Yuying Ge, Ying Shan, Mike Zheng Shou

NeurIPS 2024 VideoGUI: A Benchmark for GUI Automation from Instructional Videos Kevin Qinghong Lin, Linjie Li, Difei Gao, Qinchen Wu, Mingyi Yan, Zhengyuan Yang, Lijuan Wang, Mike Zheng Shou

NeurIPS 2024 VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision Computation Shiwei Wu, Joya Chen, Kevin Qinghong Lin, Qimeng Wang, Yan Gao, Qianli Xu, Tong Xu, Yao Hu, Enhong Chen, Mike Zheng Shou

CVPR 2024 VideoLLM-Online: Online Video Large Language Model for Streaming Video Joya Chen, Zhaoyang Lv, Shiwei Wu, Kevin Qinghong Lin, Chenan Song, Difei Gao, Jia-Wei Liu, Ziteng Gao, Dongxing Mao, Mike Zheng Shou

CVPR 2024 VideoSwap: Customized Video Subject Swapping with Interactive Semantic Point Correspondence Yuchao Gu, Yipin Zhou, Bichen Wu, Licheng Yu, Jia-Wei Liu, Rui Zhao, Jay Zhangjie Wu, David Junhao Zhang, Mike Zheng Shou, Kevin Tang

NeurIPS 2024 Visual Perception by Large Language Model’s Weights Feipeng Ma, Hongwei Xue, Yizhou Zhou, Guangting Wang, Fengyun Rao, Shilin Yan, Yueyi Zhang, Siying Wu, Mike Zheng Shou, Xiaoyan Sun

CVPR 2024 X-Adapter: Adding Universal Compatibility of Plugins for Upgraded Diffusion Model Lingmin Ran, Xiaodong Cun, Jia-Wei Liu, Rui Zhao, Song Zijie, Xintao Wang, Jussi Keppo, Mike Zheng Shou

CVPR 2023 Affordance Grounding from Demonstration Video to Target Image Joya Chen, Difei Gao, Kevin Qinghong Lin, Mike Zheng Shou

CVPR 2023 All in One: Exploring Unified Video-Language Pre-Training Jinpeng Wang, Yixiao Ge, Rui Yan, Yuying Ge, Kevin Qinghong Lin, Satoshi Tsutsui, Xudong Lin, Guanyu Cai, Jianping Wu, Ying Shan, Xiaohu Qie, Mike Zheng Shou

ICCV 2023 BoxDiff: Text-to-Image Synthesis with Training-Free Box-Constrained Diffusion Jinheng Xie, Yuexiang Li, Yawen Huang, Haozhe Liu, Wentian Zhang, Yefeng Zheng, Mike Zheng Shou

CVPRW 2023 DOAD: Decoupled One Stage Action Detection Network Shuning Chang, Pichao Wang, Fan Wang, Jiashi Feng, Mike Zheng Shou

AAAI 2023 Darwinian Model Upgrades: Model Evolving with Selective Compatibility Binjie Zhang, Shupeng Su, Yixiao Ge, Xuyuan Xu, Yexin Wang, Chun Yuan, Mike Zheng Shou, Ying Shan

NeurIPS 2023 DatasetDM: Synthesizing Data with Perception Annotations Using Diffusion Models Weijia Wu, Yuzhong Zhao, Hao Chen, Yuchao Gu, Rui Zhao, Yefei He, Hong Zhou, Mike Zheng Shou, Chunhua Shen

ICCV 2023 DiffuMask: Synthesizing Images with Pixel-Level Annotations for Semantic Segmentation Using Diffusion Models Weijia Wu, Yuzhong Zhao, Mike Zheng Shou, Hong Zhou, Chunhua Shen

ICCV 2023 EgoVLPv2: Egocentric Video-Language Pre-Training with Fusion in the Backbone Shraman Pramanick, Yale Song, Sayan Nag, Kevin Qinghong Lin, Hardik Shah, Mike Zheng Shou, Rama Chellappa, Pengchuan Zhang

ICCV 2023 HOSNeRF: Dynamic Human-Object-Scene Neural Radiance Fields from a Single Video Jia-Wei Liu, Yan-Pei Cao, Tianyuan Yang, Zhongcong Xu, Jussi Keppo, Ying Shan, Xiaohu Qie, Mike Zheng Shou

ICCV 2023 Label-Efficient Online Continual Object Detection in Streaming Video Jay Zhangjie Wu, David Junhao Zhang, Wynne Hsu, Mengmi Zhang, Mike Zheng Shou

NeurIPS 2023 Learning Visual Prior via Generative Pre-Training Jinheng Xie, Kai Ye, Yudong Li, Yuexiang Li, Kevin Qinghong Lin, Yefeng Zheng, Linlin Shen, Mike Zheng Shou

ICCV 2023 Learning to Learn: How to Continuously Teach Humans and Machines Parantak Singh, You Li, Ankur Sikarwar, Stan Weixian Lei, Difei Gao, Morgan B. Talbot, Ying Sun, Mike Zheng Shou, Gabriel Kreiman, Mengmi Zhang

CVPR 2023 MIST: Multi-Modal Iterative Spatial-Temporal Transformer for Long-Form Video Question Answering Difei Gao, Luowei Zhou, Lei Ji, Linchao Zhu, Yi Yang, Mike Zheng Shou

CVPR 2023 Making Vision Transformers Efficient from a Token Sparsification View Shuning Chang, Pichao Wang, Ming Lin, Fan Wang, David Junhao Zhang, Rong Jin, Mike Zheng Shou

NeurIPS 2023 Mix-of-Show: Decentralized Low-Rank Adaptation for Multi-Concept Customization of Diffusion Models Yuchao Gu, Xintao Wang, Jay Zhangjie Wu, Yujun Shi, Yunpeng Chen, Zihan Fan, Wuyou Xiao, Rui Zhao, Shuning Chang, Weijia Wu, Yixiao Ge, Ying Shan, Mike Zheng Shou

NeurIPS 2023 Object-Centric Learning with Cyclic Walks Between Parts and Whole Ziyu Wang, Mike Zheng Shou, Mengmi Zhang

ICLR 2023 PV3D: A 3D Generative Model for Portrait Video Generation Zhongcong Xu, Jianfeng Zhang, Jun Hao Liew, Wenqing Zhang, Song Bai, Jiashi Feng, Mike Zheng Shou

CVPR 2023 Position-Guided Text Prompt for Vision-Language Pre-Training Jinpeng Wang, Pan Zhou, Mike Zheng Shou, Shuicheng Yan

ICCV 2023 Revisiting Vision Transformer from the View of Path Ensemble Shuning Chang, Pichao Wang, Hao Luo, Fan Wang, Mike Zheng Shou

ICCV 2023 STPrivacy: Spatio-Temporal Privacy-Preserving Action Recognition Ming Li, Xiangyu Xu, Hehe Fan, Pan Zhou, Jun Liu, Jia-Wei Liu, Jiahe Li, Jussi Keppo, Mike Zheng Shou, Shuicheng Yan

AAAI 2023 Symbolic Replay: Scene Graph as Prompt for Continual Learning on VQA Task Stan Weixian Lei, Difei Gao, Jay Zhangjie Wu, Yuxuan Wang, Wei Liu, Mengmi Zhang, Mike Zheng Shou

ICCV 2023 Too Large; Data Reduction for Vision-Language Pre-Training Alex Jinpeng Wang, Kevin Qinghong Lin, David Junhao Zhang, Stan Weixian Lei, Mike Zheng Shou

CVPR 2023 Towards Fast Adaptation of Pretrained Contrastive Models for Multi-Channel Video-Language Retrieval Xudong Lin, Simran Tiwari, Shiyuan Huang, Manling Li, Mike Zheng Shou, Heng Ji, Shih-Fu Chang

ICCV 2023 Tune-a-Video: One-Shot Tuning of Image Diffusion Models for Text-to-Video Generation Jay Zhangjie Wu, Yixiao Ge, Xintao Wang, Stan Weixian Lei, Yuchao Gu, Yufei Shi, Wynne Hsu, Ying Shan, Xiaohu Qie, Mike Zheng Shou

ICCV 2023 UniVTG: Towards Unified Video-Language Temporal Grounding Kevin Qinghong Lin, Pengchuan Zhang, Joya Chen, Shraman Pramanick, Difei Gao, Alex Jinpeng Wang, Rui Yan, Mike Zheng Shou

ICCV 2023 Unsupervised Open-Vocabulary Object Localization in Videos Ke Fan, Zechen Bai, Tianjun Xiao, Dominik Zietlow, Max Horn, Zixu Zhao, Carl-Johann Simon-Gabriel, Mike Zheng Shou, Francesco Locatello, Bernt Schiele, Thomas Brox, Zheng Zhang, Yanwei Fu, Tong He

AAAI 2023 Video-Text Pre-Training with Learned Regions for Retrieval Rui Yan, Mike Zheng Shou, Yixiao Ge, Jinpeng Wang, Xudong Lin, Guanyu Cai, Jinhui Tang

NeurIPS 2023 XAGen: 3D Expressive Human Avatars Generation Zhongcong Xu, Jianfeng Zhang, Jun Hao Liew, Jiashi Feng, Mike Zheng Shou

ECCV 2022 AssistQ: Affordance-Centric Question-Driven Task Completion for Egocentric Assistant Benita Wong, Joya Chen, You Wu, Stan Weixian Lei, Dongxing Mao, Difei Gao, Mike Zheng Shou

NeurIPS 2022 DeVRF: Fast Deformable Voxel Radiance Fields for Dynamic Scenes Jia-Wei Liu, Yan-Pei Cao, Weijia Mao, Wenqiao Zhang, David Junhao Zhang, Jussi Keppo, Ying Shan, Xiaohu Qie, Mike Zheng Shou

CVPR 2022 Ego4D: Around the World in 3,000 Hours of Egocentric Video Kristen Grauman, Andrew Westbury, Eugene Byrne, Zachary Chavis, Antonino Furnari, Rohit Girdhar, Jackson Hamburger, Hao Jiang, Miao Liu, Xingyu Liu, Miguel Martin, Tushar Nagarajan, Ilija Radosavovic, Santhosh Kumar Ramakrishnan, Fiona Ryan, Jayant Sharma, Michael Wray, Mengmeng Xu, Eric Zhongcong Xu, Chen Zhao, Siddhant Bansal, Dhruv Batra, Vincent Cartillier, Sean Crane, Tien Do, Morrie Doulaty, Akshay Erapalli, Christoph Feichtenhofer, Adriano Fragomeni, Qichen Fu, Abrham Gebreselasie, Cristina González, James Hillis, Xuhua Huang, Yifei Huang, Wenqi Jia, Weslie Khoo, Jáchym Kolář, Satwik Kottur, Anurag Kumar, Federico Landini, Chao Li, Yanghao Li, Zhenqiang Li, Karttikeya Mangalam, Raghava Modhugu, Jonathan Munro, Tullie Murrell, Takumi Nishiyasu, Will Price, Paola Ruiz, Merey Ramazanova, Leda Sari, Kiran Somasundaram, Audrey Southerland, Yusuke Sugano, Ruijie Tao, Minh Vo, Yuchen Wang, Xindi Wu, Takuma Yagi, Ziwei Zhao, Yunyi Zhu, Pablo Arbeláez, David Crandall, Dima Damen, Giovanni Maria Farinella, Christian Fuegen, Bernard Ghanem, Vamsi Krishna Ithapu, C. V. Jawahar, Hanbyul Joo, Kris Kitani, Haizhou Li, Richard Newcombe, Aude Oliva, Hyun Soo Park, James M. Rehg, Yoichi Sato, Jianbo Shi, Mike Zheng Shou, Antonio Torralba, Lorenzo Torresani, Mingfei Yan, Jitendra Malik

NeurIPS 2022 Egocentric Video-Language Pretraining Kevin Qinghong Lin, Jinpeng Wang, Mattia Soldan, Michael Wray, Rui Yan, Eric Z. Xu, Difei Gao, Rong-Cheng Tu, Wenzhe Zhao, Weijie Kong, Chengfei Cai, Wang HongFa, Dima Damen, Bernard Ghanem, Wei Liu, Mike Zheng Shou

ECCV 2022 GEB+: A Benchmark for Generic Event Boundary Captioning, Grounding and Retrieval Yuxuan Wang, Difei Gao, Licheng Yu, Weixian Lei, Matt Feiszli, Mike Zheng Shou

ECCV 2022 MorphMLP: An Efficient MLP-like Backbone for Spatial-Temporal Representation Learning David Junhao Zhang, Kunchang Li, Yali Wang, Yunpeng Chen, Shashwat Chandra, Yu Qiao, Luoqi Liu, Mike Zheng Shou

CVPR 2022 Object-Aware Video-Language Pre-Training for Retrieval Jinpeng Wang, Yixiao Ge, Guanyu Cai, Rui Yan, Xudong Lin, Ying Shan, Xiaohu Qie, Mike Zheng Shou

CVPR 2022 Unified Transformer Tracker for Object Tracking Fan Ma, Mike Zheng Shou, Linchao Zhu, Haoqi Fan, Yilei Xu, Yi Yang, Zhicheng Yan

CVPR 2021 Actor-Context-Actor Relation Network for Spatio-Temporal Action Localization Junting Pan, Siyu Chen, Mike Zheng Shou, Yu Liu, Jing Shao, Hongsheng Li

ICCV 2021 Channel Augmented Joint Learning for Visible-Infrared Recognition Mang Ye, Weijian Ruan, Bo Du, Mike Zheng Shou

ICCV 2021 Generic Event Boundary Detection: A Benchmark for Event Segmentation Mike Zheng Shou, Stan Weixian Lei, Weiyao Wang, Deepti Ghadiyaram, Matt Feiszli

ICCV 2021 Searching for Two-Stream Models in Multivariate Space for Video Recognition Xinyu Gong, Heng Wang, Mike Zheng Shou, Matt Feiszli, Zhangyang Wang, Zhicheng Yan