Gao, Difei

20 publications

ICCV 2025 Factorized Learning for Temporally Grounded Video-Language Models Wenzheng Zeng, Difei Gao, Mike Zheng Shou, Hwee Tou Ng

ICLR 2025 Grounding Multimodal Large Language Model in GUI World Weixian Lei, Difei Gao, Mike Zheng Shou

CVPR 2025 ShowUI: One Vision-Language-Action Model for GUI Visual Agent Kevin Qinghong Lin, Linjie Li, Difei Gao, Zhengyuan Yang, Shiwei Wu, Zechen Bai, Stan Weixian Lei, Lijuan Wang, Mike Zheng Shou

CVPR 2024 AssistGUI: Task-Oriented PC Graphical User Interface Automation Difei Gao, Lei Ji, Zechen Bai, Mingyu Ouyang, Peiran Li, Dongxing Mao, Qinchen Wu, Weichen Zhang, Peiyi Wang, Xiangwu Guo, Hengxu Wang, Luowei Zhou, Mike Zheng Shou

IJCAI 2024 Delocate: Detection and Localization for Deepfake Videos with Randomly-Located Tampered Traces Juan Hu, Xin Liao, Difei Gao, Satoshi Tsutsui, Qian Wang, Zheng Qin, Mike Zheng Shou

NeurIPS 2024 LOVA3: Learning to Visual Question Answering, Asking and Assessment Henry Hengyuan Zhao, Pan Zhou, Difei Gao, Zechen Bai, Mike Zheng Shou

ECCV 2024 Learning Video Context as Interleaved Multimodal Sequences Kevin Qinghong Lin, Pengchuan Zhang, Difei Gao, Xide Xia, Joya Chen, Ziteng Gao, Jinheng Xie, Xuhong Xiao, Mike Zheng Shou

NeurIPSW 2024 ShowUI: One Vision-Language-Action Model for Generalist GUI Agent Kevin Qinghong Lin, Linjie Li, Difei Gao, Zhengyuan Yang, Zechen Bai, Weixian Lei, Lijuan Wang, Mike Zheng Shou

CVPR 2024 ViT-Lens: Towards Omni-Modal Representations Weixian Lei, Yixiao Ge, Kun Yi, Jianfeng Zhang, Difei Gao, Dylan Sun, Yuying Ge, Ying Shan, Mike Zheng Shou

NeurIPS 2024 VideoGUI: A Benchmark for GUI Automation from Instructional Videos Kevin Qinghong Lin, Linjie Li, Difei Gao, Qinchen Wu, Mingyi Yan, Zhengyuan Yang, Lijuan Wang, Mike Zheng Shou

CVPR 2024 VideoLLM-Online: Online Video Large Language Model for Streaming Video Joya Chen, Zhaoyang Lv, Shiwei Wu, Kevin Qinghong Lin, Chenan Song, Difei Gao, Jia-Wei Liu, Ziteng Gao, Dongxing Mao, Mike Zheng Shou

CVPR 2023 Affordance Grounding from Demonstration Video to Target Image Joya Chen, Difei Gao, Kevin Qinghong Lin, Mike Zheng Shou

ICCV 2023 Learning to Learn: How to Continuously Teach Humans and Machines Parantak Singh, You Li, Ankur Sikarwar, Stan Weixian Lei, Difei Gao, Morgan B. Talbot, Ying Sun, Mike Zheng Shou, Gabriel Kreiman, Mengmi Zhang

CVPR 2023 MIST: Multi-Modal Iterative Spatial-Temporal Transformer for Long-Form Video Question Answering Difei Gao, Luowei Zhou, Lei Ji, Linchao Zhu, Yi Yang, Mike Zheng Shou

AAAI 2023 Symbolic Replay: Scene Graph as Prompt for Continual Learning on VQA Task Stan Weixian Lei, Difei Gao, Jay Zhangjie Wu, Yuxuan Wang, Wei Liu, Mengmi Zhang, Mike Zheng Shou

ICCV 2023 UniVTG: Towards Unified Video-Language Temporal Grounding Kevin Qinghong Lin, Pengchuan Zhang, Joya Chen, Shraman Pramanick, Difei Gao, Alex Jinpeng Wang, Rui Yan, Mike Zheng Shou

ECCV 2022 AssistQ: Affordance-Centric Question-Driven Task Completion for Egocentric Assistant Benita Wong, Joya Chen, You Wu, Stan Weixian Lei, Dongxing Mao, Difei Gao, Mike Zheng Shou

NeurIPS 2022 Egocentric Video-Language Pretraining Kevin Qinghong Lin, Jinpeng Wang, Mattia Soldan, Michael Wray, Rui Yan, Eric Z. Xu, Difei Gao, Rong-Cheng Tu, Wenzhe Zhao, Weijie Kong, Chengfei Cai, Wang HongFa, Dima Damen, Bernard Ghanem, Wei Liu, Mike Zheng Shou

ECCV 2022 GEB+: A Benchmark for Generic Event Boundary Captioning, Grounding and Retrieval Yuxuan Wang, Difei Gao, Licheng Yu, Weixian Lei, Matt Feiszli, Mike Zheng Shou

ICCV 2021 Env-QA: A Video Question Answering Benchmark for Comprehensive Understanding of Dynamic Environments Difei Gao, Ruiping Wang, Ziyi Bai, Xilin Chen