Lin, Xudong

21 publications

ECCV 2024 BLINK: Multimodal Large Language Models Can See but Not Perceive Xingyu Fu, Yushi Hu, Bangzheng Li, Yu Feng, Haoyu Wang, Xudong Lin, Dan Roth, Noah A Smith, Wei-Chiu Ma, Ranjay Krishna

AAAI 2024 Beyond Grounding: Extracting Fine-Grained Event Hierarchies Across Modalities Hammad A. Ayyubi, Christopher Thomas, Lovish Chum, Rahul Lokesh, Long Chen, Yulei Niu, Xudong Lin, Xuande Feng, Jaywon Koo, Sounak Ray, Shih-Fu Chang

ICLR 2024 SCHEMA: State CHangEs MAtter for Procedure Planning in Instructional Videos Yulei Niu, Wenliang Guo, Long Chen, Xudong Lin, Shih-Fu Chang

CVPR 2023 All in One: Exploring Unified Video-Language Pre-Training Jinpeng Wang, Yixiao Ge, Rui Yan, Yuying Ge, Kevin Qinghong Lin, Satoshi Tsutsui, Xudong Lin, Guanyu Cai, Jianping Wu, Ying Shan, Xiaohu Qie, Mike Zheng Shou

CVPRW 2023 In Defense of Structural Symbolic Representation for Video Event-Relation Prediction Andrew Lu, Xudong Lin, Yulei Niu, Shih-Fu Chang

CVPRW 2023 Language Models Are Causal Knowledge Extractors for Zero-Shot Video Question Answering Hung-Ting Su, Yulei Niu, Xudong Lin, Winston H. Hsu, Shih-Fu Chang

ICLR 2023 Learning to Decompose Visual Features with Latent Textual Prompts Feng Wang, Manling Li, Xudong Lin, Hairong Lv, Alex Schwing, Heng Ji

CVPR 2023 Supervised Masked Knowledge Distillation for Few-Shot Transformers Han Lin, Guangxing Han, Jiawei Ma, Shiyuan Huang, Xudong Lin, Shih-Fu Chang

ICLR 2023 TempCLR: Temporal Alignment Representation with Contrastive Learning Yuncong Yang, Jiawei Ma, Shiyuan Huang, Long Chen, Xudong Lin, Guangxing Han, Shih-Fu Chang

CVPR 2023 Towards Fast Adaptation of Pretrained Contrastive Models for Multi-Channel Video-Language Retrieval Xudong Lin, Simran Tiwari, Shiyuan Huang, Manling Li, Mike Zheng Shou, Heng Ji, Shih-Fu Chang

AAAI 2023 Video Event Extraction via Tracking Visual States of Arguments Guang Yang, Manling Li, Jiajie Zhang, Xudong Lin, Heng Ji, Shih-Fu Chang

AAAI 2023 Video-Text Pre-Training with Learned Regions for Retrieval Rui Yan, Mike Zheng Shou, Yixiao Ge, Jinpeng Wang, Xudong Lin, Guanyu Cai, Jinhui Tang

CVPR 2022 CLIP-Event: Connecting Text and Images with Event Structures Manling Li, Ruochen Xu, Shuohang Wang, Luowei Zhou, Xudong Lin, Chenguang Zhu, Michael Zeng, Heng Ji, Shih-Fu Chang

NeurIPS 2022 Language Models with Image Descriptors Are Strong Few-Shot Video-Language Learners Zhenhailong Wang, Manling Li, Ruochen Xu, Luowei Zhou, Jie Lei, Xudong Lin, Shuohang Wang, Ziyi Yang, Chenguang Zhu, Derek Hoiem, Shih-Fu Chang, Mohit Bansal, Heng Ji

CVPR 2022 Learning to Recognize Procedural Activities with Distant Supervision Xudong Lin, Fabio Petroni, Gedas Bertasius, Marcus Rohrbach, Shih-Fu Chang, Lorenzo Torresani

AAAI 2022 MuMuQA: Multimedia Multi-Hop News Question Answering via Cross-Media Knowledge Extraction and Grounding Revanth Gangi Reddy, Xilin Rui, Manling Li, Xudong Lin, Haoyang Wen, Jaemin Cho, Lifu Huang, Mohit Bansal, Avirup Sil, Shih-Fu Chang, Alexander G. Schwing, Heng Ji

CVPR 2022 Object-Aware Video-Language Pre-Training for Retrieval Jinpeng Wang, Yixiao Ge, Guanyu Cai, Rui Yan, Xudong Lin, Ying Shan, Xiaohu Qie, Mike Zheng Shou

CVPR 2021 Co-Grounding Networks with Semantic Attention for Referring Expression Comprehension in Videos Sijie Song, Xudong Lin, Jiaying Liu, Zongming Guo, Shih-Fu Chang

CVPR 2021 Vx2Text: End-to-End Learning of Video-Based Text Generation from Multimodal Inputs Xudong Lin, Gedas Bertasius, Jue Wang, Shih-Fu Chang, Devi Parikh, Lorenzo Torresani

ECCV 2020 Context-Gated Convolution Xudong Lin, Lin Ma, Wei Liu, Shih-Fu Chang

ECCV 2018 Deep Variational Metric Learning Xudong Lin, Yueqi Duan, Qiyuan Dong, Jiwen Lu, Jie Zhou