Bertasius, Gedas

41 publications

TMLR 2026 SiLVR: A Simple Language-Based Video Reasoning Framework Ce Zhang, Yan-Bo Lin, Ziyang Wang, Mohit Bansal, Gedas Bertasius

CVPR 2025 BASKET: A Large-Scale Video Dataset for Fine-Grained Skill Estimation Yulu Pan, Ce Zhang, Gedas Bertasius

CVPR 2025 BIMBA: Selective-Scan Compression for Long-Range Video Question Answering Md Mohaiminul Islam, Tushar Nagarajan, Huiyu Wang, Gedas Bertasius, Lorenzo Torresani

WACV 2025 DAM: Dynamic Adapter Merging for Continual Video QA Learning Feng Cheng, Ziyang Wang, Yi-Lin Sung, Yan-Bo Lin, Mohit Bansal, Gedas Bertasius

NeurIPS 2025 ExAct: A Video-Language Benchmark for Expert Action Analysis Han Yi, Yulu Pan, Feihong He, Xinyu Liu, Benjamin Zhang, Oluwatumininu Oguntola, Gedas Bertasius

NeurIPS 2025 ReAgent-V: A Reward-Driven Multi-Agent Framework for Video Understanding Yiyang Zhou, Yangfan He, Yaofeng Su, Siwei Han, Joel Jang, Gedas Bertasius, Mohit Bansal, Huaxiu Yao

CVPR 2025 ReVisionLLM: Recursive Vision-Language Model for Temporal Grounding in Hour-Long Videos Tanveer Hannan, Md Mohaiminul Islam, Jindong Gu, Thomas Seidl, Gedas Bertasius

WACV 2025 VMAs: Video-to-Music Generation via Semantic Alignment in Web Music Videos Yan-Bo Lin, Yu Tian, Linjie Yang, Gedas Bertasius, Heng Wang

CVPR 2025 VideoTree: Adaptive Tree-Based Video Representation for LLM Reasoning on Long Videos Ziyang Wang, Shoubin Yu, Elias Stengel-Eskin, Jaehong Yoon, Feng Cheng, Gedas Bertasius, Mohit Bansal

ECCV 2024 4Diff: 3D-Aware Diffusion Model for Third-to-First Viewpoint Translation Feng Cheng, Mi Luo, Huiyu Wang, Alex Dimakis, Lorenzo Torresani, Gedas Bertasius, Kristen Grauman

CVPRW 2024 Building Secure and Engaging Video Communication by Using Monitor Illumination Jun Myeong Choi, Johnathan Chi-Ho Leung, Noah Frahm, Max Christman, Gedas Bertasius, Roni Sengupta

CVPR 2024 Ego-Exo4D: Understanding Skilled Human Activity from First- and Third-Person Perspectives Kristen Grauman, Andrew Westbury, Lorenzo Torresani, Kris Kitani, Jitendra Malik, Triantafyllos Afouras, Kumar Ashutosh, Vijay Baiyya, Siddhant Bansal, Bikram Boote, Eugene Byrne, Zach Chavis, Joya Chen, Feng Cheng, Fu-Jen Chu, Sean Crane, Avijit Dasgupta, Jing Dong, Maria Escobar, Cristhian Forigua, Abrham Gebreselasie, Sanjay Haresh, Jing Huang, Md Mohaiminul Islam, Suyog Jain, Rawal Khirodkar, Devansh Kukreja, Kevin J Liang, Jia-Wei Liu, Sagnik Majumder, Yongsen Mao, Miguel Martin, Effrosyni Mavroudi, Tushar Nagarajan, Francesco Ragusa, Santhosh Kumar Ramakrishnan, Luigi Seminara, Arjun Somayazulu, Yale Song, Shan Su, Zihui Xue, Edward Zhang, Jinxu Zhang, Angela Castillo, Changan Chen, Xinzhu Fu, Ryosuke Furuta, Cristina Gonzalez, Prince Gupta, Jiabo Hu, Yifei Huang, Yiming Huang, Weslie Khoo, Anush Kumar, Robert Kuo, Sach Lakhavani, Miao Liu, Mi Luo, Zhengyi Luo, Brighid Meredith, Austin Miller, Oluwatumininu Oguntola, Xiaqing Pan, Penny Peng, Shraman Pramanick, Merey Ramazanova, Fiona Ryan, Wei Shan, Kiran Somasundaram, Chenan Song, Audrey Southerland, Masatoshi Tateno, Huiyu Wang, Yuchen Wang, Takuma Yagi, Mingfei Yan, Xitong Yang, Zecheng Yu, Shengxin Cindy Zha, Chen Zhao, Ziwei Zhao, Zhifan Zhu, Jeff Zhuo, Pablo Arbelaez, Gedas Bertasius, Dima Damen, Jakob Engel, Giovanni Maria Farinella, Antonino Furnari, Bernard Ghanem, Judy Hoffman, C.V. Jawahar, Richard Newcombe, Hyun Soo Park, James M. Rehg, Yoichi Sato, Manolis Savva, Jianbo Shi, Mike Zheng Shou, Michael Wray

CVPR 2024 LoCoNet: Long-Short Context Network for Active Speaker Detection Xizi Wang, Feng Cheng, Gedas Bertasius

ECCV 2024 Propose, Assess, Search: Harnessing LLMs for Goal-Oriented Planning in Instructional Videos Md Mohaiminul Islam, Tushar Nagarajan, Huiyu Wang, Fu-Jen Chu, Kris Kitani, Gedas Bertasius, Xitong Yang

ECCV 2024 RGNet: A Unified CLIP Retrieval and Grounding Network for Long Videos Tanveer Hannan, Md Mohaiminul Islam, Thomas Seidl, Gedas Bertasius

ECCV 2024 Siamese Vision Transformers Are Scalable Audio-Visual Learners Yan-Bo Lin, Gedas Bertasius

CVPR 2024 Video ReCap: Recursive Captioning of Hour-Long Videos Md Mohaiminul Islam, Ngan Ho, Xitong Yang, Tushar Nagarajan, Lorenzo Torresani, Gedas Bertasius

CVPR 2023 Efficient Movie Scene Detection Using State-Space Transformers Md Mohaiminul Islam, Mahmudul Hasan, Kishan Shamsundar Athrey, Tony Braskich, Gedas Bertasius

ICCV 2023 SimpleClick: Interactive Image Segmentation with Simple Vision Transformers Qin Liu, Zhenlin Xu, Gedas Bertasius, Marc Niethammer

ICCV 2023 Unified Coarse-to-Fine Alignment for Video-Text Retrieval Ziyang Wang, Yi-Lin Sung, Feng Cheng, Gedas Bertasius, Mohit Bansal

CVPR 2023 VindLU: A Recipe for Effective Video-and-Language Pretraining Feng Cheng, Xizi Wang, Jie Lei, David Crandall, Mohit Bansal, Gedas Bertasius

CVPR 2023 Vision Transformers Are Parameter-Efficient Audio-Visual Learners Yan-Bo Lin, Yi-Lin Sung, Jie Lei, Mohit Bansal, Gedas Bertasius

ECCV 2022 ECLIPSE: Efficient Long-Range Video Retrieval Using Sight and Sound Yan-Bo Lin, Jie Lei, Mohit Bansal, Gedas Bertasius

CVPR 2022 Learning to Recognize Procedural Activities with Distant Supervision Xudong Lin, Fabio Petroni, Gedas Bertasius, Marcus Rohrbach, Shih-Fu Chang, Lorenzo Torresani

ECCV 2022 Long Movie CLIP Classification with State-Space Video Models Md Mohaiminul Islam, Gedas Bertasius

CVPR 2022 Long-Short Temporal Contrastive Learning of Video Transformers Jue Wang, Gedas Bertasius, Du Tran, Lorenzo Torresani

ECCV 2022 TALLFormer: Temporal Action Localization with a Long-Memory Transformer Feng Cheng, Gedas Bertasius

ICML 2021 Is Space-Time Attention All You Need for Video Understanding? Gedas Bertasius, Heng Wang, Lorenzo Torresani

WACV 2021 Supervoxel Attention Graphs for Long-Range Video Modeling Yang Wang, Gedas Bertasius, Tae-Hyun Oh, Abhinav Gupta, Minh Hoai, Lorenzo Torresani

CVPR 2021 Vx2Text: End-to-End Learning of Video-Based Text Generation from Multimodal Inputs Xudong Lin, Gedas Bertasius, Jue Wang, Shih-Fu Chang, Devi Parikh, Lorenzo Torresani

NeurIPS 2020 COBE: Contextualized Object Embeddings from Narrated Instructional Video Gedas Bertasius, Lorenzo Torresani

NeurIPS 2019 Learning Temporal Pose Estimation from Sparsely-Labeled Videos Gedas Bertasius, Christoph Feichtenhofer, Du Tran, Jianbo Shi, Lorenzo Torresani

ECCV 2018 Object Detection in Video with Spatiotemporal Sampling Networks Gedas Bertasius, Lorenzo Torresani, Jianbo Shi

ICCV 2017 Am I a Baller? Basketball Performance Assessment from First-Person Videos Gedas Bertasius, Hyun Soo Park, Stella X. Yu, Jianbo Shi

CVPR 2017 Convolutional Random Walk Networks for Semantic Image Segmentation Gedas Bertasius, Lorenzo Torresani, Stella X. Yu, Jianbo Shi

AISTATS 2017 Local Perturb-and-MAP for Structured Prediction Gedas Bertasius, Qiang Liu, Lorenzo Torresani, Jianbo Shi

ICCV 2017 Unsupervised Learning of Important Objects from First-Person Videos Gedas Bertasius, Hyun Soo Park, Stella X. Yu, Jianbo Shi

ICCVW 2017 Using Cross-Model EgoSupervision to Learn Cooperative Basketball Intention Jianbo Shi, Gedas Bertasius

CVPR 2016 Semantic Segmentation with Boundary Neural Fields Gedas Bertasius, Jianbo Shi, Lorenzo Torresani

CVPR 2015 DeepEdge: A Multi-Scale Bifurcated Deep Network for Top-Down Contour Detection Gedas Bertasius, Jianbo Shi, Lorenzo Torresani

ICCV 2015 High-for-Low and Low-for-High: Efficient Boundary Detection from Deep Object Features and Its Applications to High-Level Vision Gedas Bertasius, Jianbo Shi, Lorenzo Torresani