Girdhar, Rohit

29 publications

ICML 2025 LLMs Can See and Hear Without Any Training Kumar Ashutosh, Yossi Gandelsman, Xinlei Chen, Ishan Misra, Rohit Girdhar

CVPR 2025 MotiF: Making Text Count in Image Animation with Motion Focal Loss Shijie Wang, Samaneh Azadi, Rohit Girdhar, Saketh Rambhatla, Chen Sun, Xi Yin

ECCV 2024 Factorizing Text-to-Video Generation by Explicit Image Conditioning Rohit Girdhar, Mannat Singh, Andrew Brown, Quentin Duval, Samaneh Azadi, Sai Saketh Rambhatla, Mian Akbar Shah, Xi Yin, Devi Parikh, Ishan Misra

CVPR 2024 Generating Illustrated Instructions Sachit Menon, Ishan Misra, Rohit Girdhar

CVPR 2024 InstanceDiffusion: Instance-Level Control for Image Generation Xudong Wang, Trevor Darrell, Sai Saketh Rambhatla, Rohit Girdhar, Ishan Misra

CVPR 2024 SoundingActions: Learning How Actions Sound from Narrated Egocentric Videos Changan Chen, Kumar Ashutosh, Rohit Girdhar, David Harwath, Kristen Grauman

CVPR 2024 VideoCutLER: Surprisingly Simple Unsupervised Video Instance Segmentation Xudong Wang, Ishan Misra, Ziyun Zeng, Rohit Girdhar, Trevor Darrell

CVPR 2023 Cut and Learn for Unsupervised Object Detection and Instance Segmentation Xudong Wang, Rohit Girdhar, Stella X. Yu, Ishan Misra

CVPR 2023 HierVL: Learning Hierarchical Video-Language Embeddings Kumar Ashutosh, Rohit Girdhar, Lorenzo Torresani, Kristen Grauman

CVPR 2023 ImageBind: One Embedding Space to Bind Them All Rohit Girdhar, Alaaeldin El-Nouby, Zhuang Liu, Mannat Singh, Kalyan Vasudev Alwala, Armand Joulin, Ishan Misra

CVPR 2023 Learning Video Representations from Large Language Models Yue Zhao, Ishan Misra, Philipp Krähenbühl, Rohit Girdhar

CVPR 2023 OmniMAE: Single Model Masked Pretraining on Images and Videos Rohit Girdhar, Alaaeldin El-Nouby, Mannat Singh, Kalyan Vasudev Alwala, Armand Joulin, Ishan Misra

ICCV 2023 The Effectiveness of MAE Pre-Pretraining for Billion-Scale Pretraining Mannat Singh, Quentin Duval, Kalyan Vasudev Alwala, Haoqi Fan, Vaibhav Aggarwal, Aaron Adcock, Armand Joulin, Piotr Dollar, Christoph Feichtenhofer, Ross Girshick, Rohit Girdhar, Ishan Misra

ECCV 2022 Detecting Twenty-Thousand Classes Using Image-Level Supervision Xingyi Zhou, Rohit Girdhar, Armand Joulin, Philipp Krähenbühl, Ishan Misra

CVPR 2022 Ego4D: Around the World in 3,000 Hours of Egocentric Video Kristen Grauman, Andrew Westbury, Eugene Byrne, Zachary Chavis, Antonino Furnari, Rohit Girdhar, Jackson Hamburger, Hao Jiang, Miao Liu, Xingyu Liu, Miguel Martin, Tushar Nagarajan, Ilija Radosavovic, Santhosh Kumar Ramakrishnan, Fiona Ryan, Jayant Sharma, Michael Wray, Mengmeng Xu, Eric Zhongcong Xu, Chen Zhao, Siddhant Bansal, Dhruv Batra, Vincent Cartillier, Sean Crane, Tien Do, Morrie Doulaty, Akshay Erapalli, Christoph Feichtenhofer, Adriano Fragomeni, Qichen Fu, Abrham Gebreselasie, Cristina González, James Hillis, Xuhua Huang, Yifei Huang, Wenqi Jia, Weslie Khoo, Jáchym Kolář, Satwik Kottur, Anurag Kumar, Federico Landini, Chao Li, Yanghao Li, Zhenqiang Li, Karttikeya Mangalam, Raghava Modhugu, Jonathan Munro, Tullie Murrell, Takumi Nishiyasu, Will Price, Paola Ruiz, Merey Ramazanova, Leda Sari, Kiran Somasundaram, Audrey Southerland, Yusuke Sugano, Ruijie Tao, Minh Vo, Yuchen Wang, Xindi Wu, Takuma Yagi, Ziwei Zhao, Yunyi Zhu, Pablo Arbeláez, David Crandall, Dima Damen, Giovanni Maria Farinella, Christian Fuegen, Bernard Ghanem, Vamsi Krishna Ithapu, C. V. Jawahar, Hanbyul Joo, Kris Kitani, Haizhou Li, Richard Newcombe, Aude Oliva, Hyun Soo Park, James M. Rehg, Yoichi Sato, Jianbo Shi, Mike Zheng Shou, Antonio Torralba, Lorenzo Torresani, Mingfei Yan, Jitendra Malik

CVPR 2022 Masked-Attention Mask Transformer for Universal Image Segmentation Bowen Cheng, Ishan Misra, Alexander G. Schwing, Alexander Kirillov, Rohit Girdhar

CVPR 2022 Omnivore: A Single Model for Many Visual Modalities Rohit Girdhar, Mannat Singh, Nikhila Ravi, Laurens van der Maaten, Armand Joulin, Ishan Misra

CVPR 2021 3D Spatial Recognition Without Spatially Labeled 3D Zhongzheng Ren, Ishan Misra, Alexander G. Schwing, Rohit Girdhar

ICCV 2021 An End-to-End Transformer Model for 3D Object Detection Ishan Misra, Rohit Girdhar, Armand Joulin

ICCV 2021 Anticipative Video Transformer Rohit Girdhar, Kristen Grauman

ICCV 2021 Self-Supervised Pretraining of 3D Features on Any Point-Cloud Zaiwei Zhang, Rohit Girdhar, Armand Joulin, Ishan Misra

ICLR 2020 CATER: A Diagnostic Dataset for Compositional Actions & TEmporal Reasoning Rohit Girdhar, Deva Ramanan

ICLR 2020 MetaPix: Few-Shot Video Retargeting Jessica Lee, Deva Ramanan, Rohit Girdhar

ICCVW 2019 Are We Asking the Right Questions in MovieQA? Bhavan Jasani, Rohit Girdhar, Deva Ramanan

CVPR 2017 ActionVLAD: Learning Spatio-Temporal Aggregation for Action Classification Rohit Girdhar, Deva Ramanan, Abhinav Gupta, Josef Sivic, Bryan Russell

NeurIPS 2017 Attentional Pooling for Action Recognition Rohit Girdhar, Deva Ramanan

CVPR 2017 Binge Watching: Scaling Affordance Learning from Sitcoms Xiaolong Wang, Rohit Girdhar, Abhinav Gupta

WACV 2016 Cutting Through the Clutter: Task-Relevant Features for Image Matching Rohit Girdhar, David F. Fouhey, Kris M. Kitani, Abhinav Gupta, Martial Hebert

ECCV 2016 Learning a Predictable and Generative Vector Representation for Objects Rohit Girdhar, David F. Fouhey, Mikel Rodriguez, Abhinav Gupta