Hu, Ronghang

18 publications

ICLR 2025 SAM 2: Segment Anything in Images and Videos Nikhila Ravi, Valentin Gabeur, Yuan-Ting Hu, Ronghang Hu, Chaitanya Ryali, Tengyu Ma, Haitham Khedr, Roman Rädle, Chloe Rolland, Laura Gustafson, Eric Mintun, Junting Pan, Kalyan Vasudev Alwala, Nicolas Carion, Chao-Yuan Wu, Ross Girshick, Piotr Dollar, Christoph Feichtenhofer

CVPR 2023 ConvNeXt V2: Co-Designing and Scaling ConvNets with Masked Autoencoders Sanghyun Woo, Shoubhik Debnath, Ronghang Hu, Xinlei Chen, Zhuang Liu, In So Kweon, Saining Xie

CVPR 2023 Scaling Language-Image Pre-Training via Masking Yanghao Li, Haoqi Fan, Ronghang Hu, Christoph Feichtenhofer, Kaiming He

ICCV 2023 UniT3D: A Unified Transformer for 3D Dense Captioning and Visual Grounding Zhenyu Chen, Ronghang Hu, Xinlei Chen, Matthias Nießner, Angel X. Chang

CVPR 2022 FLAVA: A Foundational Language and Vision Alignment Model Amanpreet Singh, Ronghang Hu, Vedanuj Goswami, Guillaume Couairon, Wojciech Galuba, Marcus Rohrbach, Douwe Kiela

ICCV 2021 UniT: Multimodal Multitask Learning with a Unified Transformer Ronghang Hu, Amanpreet Singh

ICCV 2021 Worldsheet: Wrapping the World in a 3D Sheet for View Synthesis from a Single Image Ronghang Hu, Nikhila Ravi, Alexander C. Berg, Deepak Pathak

ECCV 2020 TextCaps: A Dataset for Image Captioning with Reading Comprehension Oleksii Sidorov, Ronghang Hu, Marcus Rohrbach, Amanpreet Singh

ECCV 2018 Explainable Neural Computation via Stack Neural Module Networks Ronghang Hu, Jacob Andreas, Trevor Darrell, Kate Saenko

ECCV 2018 Grounding Visual Explanations Lisa Anne Hendricks, Ronghang Hu, Trevor Darrell, Zeynep Akata

NeurIPS 2018 Speaker-Follower Models for Vision-and-Language Navigation Daniel Fried, Ronghang Hu, Volkan Cirik, Anna Rohrbach, Jacob Andreas, Louis-Philippe Morency, Taylor Berg-Kirkpatrick, Kate Saenko, Dan Klein, Trevor Darrell

ICCV 2017 Learning to Reason: End-to-End Module Networks for Visual Question Answering Ronghang Hu, Jacob Andreas, Marcus Rohrbach, Trevor Darrell, Kate Saenko

CVPR 2017 Modeling Relationships in Referential Expressions with Compositional Modular Networks Ronghang Hu, Marcus Rohrbach, Jacob Andreas, Trevor Darrell, Kate Saenko

ECCV 2016 Grounding of Textual Phrases in Images by Reconstruction Anna Rohrbach, Marcus Rohrbach, Ronghang Hu, Trevor Darrell, Bernt Schiele

CVPR 2016 Natural Language Object Retrieval Ronghang Hu, Huazhe Xu, Marcus Rohrbach, Jiashi Feng, Kate Saenko, Trevor Darrell

ECCV 2016 Segmentation from Natural Language Expressions Ronghang Hu, Marcus Rohrbach, Trevor Darrell

ICCV 2015 Spatial Semantic Regularisation for Large Scale Object Detection Damian Mrowca, Marcus Rohrbach, Judy Hoffman, Ronghang Hu, Kate Saenko, Trevor Darrell

NeurIPS 2014 LSDA: Large Scale Detection Through Adaptation Judy Hoffman, Sergio Guadarrama, Eric S Tzeng, Ronghang Hu, Jeff Donahue, Ross Girshick, Trevor Darrell, Kate Saenko