Tan, Reuben

11 publications

NeurIPS 2025 GUI-Actor: Coordinate-Free Visual Grounding for GUI Agents Qianhui Wu, Kanzhi Cheng, Rui Yang, Chaoyun Zhang, Jianwei Yang, Huiqiang Jiang, Jian Mu, Baolin Peng, Bo Qiao, Reuben Tan, Si Qin, Lars Liden, Qingwei Lin, Huan Zhang, Tong Zhang, Jianbing Zhang, Dongmei Zhang, Jianfeng Gao

ICLR 2025 Latent Action Pretraining from Videos Seonghyeon Ye, Joel Jang, Byeongguk Jeon, Se June Joo, Jianwei Yang, Baolin Peng, Ajay Mandlekar, Reuben Tan, Yu-Wei Chao, Bill Yuchen Lin, Lars Liden, Kimin Lee, Jianfeng Gao, Luke Zettlemoyer, Dieter Fox, Minjoon Seo

CVPR 2025 Magma: A Foundation Model for Multimodal AI Agents Jianwei Yang, Reuben Tan, Qianhui Wu, Ruijie Zheng, Baolin Peng, Yongyuan Liang, Yu Gu, Mu Cai, Seonghyeon Ye, Joel Jang, Yuquan Deng, Jianfeng Gao

NeurIPS 2025 MindJourney: Test-Time Scaling with World Models for Spatial Reasoning Yuncong Yang, Jiageng Liu, Zheyuan Zhang, Siyuan Zhou, Reuben Tan, Jianwei Yang, Yilun Du, Chuang Gan

ICCV 2025 SITE: Towards Spatial Intelligence Thorough Evaluation Wenqi Wang, Reuben Tan, Pengyue Zhu, Jianwei Yang, Zhengyuan Yang, Lijuan Wang, Andrey Kolobov, Jianfeng Gao, Boqing Gong

CVPR 2024 Koala: Key Frame-Conditioned Long Video-LLM Reuben Tan, Ximeng Sun, Ping Hu, Jui-hsien Wang, Hanieh Deilamsalehy, Bryan A. Plummer, Bryan Russell, Kate Saenko

NeurIPSW 2024 TemporalBench: Benchmarking Fine-Grained Temporal Understanding for Multimodal Video Models Mu Cai, Reuben Tan, Jianrui Zhang, Bocheng Zou, Kai Zhang, Yao Feng, Fangrui Zhu, Jing Gu, Yiwu Zhong, Yuzhang Shang, Yao Dou, Jaden Park, Jianfeng Gao, Yong Jae Lee, Jianwei Yang

CVPR 2023 Language-Guided Audio-Visual Source Separation via Trimodal Consistency Reuben Tan, Arijit Ray, Andrea Burns, Bryan A. Plummer, Justin Salamon, Oriol Nieto, Bryan Russell, Kate Saenko

ECCV 2022 NewsStories: Illustrating Articles with Visual Summaries Reuben Tan, Bryan A. Plummer, Kate Saenko, Jp Lewis, Avneesh Sud, Thomas Leung

WACV 2021 LoGAN: Latent Graph Co-Attention Network for Weakly-Supervised Video Moment Retrieval Reuben Tan, Huijuan Xu, Kate Saenko, Bryan A. Plummer

NeurIPS 2021 Look at What I’m Doing: Self-Supervised Spatial Grounding of Narrations in Instructional Videos Reuben Tan, Bryan Plummer, Kate Saenko, Hailin Jin, Bryan Russell