Song, Yale

36 publications

ICCV 2025 Enrich and Detect: Video Temporal Grounding with Multimodal LLMs Shraman Pramanick, Effrosyni Mavroudi, Yale Song, Rama Chellappa, Lorenzo Torresani, Triantafyllos Afouras

NeurIPS 2025 PerceptionLM: Open-Access Data and Models for Detailed Visual Understanding Jang Hyun Cho, Andrea Madotto, Effrosyni Mavroudi, Triantafyllos Afouras, Tushar Nagarajan, Muhammad Maaz, Yale Song, Tengyu Ma, Shuming Hu, Suyog Jain, Miguel Martin, Huiyu Wang, Hanoona Abdul Rasheed, Peize Sun, Po-Yao Huang, Daniel Bolya, Nikhila Ravi, Shashank Jain, Tammy Stark, Seungwhan Moon, Babak Damavandi, Vivian Lee, Andrew Westbury, Salman Khan, Philipp Kraehenbuehl, Piotr Dollar, Lorenzo Torresani, Kristen Grauman, Christoph Feichtenhofer

ICCV 2025 Streaming VideoLLMs for Real-Time Procedural Video Understanding Dibyadip Chatterjee, Edoardo Remelli, Yale Song, Bugra Tekin, Abhay Mittal, Bharat Bhatnagar, Necati Cihan Camgoz, Shreyas Hampali, Eric Sauser, Shugao Ma, Angela Yao, Fadime Sener

CVPR 2025 VITED: Video Temporal Evidence Distillation Yujie Lu, Yale Song, William Wang, Lorenzo Torresani, Tushar Nagarajan

CVPR 2024 Ego-Exo4D: Understanding Skilled Human Activity from First- and Third-Person Perspectives Kristen Grauman, Andrew Westbury, Lorenzo Torresani, Kris Kitani, Jitendra Malik, Triantafyllos Afouras, Kumar Ashutosh, Vijay Baiyya, Siddhant Bansal, Bikram Boote, Eugene Byrne, Zach Chavis, Joya Chen, Feng Cheng, Fu-Jen Chu, Sean Crane, Avijit Dasgupta, Jing Dong, Maria Escobar, Cristhian Forigua, Abrham Gebreselasie, Sanjay Haresh, Jing Huang, Md Mohaiminul Islam, Suyog Jain, Rawal Khirodkar, Devansh Kukreja, Kevin J Liang, Jia-Wei Liu, Sagnik Majumder, Yongsen Mao, Miguel Martin, Effrosyni Mavroudi, Tushar Nagarajan, Francesco Ragusa, Santhosh Kumar Ramakrishnan, Luigi Seminara, Arjun Somayazulu, Yale Song, Shan Su, Zihui Xue, Edward Zhang, Jinxu Zhang, Angela Castillo, Changan Chen, Xinzhu Fu, Ryosuke Furuta, Cristina Gonzalez, Prince Gupta, Jiabo Hu, Yifei Huang, Yiming Huang, Weslie Khoo, Anush Kumar, Robert Kuo, Sach Lakhavani, Miao Liu, Mi Luo, Zhengyi Luo, Brighid Meredith, Austin Miller, Oluwatumininu Oguntola, Xiaqing Pan, Penny Peng, Shraman Pramanick, Merey Ramazanova, Fiona Ryan, Wei Shan, Kiran Somasundaram, Chenan Song, Audrey Southerland, Masatoshi Tateno, Huiyu Wang, Yuchen Wang, Takuma Yagi, Mingfei Yan, Xitong Yang, Zecheng Yu, Shengxin Cindy Zha, Chen Zhao, Ziwei Zhao, Zhifan Zhu, Jeff Zhuo, Pablo Arbelaez, Gedas Bertasius, Dima Damen, Jakob Engel, Giovanni Maria Farinella, Antonino Furnari, Bernard Ghanem, Judy Hoffman, C.V. Jawahar, Richard Newcombe, Hyun Soo Park, James M. Rehg, Yoichi Sato, Manolis Savva, Jianbo Shi, Mike Zheng Shou, Michael Wray

NeurIPS 2023 Ego4D Goal-Step: Toward Hierarchical Understanding of Procedural Activities Yale Song, Eugene Byrne, Tushar Nagarajan, Huiyu Wang, Miguel Martin, Lorenzo Torresani

ICCV 2023 EgoVLPv2: Egocentric Video-Language Pre-Training with Fusion in the Backbone Shraman Pramanick, Yale Song, Sayan Nag, Kevin Qinghong Lin, Hardik Shah, Mike Zheng Shou, Rama Chellappa, Pengchuan Zhang

CVPR 2023 Egocentric Video Task Translation Zihui Xue, Yale Song, Kristen Grauman, Lorenzo Torresani

WACV 2023 Scaling Novel Object Detection with Weakly Supervised Detection Transformers Tyler LaBonte, Yale Song, Xin Wang, Vibhav Vineet, Neel Joshi

CLeaR 2022 CausalCity: Complex Simulations with Agency for Causal Discovery and Reasoning Daniel McDuff, Yale Song, Jiyoung Lee, Vibhav Vineet, Sai Vemprala, Nicholas Alexander Gyde, Hadi Salman, Shuang Ma, Kwanghoon Sohn, Ashish Kapoor

AAAI 2022 DOC2PPT: Automatic Presentation Slides Generation from Scientific Documents Tsu-Jui Fu, William Yang Wang, Daniel McDuff, Yale Song

ECCV 2022 Neural-Sim: Learning to Generate Training Data with NeRF Yunhao Ge, Harkirat Behl, Jiashu Xu, Suriya Gunasekar, Neel Joshi, Yale Song, Xin Wang, Laurent Itti, Vibhav Vineet

CVPR 2022 Robust Contrastive Learning Against Noisy Views Ching-Yao Chuang, R Devon Hjelm, Xin Wang, Vibhav Vineet, Neel Joshi, Antonio Torralba, Stefanie Jegelka, Yale Song

ICML 2022 Visual Attention Emerges from Recurrent Sparse Reconstruction Baifeng Shi, Yale Song, Neel Joshi, Trevor Darrell, Xin Wang

ICCV 2021 ACAV100M: Automatic Curation of Large-Scale Datasets for Audio-Visual Video Representation Learning Sangho Lee, Jiwan Chung, Youngjae Yu, Gunhee Kim, Thomas Breuel, Gal Chechik, Yale Song

ICLR 2021 Active Contrastive Learning of Audio-Visual Video Representations Shuang Ma, Zhaoyang Zeng, Daniel McDuff, Yale Song

NeurIPS 2021 Contrastive Learning of Global and Local Video Representations Shuang Ma, Zhaoyang Zeng, Daniel McDuff, Yale Song

ICLR 2021 Parameter Efficient Multimodal Transformers for Video Representation Learning Sangho Lee, Youngjae Yu, Gunhee Kim, Thomas Breuel, Jan Kautz, Yale Song

ICLR 2021 Self-Supervised Learning of Compressed Video Representations Youngjae Yu, Sangho Lee, Gunhee Kim, Yale Song

WACV 2020 Image to Video Domain Adaptation Using Web Supervision Andrew Kae, Yale Song

NeurIPS 2019 Characterizing Bias in Classifiers Using Generative Models Daniel McDuff, Shuang Ma, Yale Song, Ashish Kapoor

ICLR 2019 Neural TTS Stylization with Adversarial and Collaborative Games Shuang Ma, Daniel Mcduff, Yale Song

WACV 2018 Image2GIF: Generating Cinemagraphs Using Recurrent Deep Q-Networks Yipin Zhou, Yale Song, Tamara L. Berg

ICML 2018 Video Prediction with Appearance and Motion Conditions Yunseok Jang, Gunhee Kim, Yale Song

CVPR 2017 Improving Pairwise Ranking for Multi-Label Image Classification Yuncheng Li, Yale Song, Jiebo Luo

ICCV 2017 Learning from Noisy Labels with Distillation Yuncheng Li, Jianchao Yang, Yale Song, Liangliang Cao, Jiebo Luo, Li-Jia Li

CVPR 2017 TGIF-QA: Toward Spatio-Temporal Reasoning in Visual Question Answering Yunseok Jang, Yale Song, Youngjae Yu, Youngjin Kim, Gunhee Kim

IJCAI 2016 Balancing Appearance and Context in Sketch Interpretation Yale Song, Randall Davis, Kaichen Ma, Dana L. Penney

CVPR 2016 TGIF: A New Dataset and Benchmark on Animated GIF Description Yuncheng Li, Yale Song, Liangliang Cao, Joel Tetreault, Larry Goldberg, Alejandro Jaimes, Jiebo Luo

CVPR 2016 Video2GIF: Automatic Generation of Animated GIFs from Video Michael Gygli, Yale Song, Liangliang Cao

IJCAI 2015 Continuous Body and Hand Gesture Recognition for Natural Human-Computer Interaction: Extended Abstract Yale Song, Randall Davis

CVPR 2015 TVSum: Summarizing Web Videos Using Titles Yale Song, Jordi Vallmitjana, Amanda Stent, Alejandro Jaimes

CVPR 2015 Video Co-Summarization: Video Summarization by Visual Co-Occurrence Wen-Sheng Chu, Yale Song, Alejandro Jaimes

CVPR 2013 Action Recognition by Hierarchical Sequence Summarization Yale Song, Louis-Philippe Morency, Randall Davis

IJCAI 2013 One-Class Conditional Random Fields for Sequential Anomaly Detection Yale Song, Zhen Wen, Ching-Yung Lin, Randall Davis

CVPR 2012 Multi-View Latent Variable Discriminative Models for Action Recognition Yale Song, Louis-Philippe Morency, Randall Davis