Yang, Xitong

19 publications

CVPR 2025 Progress-Aware Video Frame Captioning Zihui Xue, Joungbin An, Xitong Yang, Kristen Grauman

CVPR 2024 Ego-Exo4D: Understanding Skilled Human Activity from First- and Third-Person Perspectives Kristen Grauman, Andrew Westbury, Lorenzo Torresani, Kris Kitani, Jitendra Malik, Triantafyllos Afouras, Kumar Ashutosh, Vijay Baiyya, Siddhant Bansal, Bikram Boote, Eugene Byrne, Zach Chavis, Joya Chen, Feng Cheng, Fu-Jen Chu, Sean Crane, Avijit Dasgupta, Jing Dong, Maria Escobar, Cristhian Forigua, Abrham Gebreselasie, Sanjay Haresh, Jing Huang, Md Mohaiminul Islam, Suyog Jain, Rawal Khirodkar, Devansh Kukreja, Kevin J Liang, Jia-Wei Liu, Sagnik Majumder, Yongsen Mao, Miguel Martin, Effrosyni Mavroudi, Tushar Nagarajan, Francesco Ragusa, Santhosh Kumar Ramakrishnan, Luigi Seminara, Arjun Somayazulu, Yale Song, Shan Su, Zihui Xue, Edward Zhang, Jinxu Zhang, Angela Castillo, Changan Chen, Xinzhu Fu, Ryosuke Furuta, Cristina Gonzalez, Prince Gupta, Jiabo Hu, Yifei Huang, Yiming Huang, Weslie Khoo, Anush Kumar, Robert Kuo, Sach Lakhavani, Miao Liu, Mi Luo, Zhengyi Luo, Brighid Meredith, Austin Miller, Oluwatumininu Oguntola, Xiaqing Pan, Penny Peng, Shraman Pramanick, Merey Ramazanova, Fiona Ryan, Wei Shan, Kiran Somasundaram, Chenan Song, Audrey Southerland, Masatoshi Tateno, Huiyu Wang, Yuchen Wang, Takuma Yagi, Mingfei Yan, Xitong Yang, Zecheng Yu, Shengxin Cindy Zha, Chen Zhao, Ziwei Zhao, Zhifan Zhu, Jeff Zhuo, Pablo Arbelaez, Gedas Bertasius, Dima Damen, Jakob Engel, Giovanni Maria Farinella, Antonino Furnari, Bernard Ghanem, Judy Hoffman, C.V. Jawahar, Richard Newcombe, Hyun Soo Park, James M. Rehg, Yoichi Sato, Manolis Savva, Jianbo Shi, Mike Zheng Shou, Michael Wray

CVPRW 2024 EgoSG: Learning 3D Scene Graphs from Egocentric RGB-D Sequences Chaoyi Zhang, Xitong Yang, Ji Hou, Kris Kitani, Weidong Cai, Fu-Jen Chu

NeurIPS 2024 GenRec: Unifying Video Generation and Recognition with Diffusion Models Zejia Weng, Xitong Yang, Zhen Xing, Zuxuan Wu, Yu-Gang Jiang

CVPR 2024 Learning to Segment Referred Objects from Narrated Egocentric Videos Yuhan Shen, Huiyu Wang, Xitong Yang, Matt Feiszli, Ehsan Elhamifar, Lorenzo Torresani, Effrosyni Mavroudi

ECCV 2024 Propose, Assess, Search: Harnessing LLMs for Goal-Oriented Planning in Instructional Videos Md Mohaiminul Islam, Tushar Nagarajan, Huiyu Wang, Fu-Jen Chu, Kris Kitani, Gedas Bertasius, Xitong Yang

CVPR 2024 Video ReCap: Recursive Captioning of Hour-Long Videos Md Mohaiminul Islam, Ngan Ho, Xitong Yang, Tushar Nagarajan, Lorenzo Torresani, Gedas Bertasius

ICML 2023 Open-VCLIP: Transforming CLIP to an Open-Vocabulary Video Model via Interpolated Weight Optimization Zejia Weng, Xitong Yang, Ang Li, Zuxuan Wu, Yu-Gang Jiang

CVPR 2023 Relational Space-Time Query in Long-Form Videos Xitong Yang, Fu-Jen Chu, Matt Feiszli, Raghav Goyal, Lorenzo Torresani, Du Tran

CVPR 2023 Towards Scalable Neural Representation for Diverse Videos Bo He, Xitong Yang, Hanyu Wang, Zuxuan Wu, Hao Chen, Shuaiyi Huang, Yixuan Ren, Ser-Nam Lim, Abhinav Shrivastava

CVPR 2023 Vision Transformers Are Good Mask Auto-Labelers Shiyi Lan, Xitong Yang, Zhiding Yu, Zuxuan Wu, Jose M. Alvarez, Anima Anandkumar

CVPR 2022 ASM-Loc: Action-Aware Segment Modeling for Weakly-Supervised Temporal Action Localization Bo He, Xitong Yang, Le Kang, Zhiyu Cheng, Xin Zhou, Abhinav Shrivastava

ECCV 2022 Efficient Video Transformers with Spatial-Temporal Token Selection Junke Wang, Xitong Yang, Hengduo Li, Li Liu, Zuxuan Wu, Yu-Gang Jiang

ECCV 2022 Semi-Supervised Vision Transformers Zejia Weng, Xitong Yang, Ang Li, Zuxuan Wu, Yu-Gang Jiang

CVPR 2021 Beyond Short Clips: End-to-End Video-Level Learning with Collaborative Memories Xitong Yang, Haoqi Fan, Lorenzo Torresani, Larry S. Davis, Heng Wang

ECCV 2020 A Generic Visualization Approach for Convolutional Neural Networks Ahmed Taha, Xitong Yang, Abhinav Shrivastava, Larry Davis

AAAI 2018 Towards Perceptual Image Dehazing by Physics-Based Disentanglement and Adversarial Training Xitong Yang, Zheng Xu, Jiebo Luo

CVPR 2017 Deep Multimodal Representation Learning from Temporal Data Xitong Yang, Palghat Ramesh, Radha Chitta, Sriganesh Madhvanath, Edgar A. Bernal, Jiebo Luo

ICCV 2015 Semantic Video Entity Linking Based on Visual Content and Metadata Yuncheng Li, Xitong Yang, Jiebo Luo