Li, Yizhuo

11 publications

CVPR 2025 Divot: Diffusion Powers Video Tokenizer for Comprehension and Generation Yuying Ge, Yizhuo Li, Yixiao Ge, Ying Shan

ICCV 2025 Moto: Latent Motion Token as the Bridging Language for Learning Robot Manipulation from Videos Yi Chen, Yuying Ge, Weiliang Tang, Yizhuo Li, Yixiao Ge, Mingyu Ding, Ying Shan, Xihui Liu

ICLR 2024 InternVid: A Large-Scale Video-Text Dataset for Multimodal Understanding and Generation Yi Wang, Yinan He, Yizhuo Li, Kunchang Li, Jiashuo Yu, Xin Ma, Xinhao Li, Guo Chen, Xinyuan Chen, Yaohui Wang, Ping Luo, Ziwei Liu, Yali Wang, Limin Wang, Yu Qiao

CVPR 2024 MVBench: A Comprehensive Multi-Modal Video Understanding Benchmark Kunchang Li, Yali Wang, Yinan He, Yizhuo Li, Yi Wang, Yi Liu, Zun Wang, Jilan Xu, Guo Chen, Ping Luo, Limin Wang, Yu Qiao

ICCV 2023 UniFormerV2: Unlocking the Potential of Image ViTs for Video Understanding Kunchang Li, Yali Wang, Yinan He, Yizhuo Li, Yi Wang, Limin Wang, Yu Qiao

ICCV 2023 Unmasked Teacher: Towards Training-Efficient Video Foundation Models Kunchang Li, Yali Wang, Yizhuo Li, Yi Wang, Yinan He, Limin Wang, Yu Qiao

AAAI 2022 Unsupervised Representation for Semantic Segmentation by Implicit Cycle-Attention Contrastive Learning Bo Pang, Yizhuo Li, Yifan Zhang, Gao Peng, Jiajun Tang, Kaiwen Zha, Jiefeng Li, Cewu Lu

CVPR 2021 PGT: A Progressive Method for Training Models on Long Videos Bo Pang, Gao Peng, Yizhuo Li, Cewu Lu

AAAI 2021 TDAF: Top-Down Attention Framework for Vision Tasks Bo Pang, Yizhuo Li, Jiefeng Li, Muchen Li, Hanwen Cao, Cewu Lu

NeurIPS 2021 Test-Time Personalization with a Transformer for Human Pose Estimation Yizhuo Li, Miao Hao, Zonglin Di, Nitesh Bharadwaj Gundavarapu, Xiaolong Wang

NeurIPS 2020 HOI Analysis: Integrating and Decomposing Human-Object Interaction Yong-Lu Li, Xinpeng Liu, Xiaoqian Wu, Yizhuo Li, Cewu Lu