Wang, Yali

50 publications

ICLR 2025 Bootstrapping Language-Guided Navigation Learning with Self-Refining Data Flywheel Zun Wang, Jialu Li, Yicong Hong, Songze Li, Kunchang Li, Shoubin Yu, Yi Wang, Yu Qiao, Yali Wang, Mohit Bansal, Limin Wang

ICLR 2025 CG-Bench: Clue-Grounded Question Answering Benchmark for Long Video Understanding Guo Chen, Yicheng Liu, Yifei Huang, Baoqi Pei, Jilan Xu, Yuping He, Tong Lu, Yali Wang, Limin Wang

AAAI 2025 H-MBA: Hierarchical MamBa Adaptation for Multi-Modal Video Understanding in Autonomous Driving Siran Chen, Yuxiao Luo, Yue Ma, Yu Qiao, Yali Wang

ICCV 2025 LVAgent: Long Video Understanding by Multi-Round Dynamical Collaboration of MLLM Agents Boyu Chen, Zhengrong Yue, Siran Chen, Zikang Wang, Yang Liu, Peng Li, Yali Wang

ICLR 2025 Modeling Fine-Grained Hand-Object Dynamics for Egocentric Video Representation Learning Baoqi Pei, Yifei Huang, Jilan Xu, Guo Chen, Yuping He, Lijin Yang, Yali Wang, Weidi Xie, Yu Qiao, Fei Wu, Limin Wang

AAAI 2025 Muses: 3D-Controllable Image Generation via Multi-Modal Agent Collaboration Yanbo Ding, Shaobin Zhuang, Kunchang Li, Zhengrong Yue, Yu Qiao, Yali Wang

ICLR 2025 OmniCorpus: A Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text Qingyun Li, Zhe Chen, Weiyun Wang, Wenhai Wang, Shenglong Ye, Zhenjiang Jin, Guanzhou Chen, Yinan He, Zhangwei Gao, Erfei Cui, Jiashuo Yu, Hao Tian, Jiasheng Zhou, Chao Xu, Bin Wang, Xingjian Wei, Wei Li, Wenjian Zhang, Bo Zhang, Pinlong Cai, Licheng Wen, Xiangchao Yan, Pei Chu, Yi Wang, Min Dou, Changyao Tian, Xizhou Zhu, Lewei Lu, Yushi Chen, Junjun He, Tong Lu, Yali Wang, Limin Wang, Dahua Lin, Yu Qiao, Botian Shi, Conghui He, Jifeng Dai

CVPR 2025 Task Preference Optimization: Improving Multimodal Large Language Models with Vision Task Alignment Ziang Yan, Zhilin Li, Yinan He, Chenting Wang, Kunchang Li, Xinhao Li, Xiangyu Zeng, Zilei Wang, Yali Wang, Yu Qiao, Limin Wang, Yi Wang

ICML 2025 TimeStep Master: Asymmetrical Mixture of Timestep LoRA Experts for Versatile and Efficient Diffusion Models in Vision Shaobin Zhuang, Yiwei Guo, Yanbo Ding, Kunchang Li, Xinyuan Chen, Yaohui Wang, Fangyikang Wang, Ying Zhang, Chen Li, Yali Wang

ICLR 2025 TimeSuite: Improving MLLMs for Long Video Understanding via Grounded Tuning Xiangyu Zeng, Kunchang Li, Chenting Wang, Xinhao Li, Tianxiang Jiang, Ziang Yan, Songze Li, Yansong Shi, Zhengrong Yue, Yi Wang, Yali Wang, Yu Qiao, Limin Wang

CVPR 2025 V-Stylist: Video Stylization via Collaboration and Reflection of MLLM Agents Zhengrong Yue, Shaobin Zhuang, Kunchang Li, Yanbo Ding, Yali Wang

ICCV 2025 VRBench: A Benchmark for Multi-Step Reasoning in Long Narrative Videos Jiashuo Yu, Yue Wu, Meng Chu, Zhifei Ren, Zizheng Huang, Pei Chu, Ruijie Zhang, Yinan He, Qirui Li, Songze Li, Zhenxiang Li, Zhongying Tu, Conghui He, Yu Qiao, Yali Wang, Yi Wang, Limin Wang

NeurIPS 2025 VideoChat-R1.5: Visual Test-Time Scaling to Reinforce Multimodal Reasoning by Iterative Perception Ziang Yan, Yinan He, Xinhao Li, Zhengrong Yue, Xiangyu Zeng, Yali Wang, Yu Qiao, Limin Wang, Yi Wang

CVPR 2025 WeGen: A Unified Model for Interactive Multimodal Generation as We Chat Zhipeng Huang, Shaobin Zhuang, Canmiao Fu, Binxin Yang, Ying Zhang, Chong Sun, Zhizheng Zhang, Yali Wang, Chen Li, Zheng-Jun Zha

CVPR 2024 EgoExoLearn: A Dataset for Bridging Asynchronous Ego- and Exo-Centric View of Procedural Activities in Real World Yifei Huang, Guo Chen, Jilan Xu, Mingfang Zhang, Lijin Yang, Baoqi Pei, Hongjie Zhang, Lu Dong, Yali Wang, Limin Wang, Yu Qiao

ICLR 2024 InternVid: A Large-Scale Video-Text Dataset for Multimodal Understanding and Generation Yi Wang, Yinan He, Yizhuo Li, Kunchang Li, Jiashuo Yu, Xin Ma, Xinhao Li, Guo Chen, Xinyuan Chen, Yaohui Wang, Ping Luo, Ziwei Liu, Yali Wang, Limin Wang, Yu Qiao

ECCV 2024 InternVideo2: Scaling Foundation Models for Multimodal Video Understanding Yi Wang, Kunchang Li, Xinhao Li, Jiashuo Yu, Yinan He, Guo Chen, Baoqi Pei, Rongkun Zheng, Jilan Xu, Zun Wang, Yansong Shi, Tianxiang Jiang, SongZe Li, Hongjie Zhang, Yifei Huang, Yu Qiao, Yali Wang, Limin Wang

AAAI 2024 M-BEV: Masked BEV Perception for Robust Autonomous Driving Siran Chen, Yue Ma, Yu Qiao, Yali Wang

ICML 2024 MMT-Bench: A Comprehensive Multimodal Benchmark for Evaluating Large Vision-Language Models Towards Multitask AGI Kaining Ying, Fanqing Meng, Jin Wang, Zhiqian Li, Han Lin, Yue Yang, Hao Zhang, Wenbo Zhang, Yuqi Lin, Shuo Liu, Jiayi Lei, Quanfeng Lu, Runjian Chen, Peng Xu, Renrui Zhang, Haozhe Zhang, Peng Gao, Yali Wang, Yu Qiao, Ping Luo, Kaipeng Zhang, Wenqi Shao

CVPR 2024 MVBench: A Comprehensive Multi-Modal Video Understanding Benchmark Kunchang Li, Yali Wang, Yinan He, Yizhuo Li, Yi Wang, Yi Liu, Zun Wang, Jilan Xu, Guo Chen, Ping Luo, Limin Wang, Yu Qiao

ICLR 2024 SEINE: Short-to-Long Video Diffusion Model for Generative Transition and Prediction Xinyuan Chen, Yaohui Wang, Lingjun Zhang, Shaobin Zhuang, Xin Ma, Jiashuo Yu, Yali Wang, Dahua Lin, Yu Qiao, Ziwei Liu

NeurIPS 2024 TransAgent: Transfer Vision-Language Foundation Models with Heterogeneous Agent Collaboration Yiwei Guo, Shaobin Zhuang, Kunchang Li, Yu Qiao, Yali Wang

ECCV 2024 VideoMamba: State Space Model for Efficient Video Understanding Kunchang Li, Xinhao Li, Yi Wang, Yinan He, Yali Wang, Limin Wang, Yu Qiao

CVPR 2024 Vlogger: Make Your Dream a Vlog Shaobin Zhuang, Kunchang Li, Xinyuan Chen, Yaohui Wang, Ziwei Liu, Yu Qiao, Yali Wang

ICCV 2023 HTML: Hybrid Temporal-Scale Multimodal Learning Framework for Referring Video Object Segmentation Mingfei Han, Yali Wang, Zhihui Li, Lina Yao, Xiaojun Chang, Yu Qiao

CVPR 2023 MM-3DScene: 3D Scene Understanding by Customizing Masked Modeling with Informative-Preserved Reconstruction and Self-Distilled Consistency Mingye Xu, Mutian Xu, Tong He, Wanli Ouyang, Yali Wang, Xiaoguang Han, Yu Qiao

CVPR 2023 Starting from Non-Parametric Networks for 3D Point Cloud Analysis Renrui Zhang, Liuhui Wang, Yali Wang, Peng Gao, Hongsheng Li, Jianbo Shi

ICCV 2023 UniFormerV2: Unlocking the Potential of Image ViTs for Video Understanding Kunchang Li, Yali Wang, Yinan He, Yizhuo Li, Yi Wang, Limin Wang, Yu Qiao

ICCV 2023 Unmasked Teacher: Towards Training-Efficient Video Foundation Models Kunchang Li, Yali Wang, Yizhuo Li, Yi Wang, Yinan He, Limin Wang, Yu Qiao

CVPR 2023 VideoMAE V2: Scaling Video Masked Autoencoders with Dual Masking Limin Wang, Bingkun Huang, Zhiyu Zhao, Zhan Tong, Yinan He, Yi Wang, Yali Wang, Yu Qiao

CVPR 2022 Cross Domain Object Detection by Target-Perceived Dual Branch Distillation Mengzhe He, Yali Wang, Jiaxi Wu, Yiru Wang, Hanqing Li, Bo Li, Weihao Gan, Wei Wu, Yu Qiao

CVPR 2022 Dual-AI: Dual-Path Actor Interaction Learning for Group Activity Recognition Mingfei Han, David Junhao Zhang, Yali Wang, Rui Yan, Lina Yao, Xiaojun Chang, Yu Qiao

ECCV 2022 MorphMLP: An Efficient MLP-like Backbone for Spatial-Temporal Representation Learning David Junhao Zhang, Kunchang Li, Yali Wang, Yunpeng Chen, Shashwat Chandra, Yu Qiao, Luoqi Liu, Mike Zheng Shou

ECCV 2022 Self-Slimmed Vision Transformer Zhuofan Zong, Kunchang Li, Guanglu Song, Yali Wang, Yu Qiao, Biao Leng, Yu Liu

CVPR 2022 Target-Relevant Knowledge Preservation for Multi-Source Domain Adaptive Object Detection Jiaxi Wu, Jiaxin Chen, Mengzhe He, Yiru Wang, Bo Li, Bingqi Ma, Weihao Gan, Wei Wu, Yali Wang, Di Huang

ICLR 2022 UniFormer: Unified Transformer for Efficient Spatial-Temporal Representation Learning Kunchang Li, Yali Wang, Gao Peng, Guanglu Song, Yu Liu, Hongsheng Li, Yu Qiao

ICLR 2021 CT-Net: Channel Tensorization Network for Video Classification Kunchang Li, Xianhang Li, Yali Wang, Jun Wang, Yu Qiao

ICCV 2021 Digging into Uncertainty in Self-Supervised Multi-View Stereo Hongbin Xu, Zhipeng Zhou, Yali Wang, Wenxiong Kang, Baigui Sun, Hao Li, Yu Qiao

AAAI 2021 PC-HMR: Pose Calibration for 3D Human Mesh Recovery from 2D Images/Videos Tianyu Luan, Yali Wang, Junhao Zhang, Zhe Wang, Zhipeng Zhou, Yu Qiao

AAAI 2020 Context-Transformer: Tackling Object Confusion for Few-Shot Detection Ze Yang, Yali Wang, Xianyu Chen, Jianzhuang Liu, Yu Qiao

AAAI 2020 Learning Attentive Pairwise Interaction for Fine-Grained Classification Peiqin Zhuang, Yali Wang, Yu Qiao

ECCV 2020 Mining Inter-Video Proposal Relations for Video Object Detection Mingfei Han, Yali Wang, Xiaojun Chang, Yu Qiao

AAAI 2018 LSTD: A Low-Shot Transfer Detector for Object Detection Hao Chen, Yali Wang, Guoyou Wang, Yu Qiao

ICCV 2017 RPAN: An End-to-End Recurrent Pose-Attention Network for Action Recognition in Videos Wenbin Du, Yali Wang, Yu Qiao

AAAI 2017 Sparse Deep Transfer Learning for Convolutional Neural Network Jiaming Liu, Yali Wang, Yu Qiao

AISTATS 2016 Sequential Inference for Deep Gaussian Process Yali Wang, Marcus A. Brubaker, Brahim Chaib-draa, Raquel Urtasun

UAI 2014 Bayesian Filtering with Online Gaussian Process Latent Variable Models Yali Wang, Marcus A. Brubaker, Brahim Chaib-draa, Raquel Urtasun

ICML 2014 Gaussian Processes for Bayesian Estimation in Ordinary Differential Equations David Barber, Yali Wang

IJCAI 2013 A KNN Based Kalman Filter Gaussian Process Regression Yali Wang, Brahim Chaib-draa

NeurIPS 2012 A Marginalized Particle Gaussian Process Regression Yali Wang, Brahim Chaib-draa