Wang, Weihan

9 publications

ICLR 2025 CogCoM: A Visual Language Model with Chain-of-Manipulations Reasoning Ji Qi, Ming Ding, Weihan Wang, Yushi Bai, Qingsong Lv, Wenyi Hong, Bin Xu, Lei Hou, Juanzi Li, Yuxiao Dong, Jie Tang

ICLR 2025 CogVideoX: Text-to-Video Diffusion Models with an Expert Transformer Zhuoyi Yang, Jiayan Teng, Wendi Zheng, Ming Ding, Shiyu Huang, Jiazheng Xu, Yuanming Yang, Wenyi Hong, Xiaohan Zhang, Guanyu Feng, Da Yin, Yuxuan.Zhang, Weihan Wang, Yean Cheng, Bin Xu, Xiaotao Gu, Yuxiao Dong, Jie Tang

ICCV 2025 LVBench: An Extreme Long Video Understanding Benchmark Weihan Wang, Zehai He, Wenyi Hong, Yean Cheng, Xiaohan Zhang, Ji Qi, Ming Ding, Xiaotao Gu, Shiyu Huang, Bin Xu, Yuxiao Dong, Jie Tang

CVPR 2025 MotionBench: Benchmarking and Improving Fine-Grained Video Motion Understanding for Vision Language Models Wenyi Hong, Yean Cheng, Zhuoyi Yang, Weihan Wang, Lefan Wang, Xiaotao Gu, Shiyu Huang, Yuxiao Dong, Jie Tang

CVPR 2024 CogAgent: A Visual Language Model for GUI Agents Wenyi Hong, Weihan Wang, Qingsong Lv, Jiazheng Xu, Wenmeng Yu, Junhui Ji, Yan Wang, Zihan Wang, Yuxiao Dong, Ming Ding, Jie Tang

NeurIPS 2024 CogVLM: Visual Expert for Pretrained Language Models Weihan Wang, Qingsong Lv, Wenmeng Yu, Wenyi Hong, Ji Qi, Yan Wang, Junhui Ji, Zhuoyi Yang, Lei Zhao, Xixuan Song, Jiazheng Xu, Keqin Chen, Bin Xu, Juanzi Li, Yuxiao Dong, Ming Ding, Jie Tang

ECCV 2024 CogView3: Finer and Faster Text-to-Image Generation via Relay Diffusion Wendi Zheng, Jiayan Teng, Zhuoyi Yang, Weihan Wang, Jidong Chen, Xiaotao Gu, Yuxiao Dong, Ming Ding, Jie Tang

CVPR 2023 Learning the Distribution of Errors in Stereo Matching for Joint Disparity and Uncertainty Estimation Liyan Chen, Weihan Wang, Philippos Mordohai

ICCV 2023 ViLTA: Enhancing Vision-Language Pre-Training Through Textual Augmentation Weihan Wang, Zhen Yang, Bin Xu, Juanzi Li, Yankui Sun