Hong, Wenyi

12 publications

ICLR 2025 CogCoM: A Visual Language Model with Chain-of-Manipulations Reasoning Ji Qi, Ming Ding, Weihan Wang, Yushi Bai, Qingsong Lv, Wenyi Hong, Bin Xu, Lei Hou, Juanzi Li, Yuxiao Dong, Jie Tang

ICLR 2025 CogVideoX: Text-to-Video Diffusion Models with an Expert Transformer Zhuoyi Yang, Jiayan Teng, Wendi Zheng, Ming Ding, Shiyu Huang, Jiazheng Xu, Yuanming Yang, Wenyi Hong, Xiaohan Zhang, Guanyu Feng, Da Yin, Yuxuan.Zhang, Weihan Wang, Yean Cheng, Bin Xu, Xiaotao Gu, Yuxiao Dong, Jie Tang

ICCV 2025 LVBench: An Extreme Long Video Understanding Benchmark Weihan Wang, Zehai He, Wenyi Hong, Yean Cheng, Xiaohan Zhang, Ji Qi, Ming Ding, Xiaotao Gu, Shiyu Huang, Bin Xu, Yuxiao Dong, Jie Tang

CVPR 2025 MotionBench: Benchmarking and Improving Fine-Grained Video Motion Understanding for Vision Language Models Wenyi Hong, Yean Cheng, Zhuoyi Yang, Weihan Wang, Lefan Wang, Xiaotao Gu, Shiyu Huang, Yuxiao Dong, Jie Tang

ICLR 2025 VisualAgentBench: Towards Large Multimodal Models as Visual Foundation Agents Xiao Liu, Tianjie Zhang, Yu Gu, Iat Long Iong, Song XiXuan, Yifan Xu, Shudan Zhang, Hanyu Lai, Jiadai Sun, Xinyue Yang, Yu Yang, Zehan Qi, Shuntian Yao, Xueqiao Sun, Siyi Cheng, Qinkai Zheng, Hao Yu, Hanchen Zhang, Wenyi Hong, Ming Ding, Lihang Pan, Xiaotao Gu, Aohan Zeng, Zhengxiao Du, Chan Hee Song, Yu Su, Yuxiao Dong, Jie Tang

CVPR 2024 CogAgent: A Visual Language Model for GUI Agents Wenyi Hong, Weihan Wang, Qingsong Lv, Jiazheng Xu, Wenmeng Yu, Junhui Ji, Yan Wang, Zihan Wang, Yuxiao Dong, Ming Ding, Jie Tang

NeurIPS 2024 CogVLM: Visual Expert for Pretrained Language Models Weihan Wang, Qingsong Lv, Wenmeng Yu, Wenyi Hong, Ji Qi, Yan Wang, Junhui Ji, Zhuoyi Yang, Lei Zhao, Xixuan Song, Jiazheng Xu, Keqin Chen, Bin Xu, Juanzi Li, Yuxiao Dong, Ming Ding, Jie Tang

ECCV 2024 Inf-DiT: Upsampling Any-Resolution Image with Memory-Efficient Diffusion Transformer. Zhuoyi Yang, Heyang Jiang, Wenyi Hong, Jiayan Teng, Wendi Zheng, Yuxiao Dong, Ming Ding, Jie Tang

ICLR 2024 Relay Diffusion: Unifying Diffusion Process Across Resolutions for Image Synthesis Jiayan Teng, Wendi Zheng, Ming Ding, Wenyi Hong, Jianqiao Wangni, Zhuoyi Yang, Jie Tang

ICLR 2023 CogVideo: Large-Scale Pretraining for Text-to-Video Generation via Transformers Wenyi Hong, Ming Ding, Wendi Zheng, Xinghan Liu, Jie Tang

NeurIPS 2022 CogView2: Faster and Better Text-to-Image Generation via Hierarchical Transformers Ming Ding, Wendi Zheng, Wenyi Hong, Jie Tang

NeurIPS 2021 CogView: Mastering Text-to-Image Generation via Transformers Ming Ding, Zhuoyi Yang, Wenyi Hong, Wendi Zheng, Chang Zhou, Da Yin, Junyang Lin, Xu Zou, Zhou Shao, Hongxia Yang, Jie Tang