Zhang, Di

41 publications

ICLR 2025 3DTrajMaster: Mastering 3D Trajectory for Multi-Entity Motion in Video Generation Xiao Fu, Xian Liu, Xintao Wang, Sida Peng, Menghan Xia, Xiaoyu Shi, Ziyang Yuan, Pengfei Wan, Di Zhang, Dahua Lin

ICML 2025 CERTAIN: Context Uncertainty-Aware One-Shot Adaptation for Context-Based Offline Meta Reinforcement Learning Hongtu Zhou, Ruiling Yang, Yakun Zhu, Haoqi Zhao, Hai Zhang, Di Zhang, Junqiao Zhao, Chen Ye, Changjun Jiang

ICLR 2025 Cafe-Talk: Generating 3D Talking Face Animation with Multimodal Coarse- and Fine-Grained Control Hejia Chen, Haoxian Zhang, Shoulong Zhang, Xiaoqiang Liu, Sisi Zhuang, Zhangyuan, Pengfei Wan, Di Zhang, Shuai Li

AAAI 2025 ChemVLM: Exploring the Power of Multimodal Large Language Models in Chemistry Area Junxian Li, Di Zhang, Xunzhi Wang, Zeying Hao, Jingdi Lei, Qian Tan, Cai Zhou, Wei Liu, Yaotian Yang, Xinrui Xiong, Weiyun Wang, Zhe Chen, Wenhai Wang, Wei Li, Mao Su, Shufei Zhang, Wanli Ouyang, Yuqiang Li, Dongzhan Zhou

CVPR 2025 Critic-V: VLM Critics Help Catch VLM Errors in Multimodal Reasoning Di Zhang, Jingdi Lei, Junxian Li, Xunzhi Wang, Yujie Liu, Zonglin Yang, Jiatong Li, Weida Wang, Suorong Yang, Jianbo Wu, Peng Ye, Wanli Ouyang, Dongzhan Zhou

NeurIPS 2025 Decoupling Contrastive Decoding: Robust Hallucination Mitigation in Multimodal Large Language Models Wei Chen, Xin Yan, Bin Wen, Fan Yang, Tingting Gao, Di Zhang, Long Chen

NeurIPS 2025 Diffusion Model as a Noise-Aware Latent Reward Model for Step-Level Preference Optimization Tao Zhang, Cheng Da, Kun Ding, Huan Yang, Kun Jin, Yan Li, Tingting Gao, Di Zhang, Shiming Xiang, Chunhong Pan

NeurIPS 2025 Flow-GRPO: Training Flow Matching Models via Online RL Jie Liu, Gongye Liu, Jiajun Liang, Yangguang Li, Jiaheng Liu, Xintao Wang, Pengfei Wan, Di Zhang, Wanli Ouyang

ICCV 2025 FullDiT: Video Generative Foundation Models with Multimodal Control via Full Attention Xuan Ju, Weicai Ye, Quande Liu, Qiulin Wang, Xintao Wang, Pengfei Wan, Di Zhang, Kun Gai, Qiang Xu

ICCV 2025 GGTalker: Talking Head Systhesis with Generalizable Gaussian Priors and Identity-Specific Adaptation Wentao Hu, Shunkai Li, Ziqiao Peng, Haoxian Zhang, Fan Shi, Xiaoqiang Liu, Pengfei Wan, Di Zhang, Hui Tian

CVPR 2025 GPAvatar: High-Fidelity Head Avatars by Learning Efficient Gaussian Projections Wei-Qi Feng, Dong Han, Ze-Kang Zhou, Shunkai Li, Xiaoqiang Liu, Pengfei Wan, Di Zhang, Miao Wang

ICCV 2025 GameFactory: Creating New Games with Generative Interactive Videos Jiwen Yu, Yiran Qin, Xintao Wang, Pengfei Wan, Di Zhang, Xihui Liu

ICCV 2025 How Far Are AI-Generated Videos from Simulating the 3D Visual World: A Learned 3D Evaluation Approach Chirui Chang, Jiahui Liu, Zhengzhe Liu, Xiaoyang Lyu, Yi-Hua Huang, Xin Tao, Pengfei Wan, Di Zhang, Xiaojuan Qi

ICCV 2025 Imbalance in Balance: Online Concept Balancing in Generation Models Yukai Shi, Jiarong Ou, Rui Chen, Haotian Yang, Jiahao Wang, Xin Tao, Pengfei Wan, Di Zhang, Kun Gai

NeurIPS 2025 Improving Video Generation with Human Feedback Jie Liu, Gongye Liu, Jiajun Liang, Ziyang Yuan, Xiaokun Liu, Mingwu Zheng, Xiele Wu, Qiulin Wang, Menghan Xia, Xintao Wang, Xiaohong Liu, Fei Yang, Pengfei Wan, Di Zhang, Kun Gai, Yujiu Yang, Wanli Ouyang

CoRL 2025 KineDex: Learning Tactile-Informed Visuomotor Policies via Kinesthetic Teaching for Dexterous Manipulation Di Zhang, Chengbo Yuan, Chuan Wen, Hai Zhang, Junqiao Zhao, Yang Gao

CVPR 2025 Koala-36m: A Large-Scale Video Dataset Improving Consistency Between Fine-Grained Conditions and Video Content Qiuheng Wang, Yukai Shi, Jiarong Ou, Rui Chen, Ke Lin, Jiahao Wang, Boyuan Jiang, Haotian Yang, Mingwu Zheng, Xin Tao, Fei Yang, Pengfei Wan, Di Zhang

CVPR 2025 Libra-Merging: Importance-Redundancy and Pruning-Merging Trade-Off for Acceleration Plug-in in Large Vision-Language Model Longrong Yang, Dong Shen, Chaoxiang Cai, Kaibing Chen, Fan Yang, Tingting Gao, Di Zhang, Xi Li

ICML 2025 MM-RLHF: The Next Step Forward in Multimodal LLM Alignment Yifan Zhang, Tao Yu, Haochen Tian, Chaoyou Fu, Peiyan Li, Jianshu Zeng, Wulin Xie, Yang Shi, Huanyu Zhang, Junkang Wu, Xue Wang, Yibo Hu, Bin Wen, Tingting Gao, Zhang Zhang, Fan Yang, Di Zhang, Liang Wang, Rong Jin

ICML 2025 MODA: MOdular Duplex Attention for Multimodal Perception, Cognition, and Emotion Understanding Zhicheng Zhang, Wuyou Xia, Chenxi Zhao, Zhou Yan, Xiaoqiang Liu, Yongjie Zhu, Wenyu Qin, Pengfei Wan, Di Zhang, Jufeng Yang

ICCV 2025 MUSE: Multi-Subject Unified Synthesis via Explicit Layout Semantic Expansion Fei Peng, Junqiang Wu, Yan Li, Tingting Gao, Di Zhang, Huiyuan Fu

NeurIPS 2025 OmniSync: Towards Universal Lip Synchronization via Diffusion Transformers Ziqiao Peng, Jiwen Liu, Haoxian Zhang, Xiaoqiang Liu, Songlin Tang, Pengfei Wan, Di Zhang, Hongyan Liu, Jun He

CVPR 2025 PatchVSR: Breaking Video Diffusion Resolution Limits with Patch-Wise Video Super-Resolution Shian Du, Menghan Xia, Chang Liu, Xintao Wang, Jing Wang, Pengfei Wan, Di Zhang, Xiangyang Ji

ICCV 2025 ReCamMaster: Camera-Controlled Generative Rendering from a Single Video Jianhong Bai, Menghan Xia, Xiao Fu, Xintao Wang, Lianrui Mu, Jinwen Cao, Zuozhu Liu, Haoji Hu, Xiang Bai, Pengfei Wan, Di Zhang

NeurIPS 2025 Retrieval Is Not Enough: Enhancing RAG Through Test-Time Critique and Optimization Jiaqi Wei, Hao Zhou, Xiang Zhang, Di Zhang, Zijie Qiu, Noah Wei, Jinzhe Li, Wanli Ouyang, Siqi Sun

ICCV 2025 Scene Graph Guided Generation: Enable Accurate Relations Generation in Text-to-Image Models via Textural Rectification Guibao Shen, Luozhou Wang, Jiantao Lin, Wenhang Ge, Chaozhe Zhang, Xin Tao, Di Zhang, Pengfei Wan, Guangyong Chen, Yijun Li, Ying-cong Chen

CVPR 2025 SketchVideo: Sketch-Based Video Generation and Editing Feng-Lin Liu, Hongbo Fu, Xintao Wang, Weicai Ye, Pengfei Wan, Di Zhang, Lin Gao

ICLR 2025 Solving Token Gradient Conflict in Mixture-of-Experts for Large Vision-Language Model Longrong Yang, Dong Shen, Chaoxiang Cai, Fan Yang, Tingting Gao, Di Zhang, Xi Li

ICLR 2025 Stable Segment Anything Model Qi Fan, Xin Tao, Lei Ke, Mingqiao Ye, Di Zhang, Pengfei Wan, Yu-Wing Tai, Chi-Keung Tang

CVPR 2025 StyleMaster: Stylize Your Video with Artistic Generation and Translation Zixuan Ye, Huijuan Huang, Xintao Wang, Pengfei Wan, Di Zhang, Wenhan Luo

ICLR 2025 SynCamMaster: Synchronizing Multi-Camera Video Generation from Diverse Viewpoints Jianhong Bai, Menghan Xia, Xintao Wang, Ziyang Yuan, Zuozhu Liu, Haoji Hu, Pengfei Wan, Di Zhang

ICLR 2025 TaskGalaxy: Scaling Multi-Modal Instruction Fine-Tuning with Tens of Thousands Vision Task Types Jiankang Chen, Tianke Zhang, Changyi Liu, Haojie Ding, Yaya Shi, Cheng.Feng, Huihui Xiao, Bin Wen, Fan Yang, Tingting Gao, Di Zhang

CVPR 2025 Towards Precise Scaling Laws for Video Diffusion Transformers Yuanyang Yin, Yaqi Zhao, Mingwu Zheng, Ke Lin, Jiarong Ou, Rui Chen, Victor Shea-Jay Huang, Jiahao Wang, Xin Tao, Pengfei Wan, Di Zhang, Baoqun Yin, Wentao Zhang, Kun Gai

CVPR 2025 Unleashing the Potential of Multi-Modal Foundation Models and Video Diffusion for 4D Dynamic Physical Scene Simulation Zhuoman Liu, Weicai Ye, Yan Luximon, Pengfei Wan, Di Zhang

NeurIPS 2025 VidEmo: Affective-Tree Reasoning for Emotion-Centric Video Foundation Models Zhicheng Zhang, Weicheng Wang, Yongjie Zhu, Wenyu Qin, Pengfei Wan, Di Zhang, Jufeng Yang

NeurIPS 2024 Focus on What Matters: Separated Models for Visual-Based RL Generalization Di Zhang, Bowen Lv, Hai Zhang, Feifan Yang, Junqiao Zhao, Hang Yu, Chang Huang, Hongtu Zhou, Chen Ye, Changjun Jiang

CVPR 2024 Learning Multi-Dimensional Human Preference for Text-to-Image Generation Sixian Zhang, Bohan Wang, Junqiang Wu, Yan Li, Tingting Gao, Di Zhang, Zhongyuan Wang

ICLR 2024 Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization Yang Jin, Kun Xu, Kun Xu, Liwei Chen, Chao Liao, Jianchao Tan, Quzhe Huang, Bin Chen, Chengru Song, Dai Meng, Di Zhang, Wenwu Ou, Kun Gai, Yadong Mu

ICML 2024 Video-LaVIT: Unified Video-Language Pre-Training with Decoupled Visual-Motional Tokenization Yang Jin, Zhicheng Sun, Kun Xu, Kun Xu, Liwei Chen, Hao Jiang, Quzhe Huang, Chengru Song, Yuliang Liu, Di Zhang, Yang Song, Kun Gai, Yadong Mu

NeurIPS 2024 VideoTetris: Towards Compositional Text-to-Video Generation Ye Tian, Ling Yang, Haotian Yang, Yuan Gao, Yufan Deng, Jingmin Chen, Xintao Wang, Zhaochen Yu, Xin Tao, Pengfei Wan, Di Zhang, Bin Cui

NeurIPS 2023 How to Fine-Tune the Model: Unified Model Shift and Model Bias Policy Optimization Hai Zhang, Hang Yu, Junqiao Zhao, Di Zhang, Xiao Zhang, Hongtu Zhou, Chang Huang, Chen Ye