Yang, Zhengyuan

50 publications

ICML 2025 Can MLLMs Reason in Multimodality? EMMA: An Enhanced MultiModal ReAsoning Benchmark Yunzhuo Hao, Jiawei Gu, Huichen Will Wang, Linjie Li, Zhengyuan Yang, Lijuan Wang, Yu Cheng

ICLR 2025 EditRoom: LLM-Parameterized Graph Diffusion for Composable 3D Room Layout Editing Kaizhi Zheng, Xiaotong Chen, Xuehai He, Jing Gu, Linjie Li, Zhengyuan Yang, Kevin Lin, Jianfeng Wang, Lijuan Wang, Xin Eric Wang

NeurIPS 2025 Elevating Visual Perception in Multimodal LLMs with Visual Embedding Distillation Jitesh Jain, Zhengyuan Yang, Humphrey Shi, Jianfeng Gao, Jianwei Yang

ICLR 2025 GenXD: Generating Any 3D and 4D Scenes Yuyang Zhao, Chung-Ching Lin, Kevin Lin, Zhiwen Yan, Linjie Li, Zhengyuan Yang, Jianfeng Wang, Gim Hee Lee, Lijuan Wang

ICCV 2025 ImageGen-CoT: Enhancing Text-to-Image In-Context Learning with Chain-of-Thought Reasoning Jiaqi Liao, Zhengyuan Yang, Linjie Li, Dianqi Li, Kevin Lin, Yu Cheng, Lijuan Wang

CVPR 2025 LiVOS: Light Video Object Segmentation with Gated Linear Matching Qin Liu, Jianfeng Wang, Zhengyuan Yang, Linjie Li, Kevin Lin, Marc Niethammer, Lijuan Wang

ICLR 2025 MMWorld: Towards Multi-Discipline Multi-Faceted World Model Evaluation in Videos Xuehai He, Weixi Feng, Kaizhi Zheng, Yujie Lu, Wanrong Zhu, Jiachen Li, Yue Fan, Jianfeng Wang, Linjie Li, Zhengyuan Yang, Kevin Lin, William Yang Wang, Lijuan Wang, Xin Eric Wang

NeurIPS 2025 Point-RFT: Improving Multimodal Reasoning with Visually Grounded Reinforcement Finetuning Minheng Ni, Zhengyuan Yang, Linjie Li, Chung-Ching Lin, Kevin Lin, Wangmeng Zuo, Lijuan Wang

ICML 2025 ReFocus: Visual Editing as a Chain of Thought for Structured Image Understanding Xingyu Fu, Minqian Liu, Zhengyuan Yang, John Richard Corring, Yijuan Lu, Jianwei Yang, Dan Roth, Dinei Florencio, Cha Zhang

ICLRW 2025 ReFocus: Visual Editing as a Chain of Thought for Structured Image Understanding Xingyu Fu, Minqian Liu, Zhengyuan Yang, John Richard Corring, Yijuan Lu, Jianwei Yang, Dan Roth, Dinei Florencio, Cha Zhang

ICCV 2025 SITE: Towards Spatial Intelligence Thorough Evaluation Wenqi Wang, Reuben Tan, Pengyue Zhu, Jianwei Yang, Zhengyuan Yang, Lijuan Wang, Andrey Kolobov, Jianfeng Gao, Boqing Gong

ICCV 2025 Scaling Inference-Time Search with Vision Value Model for Improved Visual Comprehension Xiyao Wang, Zhengyuan Yang, Linjie Li, Hongjin Lu, Yuancheng Xu, Chung-Ching Lin, Kevin Lin, Furong Huang, Lijuan Wang

ICLRW 2025 Scaling Inference-Time Search with Vision Value Model for Improved Visual Comprehension Xiyao Wang, Zhengyuan Yang, Linjie Li, Hongjin Lu, Yuancheng Xu, Chung-Ching Lin, Kevin Lin, Furong Huang, Lijuan Wang

CVPR 2025 ShowUI: One Vision-Language-Action Model for GUI Visual Agent Kevin Qinghong Lin, Linjie Li, Difei Gao, Zhengyuan Yang, Shiwei Wu, Zechen Bai, Stan Weixian Lei, Lijuan Wang, Mike Zheng Shou

ICLR 2025 SlowFast-VGen: Slow-Fast Learning for Action-Driven Long Video Generation Yining Hong, Beide Liu, Maxine Wu, Yuanhao Zhai, Kai-Wei Chang, Linjie Li, Kevin Lin, Chung-Ching Lin, Jianfeng Wang, Zhengyuan Yang, Ying Nian Wu, Lijuan Wang

NeurIPS 2025 SoTA with Less: MCTS-Guided Sample Selection for Data-Efficient Visual Reasoning Self-Improvement Xiyao Wang, Zhengyuan Yang, Chao Feng, Hongjin Lu, Linjie Li, Chung-Ching Lin, Kevin Lin, Furong Huang, Lijuan Wang

ICLR 2025 Tuning Timestep-Distilled Diffusion Model Using Pairwise Sample Optimization Zichen Miao, Zhengyuan Yang, Kevin Lin, Ze Wang, Zicheng Liu, Lijuan Wang, Qiang Qiu

NeurIPS 2025 VAGEN: Reinforcing World Model Reasoning for Multi-Turn VLM Agents Kangrui Wang, Pingyue Zhang, Zihan Wang, Yaning Gao, Linjie Li, Qineng Wang, Hanyang Chen, Yiping Lu, Zhengyuan Yang, Lijuan Wang, Ranjay Krishna, Jiajun Wu, Li Fei-Fei, Yejin Choi, Manling Li

NeurIPS 2025 ViCrit: A Verifiable Reinforcement Learning Proxy Task for Visual Perception in VLMs Xiyao Wang, Zhengyuan Yang, Chao Feng, Yuhang Zhou, Xiaoyu Liu, Yongyuan Liang, Ming Li, Ziyi Zang, Linjie Li, Chung-Ching Lin, Kevin Lin, Furong Huang, Lijuan Wang

IJCAI 2024 Bring Metric Functions into Diffusion Models Jie An, Zhengyuan Yang, Jianfeng Wang, Linjie Li, Zicheng Liu, Lijuan Wang, Jiebo Luo

CVPRW 2024 Diagnostic Benchmark and Iterative Inpainting for Layout-Guided Image Generation Jaemin Cho, Linjie Li, Zhengyuan Yang, Zhe Gan, Lijuan Wang, Mohit Bansal

CVPR 2024 DisCo: Disentangled Control for Realistic Human Dance Generation Tan Wang, Linjie Li, Kevin Lin, Yuanhao Zhai, Chung-Ching Lin, Zhengyuan Yang, Hanwang Zhang, Zicheng Liu, Lijuan Wang

ECCV 2024 GRiT: A Generative Region-to-Text Transformer for Object Understanding Jialian Wu, Jianfeng Wang, Zhengyuan Yang, Zhe Gan, Zicheng Liu, Junsong Yuan, Lijuan Wang

ECCV 2024 IDOL: Unified Dual-Modal Latent Diffusion for Human-Centric Joint Video-Depth Generation Yuanhao Zhai, Kevin Lin, Linjie Li, Chung-Ching Lin, Jianfeng Wang, Zhengyuan Yang, David Doermann, Junsong Yuan, Zicheng Liu, Lijuan Wang

ECCV 2024 Idea2Img: Iterative Self-Refinement with GPT-4V for Automatic Image Design and Generation Zhengyuan Yang, Jianfeng Wang, Linjie Li, Kevin Lin, Chung-Ching Lin, Zicheng Liu, Lijuan Wang

NeurIPS 2024 Interfacing Foundation Models' Embeddings Xueyan Zou, Linjie Li, Jianfeng Wang, Jianwei Yang, Mingyu Ding, Junyi Wei, Zhengyuan Yang, Feng Li, Hao Zhang, Shilong Liu, Arul Aravinthan, Yong Jae Lee, Lijuan Wang

CVPR 2024 MM-Narrator: Narrating Long-Form Videos with Multimodal In-Context Learning Chaoyi Zhang, Kevin Lin, Zhengyuan Yang, Jianfeng Wang, Linjie Li, Chung-Ching Lin, Zicheng Liu, Lijuan Wang

ICML 2024 MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities Weihao Yu, Zhengyuan Yang, Linjie Li, Jianfeng Wang, Kevin Lin, Zicheng Liu, Xinchao Wang, Lijuan Wang

CVPR 2024 MMSum: A Dataset for Multimodal Summarization and Thumbnail Generation of Videos Jielin Qiu, Jiacheng Zhu, William Han, Aditesh Kumar, Karthik Mittal, Claire Jin, Zhengyuan Yang, Linjie Li, Jianfeng Wang, Ding Zhao, Bo Li, Lijuan Wang

NeurIPSW 2024 MMWorld: Towards Multi-Discipline Multi-Faceted World Model Evaluation in Videos Xuehai He, Weixi Feng, Kaizhi Zheng, Yujie Lu, Wanrong Zhu, Jiachen Li, Yue Fan, Jianfeng Wang, Linjie Li, Zhengyuan Yang, Kevin Lin, William Yang Wang, Lijuan Wang, Xin Eric Wang

NeurIPS 2024 Motion Consistency Model: Accelerating Video Diffusion with Disentangled Motion-Appearance Distillation Yuanhao Zhai, Kevin Lin, Zhengyuan Yang, Linjie Li, Jianfeng Wang, Chung-Ching Lin, David Doermann, Junsong Yuan, Lijuan Wang

AAAI 2024 SGFormer: Semantic Graph Transformer for Point Cloud-Based 3D Scene Graph Generation Changsheng Lv, Mengshi Qi, Xia Li, Zhengyuan Yang, Huadong Ma

NeurIPSW 2024 ShowUI: One Vision-Language-Action Model for Generalist GUI Agent Kevin Qinghong Lin, Linjie Li, Difei Gao, Zhengyuan Yang, Zechen Bai, Weixian Lei, Lijuan Wang, Mike Zheng Shou

ICML 2024 StrokeNUWA—Tokenizing Strokes for Vector Graphic Synthesis Zecheng Tang, Chenfei Wu, Zekai Zhang, Minheng Ni, Shengming Yin, Yu Liu, Zhengyuan Yang, Lijuan Wang, Zicheng Liu, Juntao Li, Nan Duan

CVPR 2024 Training Diffusion Models Towards Diverse Image Generation with Reinforcement Learning Zichen Miao, Jiang Wang, Ze Wang, Zhengyuan Yang, Lijuan Wang, Qiang Qiu, Zicheng Liu

NeurIPS 2024 VideoGUI: A Benchmark for GUI Automation from Instructional Videos Kevin Qinghong Lin, Linjie Li, Difei Gao, Qinchen Wu, Mingyi Yan, Zhengyuan Yang, Lijuan Wang, Mike Zheng Shou

ICCV 2023 Equivariant Similarity for Vision-Language Foundation Models Tan Wang, Kevin Lin, Linjie Li, Chung-Ching Lin, Zhengyuan Yang, Hanwang Zhang, Zicheng Liu, Lijuan Wang

IJCAI 2023 Learning 3D Photography Videos via Self-Supervised Diffusion on Single Images Xiaodong Wang, Chenfei Wu, Shengming Yin, Minheng Ni, Jianfeng Wang, Linjie Li, Zhengyuan Yang, Fan Yang, Lijuan Wang, Zicheng Liu, Yuejian Fang, Nan Duan

ICCV 2023 PromptCap: Prompt-Guided Image Captioning for VQA with GPT-3 Yushi Hu, Hang Hua, Zhengyuan Yang, Weijia Shi, Noah A. Smith, Jiebo Luo

ICLR 2023 Prompting GPT-3 to Be Reliable Chenglei Si, Zhe Gan, Zhengyuan Yang, Shuohang Wang, Jianfeng Wang, Jordan Lee Boyd-Graber, Lijuan Wang

CVPR 2023 ReCo: Region-Controlled Text-to-Image Generation Zhengyuan Yang, Jianfeng Wang, Zhe Gan, Linjie Li, Kevin Lin, Chenfei Wu, Nan Duan, Zicheng Liu, Ce Liu, Michael Zeng, Lijuan Wang

AAAI 2022 An Empirical Study of GPT-3 for Few-Shot Knowledge-Based VQA Zhengyuan Yang, Zhe Gan, Jianfeng Wang, Xiaowei Hu, Yumao Lu, Zicheng Liu, Lijuan Wang

TMLR 2022 GIT: A Generative Image-to-Text Transformer for Vision and Language Jianfeng Wang, Zhengyuan Yang, Xiaowei Hu, Linjie Li, Kevin Lin, Zhe Gan, Zicheng Liu, Ce Liu, Lijuan Wang

CVPR 2022 Scaling up Vision-Language Pre-Training for Image Captioning Xiaowei Hu, Zhe Gan, Jianfeng Wang, Zhengyuan Yang, Zicheng Liu, Yumao Lu, Lijuan Wang

ECCV 2022 UniTAB: Unifying Text and Box Outputs for Grounded Vision-Language Modeling Zhengyuan Yang, Zhe Gan, Jianfeng Wang, Xiaowei Hu, Faisal Ahmed, Zicheng Liu, Yumao Lu, Lijuan Wang

CVPR 2021 Improving Weakly Supervised Visual Grounding by Contrastive Knowledge Distillation Liwei Wang, Jing Huang, Yin Li, Kun Xu, Zhengyuan Yang, Dong Yu

ICCV 2021 SAT: 2D Semantics Assisted Training for 3D Visual Grounding Zhengyuan Yang, Songyang Zhang, Liwei Wang, Jiebo Luo

CVPR 2021 TAP: Text-Aware Pre-Training for Text-VQA and Text-Caption Zhengyuan Yang, Yijuan Lu, Jianfeng Wang, Xi Yin, Dinei Florencio, Lijuan Wang, Cha Zhang, Lei Zhang, Jiebo Luo

ICCV 2021 TransVG: End-to-End Visual Grounding with Transformers Jiajun Deng, Zhengyuan Yang, Tianlang Chen, Wengang Zhou, Houqiang Li

ECCV 2020 Improving One-Stage Visual Grounding by Recursive Sub-Query Construction Zhengyuan Yang, Tianlang Chen, Liwei Wang, Jiebo Luo