Ding, Mingyu

52 publications

CVPR 2025 CompGS: Unleashing 2D Compositionality for Compositional Text-to-3D via Dynamically Optimizing 3D Gaussians Chongjian Ge, Chenfeng Xu, Yuanfeng Ji, Chensheng Peng, Masayoshi Tomizuka, Ping Luo, Mingyu Ding, Varun Jampani, Wei Zhan

CVPR 2025 DexHandDiff: Interaction-Aware Diffusion Planning for Adaptive Dexterous Manipulation Zhixuan Liang, Yao Mu, Yixiao Wang, Tianxing Chen, Wenqi Shao, Wei Zhan, Masayoshi Tomizuka, Ping Luo, Mingyu Ding

ICLRW 2025 GRAPE: Generalizing Robot Policy via Preference Alignment Zijian Zhang, Kaiyuan Zheng, Zhaorun Chen, Joel Jang, Yi Li, Siwei Han, Chaoqi Wang, Mingyu Ding, Dieter Fox, Huaxiu Yao

NeurIPS 2025 MJ-Video: Benchmarking and Rewarding Video Generation with Fine-Grained Video Preference Haibo Tong, Zhaoyang Wang, Zhaorun Chen, Haonian Ji, Shi Qiu, Siwei Han, Kexin Geng, Zhongkai Xue, Yiyang Zhou, Peng Xia, Mingyu Ding, Rafael Rafailov, Chelsea Finn, Huaxiu Yao

ICLR 2025 MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models Peng Xia, Siwei Han, Shi Qiu, Yiyang Zhou, Zhaoyang Wang, Wenhao Zheng, Zhaorun Chen, Chenhang Cui, Mingyu Ding, Linjie Li, Lijuan Wang, Huaxiu Yao

ICCV 2025 Moto: Latent Motion Token as the Bridging Language for Learning Robot Manipulation from Videos Yi Chen, Yuying Ge, Weiliang Tang, Yizhuo Li, Yixiao Ge, Mingyu Ding, Ying Shan, Xihui Liu

CVPR 2025 RoboTwin: Dual-Arm Robot Benchmark with Generative Digital Twins Yao Mu, Tianxing Chen, Zanxin Chen, Shijia Peng, Zhiqian Lan, Zeyu Gao, Zhixuan Liang, Qiaojun Yu, Yude Zou, Mingkun Xu, Lunkai Lin, Zhiqiang Xie, Mingyu Ding, Ping Luo

ICML 2025 WOMD-Reasoning: A Large-Scale Dataset for Interaction Reasoning in Driving Yiheng Li, Cunxin Fan, Chongjian Ge, Seth Z. Zhao, Chenran Li, Chenfeng Xu, Huaxiu Yao, Masayoshi Tomizuka, Bolei Zhou, Chen Tang, Mingyu Ding, Wei Zhan

ICLR 2025 X-Drive: Cross-Modality Consistent Multi-Sensor Data Synthesis for Driving Scenarios Yichen Xie, Chenfeng Xu, Chensheng Peng, Shuqi Zhao, Nhat Ho, Alexander T. Pham, Mingyu Ding, Masayoshi Tomizuka, Wei Zhan

NeurIPS 2024 Interfacing Foundation Models' Embeddings Xueyan Zou, Linjie Li, Jianfeng Wang, Jianwei Yang, Mingyu Ding, Junyi Wei, Zhengyuan Yang, Feng Li, Hao Zhang, Shilong Liu, Arul Aravinthan, Yong Jae Lee, Lijuan Wang

NeurIPSW 2024 MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models Peng Xia, Siwei Han, Shi Qiu, Yiyang Zhou, Zhaoyang Wang, Wenhao Zheng, Zhaorun Chen, Chenhang Cui, Mingyu Ding, Linjie Li, Lijuan Wang, Huaxiu Yao

NeurIPS 2024 MoLE: Enhancing Human-Centric Text-to-Image Diffusion via Mixture of Low-Rank Experts Jie Zhu, Yixiong Chen, Mingyu Ding, Ping Luo, Leye Wang, Jingdong Wang

CoRL 2024 Q-SLAM: Quadric Representations for Monocular SLAM Chensheng Peng, Chenfeng Xu, Yue Wang, Mingyu Ding, Heng Yang, Masayoshi Tomizuka, Kurt Keutzer, Marco Pavone, Wei Zhan

ICML 2024 RoboCodeX: Multimodal Code Generation for Robotic Behavior Synthesis Yao Mu, Junting Chen, Qing-Long Zhang, Shoufa Chen, Qiaojun Yu, Chongjian Ge, Runjian Chen, Zhixuan Liang, Mengkang Hu, Chaofan Tao, Peize Sun, Haibao Yu, Chao Yang, Wenqi Shao, Wenhai Wang, Jifeng Dai, Yu Qiao, Mingyu Ding, Ping Luo

CVPR 2024 SkillDiffuser: Interpretable Hierarchical Planning via Skill Abstractions in Diffusion-Based Task Execution Zhixuan Liang, Yao Mu, Hengbo Ma, Masayoshi Tomizuka, Mingyu Ding, Ping Luo

CoRL 2024 Sparse Diffusion Policy: A Sparse, Reusable, and Flexible Policy for Robot Learning Yixiao Wang, Yifei Zhang, Mingxiao Huo, Thomas Tian, Xiang Zhang, Yichen Xie, Chenfeng Xu, Pengliang Ji, Wei Zhan, Mingyu Ding, Masayoshi Tomizuka

ICLR 2024 Tree-Planner: Efficient Close-Loop Task Planning with Large Language Models Mengkang Hu, Yao Mu, Xinmiao Chelsey Yu, Mingyu Ding, Shiguang Wu, Wenqi Shao, Qiguang Chen, Bin Wang, Yu Qiao, Ping Luo

ICLR 2024 UniAdapter: Unified Parameter-Efficient Transfer Learning for Cross-Modal Modeling Haoyu Lu, Yuqi Huo, Guoxing Yang, Zhiwu Lu, Wei Zhan, Masayoshi Tomizuka, Mingyu Ding

ICLR 2024 VDT: General-Purpose Video Diffusion Transformers via Mask Modeling Haoyu Lu, Guoxing Yang, Nanyi Fei, Yuqi Huo, Zhiwu Lu, Ping Luo, Mingyu Ding

ICML 2023 AdaptDiffuser: Diffusion Models as Adaptive Self-Evolving Planners Zhixuan Liang, Yao Mu, Mingyu Ding, Fei Ni, Masayoshi Tomizuka, Ping Luo

NeurIPS 2023 Doubly-Robust Self-Training Banghua Zhu, Mingyu Ding, Philip Jacobson, Ming Wu, Wei Zhan, Michael I. Jordan, Jiantao Jiao

CVPR 2023 EC2: Emergent Communication for Embodied Control Yao Mu, Shunyu Yao, Mingyu Ding, Ping Luo, Chuang Gan

NeurIPS 2023 EmbodiedGPT: Vision-Language Pre-Training via Embodied Chain of Thought Yao Mu, Qinglong Zhang, Mengkang Hu, Wenhai Wang, Mingyu Ding, Jun Jin, Bin Wang, Jifeng Dai, Yu Qiao, Ping Luo

CVPR 2023 Mod-SQuAD: Designing Mixtures of Experts as Modular Multi-Task Learners Zitian Chen, Yikang Shen, Mingyu Ding, Zhenfang Chen, Hengshuang Zhao, Erik G. Learned-Miller, Chuang Gan

NeurIPS 2023 Physion++: Evaluating Physical Scene Understanding That Requires Online Inference of Different Physical Properties Hsiao-Yu Tung, Mingyu Ding, Zhenfang Chen, Daniel Bear, Chuang Gan, Josh Tenenbaum, Dan Yamins, Judith Fan, Kevin Smith

ICLR 2023 Planning with Large Language Models for Code Generation Shun Zhang, Zhenfang Chen, Yikang Shen, Mingyu Ding, Joshua B. Tenenbaum, Chuang Gan

ICCV 2023 TextPSG: Panoptic Scene Graph Generation from Textual Descriptions Chengyang Zhao, Yikang Shen, Zhenfang Chen, Mingyu Ding, Chuang Gan

NeurIPS 2023 Towards Free Data Selection with General-Purpose Models Yichen Xie, Mingyu Ding, Masayoshi Tomizuka, Wei Zhan

TMLR 2023 Understanding Self-Supervised Pretraining with Part-Aware Representation Learning Jie Zhu, Jiyang Qi, Mingyu Ding, Xiaokang Chen, Ping Luo, Xinggang Wang, Wenyu Liu, Leye Wang, Jingdong Wang

CVPR 2023 Visual Dependency Transformers: Dependency Tree Emerges from Reversed Attention Mingyu Ding, Yikang Shen, Lijie Fan, Zhenfang Chen, Zitian Chen, Ping Luo, Joshua B. Tenenbaum, Chuang Gan

ICLR 2022 ComPhy: Compositional Physical Reasoning of Objects and Events from Videos Zhenfang Chen, Kexin Yi, Yunzhu Li, Mingyu Ding, Antonio Torralba, Joshua B. Tenenbaum, Chuang Gan

ICML 2022 CtrlFormer: Learning Transferable State Representation for Visual Control via Transformer Yao Mark Mu, Shoufa Chen, Mingyu Ding, Jianyu Chen, Runjian Chen, Ping Luo

ECCV 2022 DaViT: Dual Attention Vision Transformers Mingyu Ding, Bin Xiao, Noel Codella, Ping Luo, Jingdong Wang, Lu Yuan

CoRL 2022 Embodied Concept Learner: Self-Supervised Learning of Concepts and Mapping Through Instruction Following Mingyu Ding, Yan Xu, Zhenfang Chen, David Daniel Cox, Ping Luo, Joshua B. Tenenbaum, Chuang Gan

NeurIPS 2022 LGDN: Language-Guided Denoising Network for Video-Language Modeling Haoyu Lu, Mingyu Ding, Nanyi Fei, Yuqi Huo, Zhiwu Lu

ICLR 2022 Learning Versatile Neural Architectures by Propagating Network Codes Mingyu Ding, Yuqi Huo, Haoyu Lu, Linjie Yang, Zhe Wang, Zhiwu Lu, Jingdong Wang, Ping Luo

NeurIPSW 2022 Planning with Large Language Models for Code Generation Shun Zhang, Zhenfang Chen, Yikang Shen, Mingyu Ding, Joshua B. Tenenbaum, Chuang Gan

AAAI 2021 A Global Occlusion-Aware Approach to Self-Supervised Monocular Visual Odometry Yao Lu, Xiaoli Xu, Mingyu Ding, Zhiwu Lu, Tao Xiang

NeurIPS 2021 Compressed Video Contrastive Learning Yuqi Huo, Mingyu Ding, Haoyu Lu, Nanyi Fei, Zhiwu Lu, Ji-Rong Wen, Ping Luo

WACV 2021 Domain-Adaptive Few-Shot Learning An Zhao, Mingyu Ding, Zhiwu Lu, Tao Xiang, Yulei Niu, Jiechao Guan, Ji-Rong Wen

NeurIPS 2021 Dynamic Visual Reasoning by Learning Differentiable Physics Models from Video and Language Mingyu Ding, Zhenfang Chen, Tao Du, Ping Luo, Josh Tenenbaum, Chuang Gan

CVPR 2021 HR-NAS: Searching Efficient High-Resolution Neural Architectures with Lightweight Transformers Mingyu Ding, Xiaochen Lian, Linjie Yang, Peng Wang, Xiaojie Jin, Zhiwu Lu, Ping Luo

ICLR 2021 IEPT: Instance-Level and Episode-Level Pretext Tasks for Few-Shot Learning Manli Zhang, Jianhong Zhang, Zhiwu Lu, Tao Xiang, Mingyu Ding, Songfang Huang

CVPR 2021 L2M-GAN: Learning to Manipulate Latent Space Semantics for Facial Attribute Editing Guoxing Yang, Nanyi Fei, Mingyu Ding, Guangzhen Liu, Zhiwu Lu, Tao Xiang

IJCAI 2021 Self-Supervised Video Representation Learning with Constrained Spatiotemporal Jigsaw Yuqi Huo, Mingyu Ding, Haoyu Lu, Ziyuan Huang, Mingqian Tang, Zhiwu Lu, Tao Xiang

ECCV 2020 Dense Hybrid Recurrent Multi-View Stereo Net with Dynamic Consistency Checking Jianfeng Yan, Zizhuang Wei, Hongwei Yi, Mingyu Ding, Runze Zhang, Yisong Chen, Guoping Wang, Yu-Wing Tai

AAAI 2020 Every Frame Counts: Joint Learning of Video Segmentation and Optical Flow Mingyu Ding, Zhe Wang, Bolei Zhou, Jianping Shi, Zhiwu Lu, Ping Luo

CVPRW 2020 Learning Depth-Guided Convolutions for Monocular 3D Object Detection Mingyu Ding, Yuqi Huo, Hongwei Yi, Zhe Wang, Jianping Shi, Zhiwu Lu, Ping Luo

ECCVW 2020 Lightweight Action Recognition in Compressed Videos Yuqi Huo, Xiaoli Xu, Yao Lu, Yulei Niu, Mingyu Ding, Zhiwu Lu, Tao Xiang, Ji-Rong Wen

ECCV 2020 Pyramid Multi-View Stereo Net with Self-Adaptive View Aggregation Hongwei Yi, Zizhuang Wei, Mingyu Ding, Runze Zhang, Yisong Chen, Guoping Wang, Yu-Wing Tai

ECCV 2020 Segmenting Transparent Objects in the Wild Enze Xie, Wenjia Wang, Wenhai Wang, Mingyu Ding, Chunhua Shen, Ping Luo

NeurIPS 2018 Domain-Invariant Projection Learning for Zero-Shot Recognition An Zhao, Mingyu Ding, Jiechao Guan, Zhiwu Lu, Tao Xiang, Ji-Rong Wen