Rao, Yongming

43 publications

CVPR 2025 Coarse Correspondences Boost Spatial-Temporal Reasoning in Multimodal Language Model Benlin Liu, Yuhao Dong, Yiqin Wang, Zixian Ma, Yansong Tang, Luming Tang, Yongming Rao, Wei-Chiu Ma, Ranjay Krishna

CVPR 2025 Insight-V: Exploring Long-Chain Visual Reasoning with Multimodal Large Language Models Yuhao Dong, Zuyan Liu, Hai-Long Sun, Jingkang Yang, Winston Hu, Yongming Rao, Ziwei Liu

ICLR 2025 Oryx MLLM: On-Demand Spatial-Temporal Understanding at Arbitrary Resolution Zuyan Liu, Yuhao Dong, Ziwei Liu, Winston Hu, Jiwen Lu, Yongming Rao

ICML 2025 RBench: Graduate-Level Multi-Disciplinary Benchmarks for LLM & MLLM Complex Reasoning Evaluation Meng-Hao Guo, Jiajun Xu, Yi Zhang, Jiaxi Song, Haoyang Peng, Yi-Xuan Deng, Xinzhi Dong, Kiyohiro Nakayama, Zhengyang Geng, Chen Wang, Bolin Ni, Guo-Wei Yang, Yongming Rao, Houwen Peng, Han Hu, Gordon Wetzstein, Shi-Min Hu

ICCV 2025 SparseMM: Head Sparsity Emerges from Visual Concept Responses in MLLMs Jiahui Wang, Zuyan Liu, Yongming Rao, Jiwen Lu

NeurIPS 2025 Unveiling the Compositional Ability Gap in Vision-Language Reasoning Model Tianle Li, Jihai Zhang, Yongming Rao, Yu Cheng

ECCV 2024 Efficient Inference of Vision Instruction-Following Models with Elastic Cache Zuyan Liu, Benlin Liu, Jiahui Wang, Yuhao Dong, Guangyi Chen, Yongming Rao, Ranjay Krishna, Jiwen Lu

CVPR 2024 Generative Multimodal Models Are In-Context Learners Quan Sun, Yufeng Cui, Xiaosong Zhang, Fan Zhang, Qiying Yu, Yueze Wang, Yongming Rao, Jingjing Liu, Tiejun Huang, Xinlong Wang

CVPR 2024 Sherpa3D: Boosting High-Fidelity Text-to-3D Generation via Coarse 3D Prior Fangfu Liu, Diankun Wu, Yi Wei, Yongming Rao, Yueqi Duan

CVPR 2024 X-3D: Explicit 3D Structure Modeling for Point Cloud Recognition Shuofeng Sun, Yongming Rao, Jiwen Lu, Haibin Yan

CVPR 2023 DiffSwap: High-Fidelity and Controllable Face Swapping via 3D-Aware Masked Diffusion Wenliang Zhao, Yongming Rao, Weikang Shi, Zuyan Liu, Jie Zhou, Jiwen Lu

CVPR 2023 FLAG3D: A 3D Fitness Activity Dataset with Language Instruction Yansong Tang, Jinpeng Liu, Aoyang Liu, Bin Yang, Wenxun Dai, Yongming Rao, Jiwen Lu, Jie Zhou, Xiu Li

ICLR 2023 PLOT: Prompt Learning with Optimal Transport for Vision-Language Models Guangyi Chen, Weiran Yao, Xiangchen Song, Xinyue Li, Yongming Rao, Kun Zhang

ICCV 2023 TCOVIS: Temporally Consistent Online Video Instance Segmentation Junlong Li, Bingyao Yu, Yongming Rao, Jie Zhou, Jiwen Lu

ICCV 2023 Take-a-Photo: 3D-to-2D Generative Pre-Training of Point Cloud Models Ziyi Wang, Xumin Yu, Yongming Rao, Jie Zhou, Jiwen Lu

NeurIPS 2023 UniPC: A Unified Predictor-Corrector Framework for Fast Sampling of Diffusion Models Wenliang Zhao, Lujia Bai, Yongming Rao, Jie Zhou, Jiwen Lu

ICCV 2023 Unleashing Text-to-Image Diffusion Models for Visual Perception Wenliang Zhao, Yongming Rao, Zuyan Liu, Benlin Liu, Jie Zhou, Jiwen Lu

ECCV 2022 AMixer: Adaptive Weight Mixing for Self-Attention Free Vision Transformers Yongming Rao, Wenliang Zhao, Jie Zhou, Jiwen Lu

CVPR 2022 Back to Reality: Weakly-Supervised 3D Object Detection with Shape-Guided Label Enhancement Xiuwei Xu, Yifan Wang, Yu Zheng, Yongming Rao, Jie Zhou, Jiwen Lu

CVPR 2022 DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting Yongming Rao, Wenliang Zhao, Guangyi Chen, Yansong Tang, Zheng Zhu, Guan Huang, Jie Zhou, Jiwen Lu

CVPR 2022 FineDiving: A Fine-Grained Dataset for Procedure-Aware Action Quality Assessment Jinglin Xu, Yongming Rao, Xumin Yu, Guangyi Chen, Jie Zhou, Jiwen Lu

NeurIPS 2022 HorNet: Efficient High-Order Spatial Interactions with Recursive Gated Convolutions Yongming Rao, Wenliang Zhao, Yansong Tang, Jie Zhou, Ser Nam Lim, Jiwen Lu

ECCV 2022 LiDAR Distillation: Bridging the Beam-Induced Domain Gap for 3D Object Detection Yi Wei, Zibu Wei, Yongming Rao, Jiaxin Li, Jie Zhou, Jiwen Lu

NeurIPS 2022 P2P: Tuning Pre-Trained Image Models for Point Cloud Analysis with Point-to-Pixel Prompting Ziyi Wang, Xumin Yu, Yongming Rao, Jie Zhou, Jiwen Lu

CVPR 2022 Point-BERT: Pre-Training 3D Point Cloud Transformers with Masked Point Modeling Xumin Yu, Lulu Tang, Yongming Rao, Tiejun Huang, Jie Zhou, Jiwen Lu

CVPR 2022 SemAffiNet: Semantic-Affine Transformation for Point Cloud Segmentation Ziyi Wang, Yongming Rao, Xumin Yu, Jie Zhou, Jiwen Lu

CVPR 2022 Stochastic Trajectory Prediction via Motion Indeterminacy Diffusion Tianpei Gu, Guangyi Chen, Junlong Li, Chunze Lin, Yongming Rao, Jie Zhou, Jiwen Lu

CoRL 2022 SurroundDepth: Entangling Surrounding Views for Self-Supervised Multi-Camera Depth Estimation Yi Wei, Linqing Zhao, Wenzhao Zheng, Zheng Zhu, Yongming Rao, Guan Huang, Jiwen Lu, Jie Zhou

ICCV 2021 Counterfactual Attention Learning for Fine-Grained Visual Categorization and Re-Identification Yongming Rao, Guangyi Chen, Jiwen Lu, Jie Zhou

NeurIPS 2021 DynamicViT: Efficient Vision Transformers with Dynamic Token Sparsification Yongming Rao, Wenliang Zhao, Benlin Liu, Jiwen Lu, Jie Zhou, Cho-Jui Hsieh

NeurIPS 2021 Global Filter Networks for Image Classification Yongming Rao, Wenliang Zhao, Zheng Zhu, Jiwen Lu, Jie Zhou

ICCV 2021 Group-Aware Contrastive Regression for Action Quality Assessment Xumin Yu, Yongming Rao, Wenliang Zhao, Jiwen Lu, Jie Zhou

AAAI 2021 Multi-Proxy Wasserstein Classifier for Image Classification Benlin Liu, Yongming Rao, Jiwen Lu, Jie Zhou, Cho-Jui Hsieh

ICCV 2021 NerfingMVS: Guided Optimization of Neural Radiance Fields for Indoor Multi-View Stereo Yi Wei, Shaohui Liu, Yongming Rao, Wang Zhao, Jiwen Lu, Jie Zhou

CVPR 2021 PV-RAFT: Point-Voxel Correlation Fields for Scene Flow Estimation of Point Clouds Yi Wei, Ziyi Wang, Yongming Rao, Jiwen Lu, Jie Zhou

ICCV 2021 PoinTr: Diverse Point Cloud Completion with Geometry-Aware Transformers Xumin Yu, Yongming Rao, Ziyi Wang, Zuyan Liu, Jiwen Lu, Jie Zhou

ICCV 2021 RandomRooms: Unsupervised Pre-Training from Synthetic Shapes and Randomized Layouts for 3D Object Detection Yongming Rao, Benlin Liu, Yi Wei, Jiwen Lu, Cho-Jui Hsieh, Jie Zhou

ICCV 2021 Towards Interpretable Deep Metric Learning with Structural Matching Wenliang Zhao, Yongming Rao, Ziyi Wang, Jiwen Lu, Jie Zhou

ECCV 2020 MetaDistiller: Network Self-Boosting via Meta-Learned Top-Down Distillation Benlin Liu, Yongming Rao, Jiwen Lu, Jie Zhou, Cho-Jui Hsieh

ECCV 2020 Temporal Coherence or Temporal Motion: Which Is More Critical for Video-Based Person Re-Identification? Guangyi Chen, Yongming Rao, Jiwen Lu, Jie Zhou

ICCV 2017 Attention-Aware Deep Reinforcement Learning for Video Face Recognition Yongming Rao, Jiwen Lu, Jie Zhou

ICCV 2017 Learning Discriminative Aggregation Network for Video-Based Face Recognition Yongming Rao, Ji Lin, Jiwen Lu, Jie Zhou

NeurIPS 2017 Runtime Neural Pruning Ji Lin, Yongming Rao, Jiwen Lu, Jie Zhou