Rao, Raghuveer

8 publications

NeurIPS 2025 Latent Chain-of-Thought for Visual Reasoning Guohao Sun, Hang Hua, Jian Wang, Jiebo Luo, Sohail Dianat, Majid Rabbani, Raghuveer Rao, Zhiqiang Tao

ICLR 2025 Re-Imagining Multimodal Instruction Tuning: A Representation View Yiyang Liu, James Chenhao Liang, Ruixiang Tang, Yugyung Lee, Majid Rabbani, Sohail Dianat, Raghuveer Rao, Lifu Huang, Dongfang Liu, Qifan Wang, Cheng Han

ICCV 2025 Structured Policy Optimization: Enhance Large Vision-Language Model via Self-Referenced Dialogue Guohao Sun, Can Qin, Yihao Feng, Zeyuan Chen, Ran Xu, Sohail Dianat, Majid Rabbani, Raghuveer Rao, Zhiqiang Tao

ECCV 2024 AMD: Automatic Multi-Step Distillation of Large-Scale Vision Models Cheng Han, Qifan Wang, Sohail A Dianat, Majid Rabbani, Raghuveer Rao, Yi Fang, Qiang Guan, Lifu Huang, Dongfang Liu

NeurIPS 2024 Diffusion-Inspired Truncated Sampler for Text-Video Retrieval Jiamian Wang, Pichao Wang, Dongfang Liu, Qiang Guan, Sohail Dianat, Majid Rabbani, Raghuveer Rao, Zhiqiang Tao

ICLR 2024 Image Translation as Diffusion Visual Programmers Cheng Han, James Chenhao Liang, Qifan Wang, Majid Rabbani, Sohail Dianat, Raghuveer Rao, Ying Nian Wu, Dongfang Liu

ICML 2024 Prototypical Transformer as Unified Motion Learners Cheng Han, Yawen Lu, Guohao Sun, James Chenhao Liang, Zhiwen Cao, Qifan Wang, Qiang Guan, Sohail Dianat, Raghuveer Rao, Tong Geng, Zhiqiang Tao, Dongfang Liu

CVPR 2024 Text Is MASS: Modeling as Stochastic Embedding for Text-Video Retrieval Jiamian Wang, Guohao Sun, Pichao Wang, Dongfang Liu, Sohail Dianat, Majid Rabbani, Raghuveer Rao, Zhiqiang Tao