Xu, Ran

53 publications

ICLR 2026 CoAct-1: Computer-Using Multi-Agent System with Coding Actions Linxin Song, Yutong Dai, Viraj Prabhu, Jieyu Zhang, Taiwei Shi, Li Li, Junnan Li, Silvio Savarese, Zeyuan Chen, Jieyu Zhao, Ran Xu, Caiming Xiong

ICLR 2026 GTA1: GUI Test-Time Scaling Agent Yan Yang, Dongxu Li, Yutong Dai, Yuhao Yang, Ziyang Luo, Zirui Zhao, Zhiyuan Hu, Junzhe Huang, Amrita Saha, Zeyuan Chen, Ran Xu, Liyuan Pan, Caiming Xiong, Junnan Li

ICLR 2026 Incentivizing Agentic Reasoning in LLM Judges via Tool-Integrated Reinforcement Learning Ran Xu, Jingjing Chen, Jiayu Ye, Yu Wu, Jun Yan, Carl Yang, Hongkun Yu

ICLR 2026 MedAgentGym: A Scalable Agentic Training Environment for Code-Centric Reasoning in Biomedical Data Science Ran Xu, Yuchen Zhuang, Yishan Zhong, Yue Yu, Zifeng Wang, Xiangru Tang, Hang Wu, May Dongmei Wang, Peifeng Ruan, Donghan Yang, Tao Wang, Guanghua Xiao, Xin Liu, Carl Yang, Yang Xie, Wenqi Shi

ICLR 2026 On the Generalization Capacities of MLLMs for Spatial Intelligence Gongjie Zhang, Wenhao Li, Quanhao Qian, Jiuniu Wang, Deli Zhao, Shijian Lu, Ran Xu

ICLR 2026 SCUBA: Salesforce Computer Use Benchmark Yutong Dai, Krithika Ramakrishnan, Jing Gu, Matthew Fernandez, Yanqi Luo, Viraj Prabhu, Zhenyu Hu, Silvio Savarese, Caiming Xiong, Zeyuan Chen, Ran Xu

TMLR 2026 VLM2Vec-V2: Advancing Multimodal Embedding for Videos, Images, and Visual Documents Rui Meng, Ziyan Jiang, Ye Liu, Mingyi Su, Xinyi Yang, Yuepeng Fu, Can Qin, Raghuveer Thirukovalluru, Xuan Zhang, Zeyuan Chen, Ran Xu, Caiming Xiong, Yingbo Zhou, Wenhu Chen, Semih Yavuz

ICLR 2026 WALT: Web Agents That Learn Tools Viraj Prabhu, Yutong Dai, Matthew Fernandez, Krithika Ramakrishnan, Jing Gu, Yanqi Luo, Silvio Savarese, Caiming Xiong, Junnan Li, Zeyuan Chen, Ran Xu

NeurIPS 2025 AceSearcher: Bootstrapping Reasoning and Search for LLMs via Reinforced Self-Play Ran Xu, Yuchen Zhuang, Zihan Dong, Ruiyu Wang, Yue Yu, Joyce C. Ho, Linjun Zhang, Haoyu Wang, Wenqi Shi, Carl Yang

NeurIPS 2025 DyMU: Dynamic Merging and Virtual Unmerging for Efficient Variable-Length VLMs Zhenhailong Wang, Senthil Purushwalkam, Caiming Xiong, Silvio Savarese, Heng Ji, Ran Xu

ICLRW 2025 RMBoost: Reward Model Training with Preference-Conditional Multi-Aspect Synthetic Data Generation Jiaming Shen, Ran Xu, Yennie Jun, Zhen Qin, Tianqi Liu, Carl Yang, Yi Liang, Simon Baumgartner, Michael Bendersky

ICCV 2025 Structured Policy Optimization: Enhance Large Vision-Language Model via Self-Referenced Dialogue Guohao Sun, Can Qin, Yihao Feng, Zeyuan Chen, Ran Xu, Sohail Dianat, Majid Rabbani, Raghuveer Rao, Zhiqiang Tao

AAAI 2025 Text2Data: Low-Resource Data Generation with Textual Control Shiyu Wang, Yihao Feng, Tian Lan, Ning Yu, Yu Bai, Ran Xu, Huan Wang, Caiming Xiong, Silvio Savarese

ICCV 2025 Towards Scalable Spatial Intelligence via 2D-to-3D Data Lifting Xingyu Miao, Haoran Duan, Quanhao Qian, Jiuniu Wang, Yang Long, Ling Shao, Deli Zhao, Ran Xu, Gongjie Zhang

ICCV 2025 Trust but Verify: Programmatic VLM Evaluation in the Wild Viraj Prabhu, Senthil Purushwalkam, An Yan, Caiming Xiong, Ran Xu

ICLRW 2024 Bolaa: Benchmarking and Orchestrating LLM Autonomous Agents Zhiwei Liu, Weiran Yao, Jianguo Zhang, Le Xue, Shelby Heinecke, R N Rithesh, Yihao Feng, Zeyuan Chen, Juan Carlos Niebles, Devansh Arpit, Ran Xu, Phil L Mui, Huan Wang, Caiming Xiong, Silvio Savarese

CVPR 2024 Continual-MAE: Adaptive Distribution Masked Autoencoders for Continual Test-Time Adaptation Jiaming Liu, Ran Xu, Senqiao Yang, Renrui Zhang, Qizhe Zhang, Zehui Chen, Yandong Guo, Shanghang Zhang

ICLRW 2024 EHRAgent: Code Empowers Large Language Models for Few-Shot Complex Tabular Reasoning on Electronic Health Records Wenqi Shi, Ran Xu, Yuchen Zhuang, Yue Yu, Jieyu Zhang, Hang Wu, Yuanda Zhu, Joyce C. Ho, Carl Yang, May Dongmei Wang

CHIL 2024 From Basic to Extra Features: Hypergraph Transformer Pretrain-Then-Finetuning for Balanced Clinical Predictions on EHR Ran Xu, Yiwen Lu, Chang Liu, Yong Chen, Yan Sun, Xiao Hu, Joyce C Ho, Carl Yang

CVPR 2024 HIVE: Harnessing Human Feedback for Instructional Visual Editing Shu Zhang, Xinyi Yang, Yihao Feng, Can Qin, Chia-Chih Chen, Ning Yu, Zeyuan Chen, Huan Wang, Silvio Savarese, Stefano Ermon, Caiming Xiong, Ran Xu

ECCV 2024 LayoutDETR: Detection Transformer Is a Good Multimodal Layout Designer Ning Yu, Chia-chih Chen, Zeyuan Chen, Rui Meng, Gang Wu, Paul W Josel, Juan Carlos Niebles, Caiming Xiong, Ran Xu

NeurIPS 2024 MINT-1T: Scaling Open-Source Multimodal Data by 10x: A Multimodal Dataset with One Trillion Tokens Anas Awadalla, Le Xue, Oscar Lo, Manli Shu, Hannah Lee, Etash Guha, Matt Jordan, Sheng Shen, Mohamed Awadalla, Silvio Savarese, Caiming Xiong, Ran Xu, Yejin Choi, Ludwig Schmidt

ICML 2024 Position: TrustLLM: Trustworthiness in Large Language Models Yue Huang, Lichao Sun, Haoran Wang, Siyuan Wu, Qihui Zhang, Yuan Li, Chujie Gao, Yixin Huang, Wenhan Lyu, Yixuan Zhang, Xiner Li, Hanchi Sun, Zhengliang Liu, Yixin Liu, Yijue Wang, Zhikun Zhang, Bertie Vidgen, Bhavya Kailkhura, Caiming Xiong, Chaowei Xiao, Chunyuan Li, Eric P. Xing, Furong Huang, Hao Liu, Heng Ji, Hongyi Wang, Huan Zhang, Huaxiu Yao, Manolis Kellis, Marinka Zitnik, Meng Jiang, Mohit Bansal, James Zou, Jian Pei, Jian Liu, Jianfeng Gao, Jiawei Han, Jieyu Zhao, Jiliang Tang, Jindong Wang, Joaquin Vanschoren, John Mitchell, Kai Shu, Kaidi Xu, Kai-Wei Chang, Lifang He, Lifu Huang, Michael Backes, Neil Zhenqiang Gong, Philip S. Yu, Pin-Yu Chen, Quanquan Gu, Ran Xu, Rex Ying, Shuiwang Ji, Suman Jana, Tianlong Chen, Tianming Liu, Tianyi Zhou, William Yang Wang, Xiang Li, Xiangliang Zhang, Xiao Wang, Xing Xie, Xun Chen, Xuyu Wang, Yan Liu, Yanfang Ye, Yinzhi Cao, Yong Chen, Yue Zhao

ICLRW 2024 REX: Rapid Exploration and eXploitation for AI Agents R N Rithesh, Shelby Heinecke, Juan Carlos Niebles, Zhiwei Liu, Le Xue, Weiran Yao, Yihao Feng, Zeyuan Chen, Akash Gokul, Devansh Arpit, Ran Xu, Phil L Mui, Huan Wang, Caiming Xiong, Silvio Savarese

ICLR 2024 Retroformer: Retrospective Large Language Agents with Policy Gradient Optimization Weiran Yao, Shelby Heinecke, Juan Carlos Niebles, Zhiwei Liu, Yihao Feng, Le Xue, R N Rithesh, Zeyuan Chen, Jianguo Zhang, Devansh Arpit, Ran Xu, Phil L Mui, Huan Wang, Caiming Xiong, Silvio Savarese

ECCV 2024 SQ-LLaVA: Self-Questioning for Large Vision-Language Assistant Guohao Sun, Can Qin, Jiaminan Wang, Zeyuan Chen, Ran Xu, Zhiqiang Tao

ICLRW 2024 Text2Data: Low-Resource Data Generation with Textual Control Shiyu Wang, Yihao Feng, Tian Lan, Ning Yu, Yu Bai, Ran Xu, Huan Wang, Caiming Xiong, Silvio Savarese

NeurIPSW 2024 Trust but Verify: Reliable VLM Evaluation In-the-Wild with Program Synthesis Viraj Uday Prabhu, Senthil Purushwalkam, Jieyu Zhang, An Yan, Caiming Xiong, Ran Xu

CVPR 2024 ULIP-2: Towards Scalable Multimodal Pre-Training for 3D Understanding Le Xue, Ning Yu, Shu Zhang, Artemis Panagopoulou, Junnan Li, Roberto Martín-Martín, Jiajun Wu, Caiming Xiong, Ran Xu, Juan Carlos Niebles, Silvio Savarese

ECCV 2024 X-InstructBLIP: A Framework for Aligning Image, 3D, Audio, Video to LLMs and Its Emergent Cross-Modal Reasoning Artemis Panagopoulou, Le Xue, Ning Yu, Li Junnan, Dongxu Li, Shafiq Joty, Ran Xu, Silvio Savarese, Caiming Xiong, Juan Carlos Niebles

ECCVW 2024 xGen-VideoSyn-1: High-Fidelity Text-to-Video Synthesis with Compressed Representations Can Qin, Congying Xia, Krithika Ramakrishnan, Michael S. Ryoo, Lifu Tu, Yihao Feng, Manli Shu, Honglu Zhou, Anas Awadalla, Jun Wang, Senthil Purushwalkam, Le Xue, Yingbo Zhou, Huan Wang, Silvio Savarese, Juan Carlos Niebles, Zeyuan Chen, Ran Xu, Caiming Xiong

ICMLW 2023 A Survey on Knowledge Graphs for Healthcare: Resources, Application Progress, and Promise Hejie Cui, Jiaying Lu, Shiyu Wang, Ran Xu, Wenjing Ma, Shaojun Yu, Yue Yu, Xuan Kan, Tianfan Fu, Chen Ling, Joyce Ho, Fei Wang, Carl Yang

ICCV 2023 Deformer: Dynamic Fusion Transformer for Robust Hand Pose Estimation Qichen Fu, Xingyu Liu, Ran Xu, Juan Carlos Niebles, Kris M. Kitani

ICCV 2023 GlueGen: Plug and Play Multi-Modal Encoders for X-to-Image Generation Can Qin, Ning Yu, Chen Xing, Shu Zhang, Zeyuan Chen, Stefano Ermon, Yun Fu, Caiming Xiong, Ran Xu

NeurIPSW 2023 Knowledge-Infused Prompting Improves Clinical Text Generation with Large Language Models Ran Xu, Hejie Cui, Yue Yu, Xuan Kan, Wenqi Shi, Yuchen Zhuang, Wei Jin, Joyce Ho, Carl Yang

CVPR 2023 Mask-Free OVIS: Open-Vocabulary Instance Segmentation Without Manual Mask Annotations Vibashan Vs, Ning Yu, Chen Xing, Can Qin, Mingfei Gao, Juan Carlos Niebles, Vishal M. Patel, Ran Xu

AAAI 2023 Neighborhood-Regularized Self-Training for Learning with Few Labels Ran Xu, Yue Yu, Hejie Cui, Xuan Kan, Yanqiao Zhu, Joyce C. Ho, Chao Zhang, Carl Yang

NeurIPS 2023 Open Visual Knowledge Extraction via Relation-Oriented Multimodality Model Prompting Hejie Cui, Xinyu Fang, Zihan Zhang, Ran Xu, Xuan Kan, Xin Liu, Yue Yu, Manling Li, Yangqiu Song, Carl Yang

AAAI 2023 Tackling Data Heterogeneity in Federated Learning with Class Prototypes Yutong Dai, Zeyuan Chen, Junnan Li, Shelby Heinecke, Lichao Sun, Ran Xu

CVPR 2023 ULIP: Learning a Unified Representation of Language, Images, and Point Clouds for 3D Understanding Le Xue, Mingfei Gao, Chen Xing, Roberto Martín-Martín, Jiajun Wu, Caiming Xiong, Ran Xu, Juan Carlos Niebles, Silvio Savarese

NeurIPS 2023 UniControl: A Unified Diffusion Model for Controllable Visual Generation in the Wild Can Qin, Shu Zhang, Ning Yu, Yihao Feng, Xinyi Yang, Yingbo Zhou, Huan Wang, Juan Carlos Niebles, Caiming Xiong, Silvio Savarese, Stefano Ermon, Yun Fu, Ran Xu

ECCV 2022 Burn After Reading: Online Adaptation for Cross-Domain Streaming Data Luyu Yang, Mingfei Gao, Zeyuan Chen, Ran Xu, Abhinav Shrivastava, Chetan Ramaiah

ECCV 2022 Open Vocabulary Object Detection with Pseudo Bounding-Box Labels Mingfei Gao, Chen Xing, Juan Carlos Niebles, Junnan Li, Ran Xu, Wenhao Liu, Caiming Xiong

CVPR 2022 SmartAdapt: Multi-Branch Object Detection Framework for Videos on Mobiles Ran Xu, Fangzhou Mu, Jayoung Lee, Preeti Mukherjee, Somali Chaterji, Saurabh Bagchi, Yin Li

CVPR 2022 Use All the Labels: A Hierarchical Multi-Label Contrastive Learning Framework Shu Zhang, Ran Xu, Caiming Xiong, Chetan Ramaiah

IJCAI 2022 Visual Emotion Representation Learning via Emotion-Aware Pre-Training Yue Zhang, Wanying Ding, Ran Xu, Xiaohua Hu

WACV 2021 Proposal Learning for Semi-Supervised Object Detection Peng Tang, Chetan Ramaiah, Yan Wang, Ran Xu, Caiming Xiong

CVPR 2021 WOAD: Weakly Supervised Online Action Detection in Untrimmed Videos Mingfei Gao, Yingbo Zhou, Ran Xu, Richard Socher, Caiming Xiong

ECML-PKDD 2016 Sequential Labeling with Online Deep Learning: Exploring Model Initialization Gang Chen, Ran Xu, Sargur N. Srihari

CVPR 2015 Human Action Segmentation with Hierarchical Supervoxel Consistency Jiasen Lu, Ran Xu, Jason J. Corso

AAAI 2015 Jointly Modeling Deep Video and Compositional Text to Bridge Vision and Language in a Unified Framework Ran Xu, Caiming Xiong, Wei Chen, Jason J. Corso

CVPR 2014 Actionness Ranking with Lattice Conditional Ordinal Random Fields Wei Chen, Caiming Xiong, Ran Xu, Jason J. Corso

CVPR 2010 Cascaded L1-Norm Minimization Learning (CLML) Classifier for Human Detection Ran Xu, Baochang Zhang, Qixiang Ye, Jianbin Jiao