Zhao, Dongbin

19 publications

ICML 2025 Constrained Exploitability Descent: An Offline Reinforcement Learning Method for Finding Mixed-Strategy Nash Equilibrium Runyu Lu, Yuanheng Zhu, Dongbin Zhao

ICML 2025 DipLLM: Fine-Tuning LLM for Strategic Decision-Making in Diplomacy Kaixuan Xu, Jiajun Chai, Sicheng Li, Yuqian Fu, Yuanheng Zhu, Dongbin Zhao

ICLR 2025 Divergence-Regularized Discounted Aggregation: Equilibrium Finding in Multiplayer Partially Observable Stochastic Games Runyu Lu, Yuanheng Zhu, Dongbin Zhao

ICLR 2025 Empowering LLM Agents with Zero-Shot Optimal Decision-Making Through Q-Learning Jiajun Chai, Sicheng Li, Yuqian Fu, Dongbin Zhao, Yuanheng Zhu

NeurIPS 2025 Equilibrium Policy Generalization: A Reinforcement Learning Framework for Cross-Graph Zero-Shot Generalization in Pursuit-Evasion Games Runyu Lu, Peng Zhang, Ruochuan Shi, Yuanheng Zhu, Dongbin Zhao, Yang Liu, Dong Wang, Cesare Alippi

CoRL 2025 FetchBot: Learning Generalizable Object Fetching in Cluttered Scenes via Zero-Shot Sim2Real Weiheng Liu, Yuxuan Wan, Jilong Wang, Yuxuan Kuang, Xuesong Shi, Haoran Li, Dongbin Zhao, Zhizheng Zhang, He Wang

ICLR 2025 INS: Interaction-Aware Synthesis to Enhance Offline Multi-Agent Reinforcement Learning Yuqian Fu, Yuanheng Zhu, Jian Zhao, Jiajun Chai, Dongbin Zhao

AAAI 2025 In-Dataset Trajectory Return Regularization for Offline Preference-Based Reinforcement Learning Songjun Tu, Jingbo Sun, Qichao Zhang, Yaocheng Zhang, Jia Liu, Ke Chen, Dongbin Zhao

NeurIPS 2025 Learning When to Think: Shaping Adaptive Reasoning in R1-Style Models via Multi-Stage RL Songjun Tu, Jiahao Lin, Qichao Zhang, Xiangyu Tian, Linjing Li, Xiangyuan Lan, Dongbin Zhao

NeurIPS 2025 Learning and Planning Multi-Agent Tasks via an MoE-Based World Model Zijie Zhao, Zhongyue Zhao, Kaixuan Xu, Yuqian Fu, Jiajun Chai, Yuanheng Zhu, Dongbin Zhao

CoRL 2025 ReasonPlan: Unified Scene Prediction and Decision Reasoning for Closed-Loop Autonomous Driving Xueyi Liu, Zuodong Zhong, Qichao Zhang, Yuxin Guo, Yupeng Zheng, Junli Wang, Dongbin Zhao, Yun-Fu Liu, Zhiguo Su, Yinfeng Gao, Qiao Lin, Chen Huiyong

TMLR 2025 SELU: Self-Learning Embodied Multimodal Large Language Models in Unknown Environments Boyu Li, Haobin Jiang, Ziluo Ding, Xinrun Xu, Haoran Li, Dongbin Zhao, Zongqing Lu

ICLR 2025 Unsupervised Zero-Shot Reinforcement Learning via Dual-Value Forward-Backward Representation Jingbo Sun, Songjun Tu, Qichao Zhang, Haoran Li, Xin Liu, Yaran Chen, Ke Chen, Dongbin Zhao

NeurIPS 2025 Videos Are Sample-Efficient Supervisions: Behavior Cloning from Videos via Latent Representations Xin Liu, Haoran Li, Dongbin Zhao

ICCV 2025 World4Drive: End-to-End Autonomous Driving via Intention-Aware Physical Latent World Model Yupeng Zheng, Pengxuan Yang, Zebin Xing, Qichao Zhang, Yuhang Zheng, Yinfeng Gao, Pengfei Li, Teng Zhang, Zhongpu Xia, Peng Jia, XianPeng Lang, Dongbin Zhao

NeurIPSW 2024 Empowering LLM Agents with Zero-Shot Optimal Decision-Making Through Q-Learning Jiajun Chai, Sicheng Li, Yuqian Fu, Dongbin Zhao, Yuanheng Zhu

NeurIPS 2024 Generalizing Consistency Policy to Visual RL with Prioritized Proximal Experience Regularization Haoran Li, Zhennan Jiang, Yuhui Chen, Dongbin Zhao

NeurIPS 2024 Meta-DT: Offline Meta-RL as Conditional Sequence Modeling with World Model Disentanglement Zhi Wang, Li Zhang, Wenhao Wu, Yuanheng Zhu, Dongbin Zhao, Chunlin Chen

ICLRW 2023 Prototypical Context-Aware Dynamics Generalization for High-Dimensional Model-Based Reinforcement Learning Junjie Wang, Yao Mu, Dong Li, Qichao Zhang, Dongbin Zhao, Yuzheng Zhuang, Ping Luo, Bin Wang, Jianye Hao