Wu, Yi

89 publications

NeurIPS 2025 AREAL: A Large-Scale Asynchronous Reinforcement Learning System for Language Reasoning Wei Fu, Jiaxuan Gao, Xujie Shen, Chen Zhu, Zhiyu Mei, Chuyi He, Shusheng Xu, Guo Wei, Jun Mei, Wang Jiashu, Tongkai Yang, Binhang Yuan, Yi Wu

JMLR 2025 BitNet: 1-Bit Pre-Training for Large Language Models Hongyu Wang, Shuming Ma, Lingxiao Ma, Lei Wang, Wenhui Wang, Li Dong, Shaohan Huang, Huaijie Wang, Jilong Xue, Ruiping Wang, Yi Wu, Furu Wei

ICCV 2025 Estimating 2D Camera Motion with Hybrid Motion Basis Haipeng Li, Tianhao Zhou, Zhanglei Yang, Yi Wu, Yan Chen, Zijing Mao, Shen Cheng, Bing Zeng, Shuaicheng Liu

NeurIPS 2025 How Far Are We from Optimal Reasoning Efficiency? Jiaxuan Gao, Shu Yan, Qixin Tan, Lu Yang, Shusheng Xu, Wei Fu, Zhiyu Mei, Kaifeng Lyu, Yi Wu

ICLRW 2025 LLMs Are Not Good Strategists, yet Memory-Enhanced Agency Boosts Reasoning Yi Wu, Zhimin Hu

JMLR 2025 Learning Global Nash Equilibrium in Team Competitive Games with Generalized Fictitious Cross-Play Zelai Xu, Chao Yu, Yancheng Liang, Yi Wu, Yu Wang

ICML 2025 Learning Strategic Language Agents in the Werewolf Game with Iterative Latent Space Policy Optimization Zelai Xu, Wanjun Gu, Chao Yu, Yi Wu, Yu Wang

ICLRW 2025 Offline Reinforcement Learning for LLM Multi-Step Reasoning Huaijie Wang, Shibo Hao, Hanze Dong, Shenao Zhang, Yilin Bao, Ziran Yang, Yi Wu

NeurIPS 2025 Reasoning Is Not a Race: When Stopping Early Beats Going Deeper Mohan Zhang, Jiaxuan Gao, Shusheng Xu, Yi Wu

CoRL 2025 Toward Real-World Cooperative and Competitive Soccer with Quadrupedal Robot Teams Zhi Su, Yuman Gao, Emily Lukas, Yunfei Li, Jiaze Cai, Faris Talubah, Fei Gao, Chao Yu, Zhongyu Li, Yi Wu, Koushil Sreenath

NeurIPS 2025 What Can RL Bring to VLA Generalization? an Empirical Study Jijia Liu, Feng Gao, Bingwen Wei, Xinlei Chen, Qingmin Liao, Yi Wu, Chao Yu, Yu Wang

AAAI 2024 Accelerate Multi-Agent Reinforcement Learning in Zero-Sum Games with Subgame Curriculum Learning Jiayu Chen, Zelai Xu, Yunfei Li, Chao Yu, Jiaming Song, Huazhong Yang, Fei Fang, Yu Wang, Yi Wu

ICML 2024 Adaptive-Gradient Policy Optimization: Enhancing Policy Learning in Non-Smooth Differentiable Simulations Feng Gao, Liangzhi Shi, Shenao Zhang, Zhaoran Wang, Yi Wu

ICLR 2024 Efficient Backdoor Attacks for Deep Neural Networks in Real-World Scenarios Ziqiang Li, Hong Sun, Pengfei Xia, Heng Li, Beihao Xia, Yi Wu, Bin Li

ECCV 2024 Infinite-ID: Identity-Preserved Personalization via ID-Semantics Decoupling Paradigm Yi Wu, Ziqiang Li, Heliang Zheng, Chaoyue Wang, Bin Li

ICML 2024 Is DPO Superior to PPO for LLM Alignment? a Comprehensive Study Shusheng Xu, Wei Fu, Jiaxuan Gao, Wenjie Ye, Weilin Liu, Zhiyu Mei, Guangju Wang, Chao Yu, Yi Wu

ICML 2024 Language Agents with Reinforcement Learning for Strategic Play in the Werewolf Game Zelai Xu, Chao Yu, Fei Fang, Yu Wang, Yi Wu

ICLR 2024 SRL: Scaling Distributed Reinforcement Learning to over Ten Thousand Cores Zhiyu Mei, Wei Fu, Jiaxuan Gao, Guangju Wang, Huanchen Zhang, Yi Wu

NeurIPSW 2024 Sharing Minds During MARL Training for Enhanced Cooperative LLM Agents Jiaxuan Gao, Yule Wen, Chao Yu, Yi Wu

ICLR 2024 Stylized Offline Reinforcement Learning: Extracting Diverse High-Quality Behaviors from Heterogeneous Datasets Yihuan Mao, Chengjie Wu, Xi Chen, Hao Hu, Ji Jiang, Tianze Zhou, Tangjie Lv, Changjie Fan, Zhipeng Hu, Yi Wu, Yujing Hu, Chongjie Zhang

AAAI 2023 AlphaSnake: Policy Iteration on a Nondeterministic NP-Hard Markov Decision Process (Student Abstract) Kevin Du, Ian Gemp, Yi Wu, Yingying Wu

IJCAI 2023 Automatic Truss Design with Reinforcement Learning Weihua Du, Jinglun Zhao, Chao Yu, Xingcheng Yao, Zimeng Song, Siyang Wu, Ruifeng Luo, Zhiyuan Liu, Xianzhong Zhao, Yi Wu

TMLR 2023 Beyond Information Gain: An Empirical Benchmark for Low-Switching-Cost Reinforcement Learning Shusheng Xu, Yancheng Liang, Yunfei Li, Simon Shaolei Du, Yi Wu

NeurIPS 2023 Domain Re-Modulation for Few-Shot Generative Domain Adaptation Yi Wu, Ziqiang Li, Chaoyue Wang, Heliang Zheng, Shanshan Zhao, Bin Li, Dacheng Tao

NeurIPSW 2023 Evolving Domain Adaptation of Pretrained Language Models for Text Classification Yun-Shiuan Chuang, Rheeya Uppaal, Yi Wu, Luhang Sun, Makesh Narsimhan Sreedhar, Sijia Yang, Timothy T. Rogers, Junjie Hu

NeurIPS 2023 Iteratively Learn Diverse Strategies with State Distance Information Wei Fu, Weihua Du, Jingwei Li, Sunli Chen, Jingzhao Zhang, Yi Wu

IJCAI 2023 KDLGT: A Linear Graph Transformer Framework via Kernel Decomposition Approach Yi Wu, Yanyang Xu, Wenhao Zhu, Guojie Song, Zhouchen Lin, Liang Wang, Shaoguo Liu

ICLR 2023 Learning Zero-Shot Cooperation with Humans, Assuming Humans Are Biased Chao Yu, Jiaxuan Gao, Weilin Liu, Botian Xu, Hao Tang, Jiaqi Yang, Yu Wang, Yi Wu

AAAI 2023 Maximum Entropy Population-Based Training for Zero-Shot Human-AI Coordination Rui Zhao, Jinming Song, Yufeng Yuan, Haifeng Hu, Yang Gao, Yi Wu, Zhongqian Sun, Wei Yang

ICLRW 2023 PhyloTransformer: A Self-Supervised Discriminative Model for SARS-CoV-2 Viral Mutation Prediction Based on a Multi-Head Self-Attention Mechanism Yingying Wu, Shusheng Xu, Shing-Tung Yau, Yi Wu

ICCV 2023 SOAR: Scene-Debiasing Open-Set Action Recognition Yuanhao Zhai, Ziyi Liu, Zhenyu Wu, Yi Wu, Chunluan Zhou, David Doermann, Junsong Yuan, Gang Hua

ICMLW 2023 SRL: Scaling Distributed Reinforcement Learning to over Ten Thousand Cores Zhiyu Mei, Wei Fu, Guangju Wang, Huanchen Zhang, Yi Wu

ICLRW 2023 Self-Generating Data for Goal-Conditioned Compositional Problems Ying Yuan, Yunfei Li, Yi Wu

ACML 2023 Single Image Super-Resolution Based on Non-Subsampled Shearlet Transform Ming Tan, Liang Chen, Xuan Wu, Yi Wu

ICLR 2023 SpeedyZero: Mastering Atari with Limited Data and Time Yixuan Mei, Jiaxuan Gao, Weirui Ye, Shaohuai Liu, Yang Gao, Yi Wu

TMLR 2023 Understanding Curriculum Learning in Policy Optimization for Online Combinatorial Optimization Runlong Zhou, Zelin He, Yuandong Tian, Yi Wu, Simon Shaolei Du

ICLR 2022 Continuously Discovering Novel Strategies via Reward-Switching Policy Optimization Zihan Zhou, Wei Fu, Bingliang Zhang, Yi Wu

NeurIPS 2022 Grounded Reinforcement Learning: Learning to Win the Game Under Human Commands Shusheng Xu, Huaijie Wang, Yi Wu

ECCV 2022 Learning Efficient Multi-Agent Cooperative Visual Exploration Chao Yu, Xinyi Yang, Jiaxuan Gao, Huazhong Yang, Yu Wang, Yi Wu

ICML 2022 Phasic Self-Imitative Reduction for Sparse-Reward Goal-Conditioned Reinforcement Learning Yunfei Li, Tian Gao, Jiaqi Yang, Huazhe Xu, Yi Wu

NeurIPS 2022 Pre-Trained Image Encoder for Generalizable Visual Reinforcement Learning Zhecheng Yuan, Zhengrong Xue, Bo Yuan, Xueqian Wang, Yi Wu, Yang Gao, Huazhe Xu

ICMLW 2022 Pre-Trained Image Encoder for Generalizable Visual Reinforcement Learning Zhecheng Yuan, Zhengrong Xue, Bo Yuan, Xueqian Wang, Yi Wu, Yang Gao, Huazhe Xu

ICML 2022 Revisiting Some Common Practices in Cooperative Multi-Agent Reinforcement Learning Wei Fu, Chao Yu, Zelai Xu, Jiaqi Yang, Yi Wu

CVPRW 2022 Self-Calibrated Efficient Transformer for Lightweight Super-Resolution Wenbin Zou, Tian Ye, Weixin Zheng, Yunchen Zhang, Liang Chen, Yi Wu

AAAI 2022 Sequence Level Contrastive Learning for Text Summarization Shusheng Xu, Xingxing Zhang, Yi Wu, Furu Wei

NeurIPS 2022 The Surprising Effectiveness of PPO in Cooperative Multi-Agent Games Chao Yu, Akash Velu, Eugene Vinitsky, Jiaxuan Gao, Yu Wang, Alexandre Bayen, Yi Wu

ECCV 2022 Uncertainty-Based Spatial-Temporal Attention for Online Action Detection Hongji Guo, Zhou Ren, Yi Wu, Gang Hua, Qiang Ji

NeurIPSW 2022 Understanding Curriculum Learning in Policy Optimization for Online Combinatorial Optimization Runlong Zhou, Yuandong Tian, Yi Wu, Simon Shaolei Du

NeurIPSW 2021 Continuously Discovering Novel Strategies via Reward-Switching Policy Optimization Zihan Zhou, Wei Fu, Bingliang Zhang, Yi Wu

ICLR 2021 Discovering Diverse Multi-Agent Strategic Behavior via Reward Randomization Zhenggang Tang, Chao Yu, Boyuan Chen, Huazhe Xu, Xiaolong Wang, Fei Fang, Simon Shaolei Du, Yu Wang, Yi Wu

NeurIPSW 2021 Learning Efficient Multi-Agent Cooperative Visual Exploration Chao Yu, Xinyi Yang, Jiaxuan Gao, Huazhong Yang, Yu Wang, Yi Wu

NeurIPS 2021 NovelD: A Simple yet Effective Exploration Criterion Tianjun Zhang, Huazhe Xu, Xiaolong Wang, Yi Wu, Kurt Keutzer, Joseph E Gonzalez, Yuandong Tian

ICCVW 2021 SDWNet: A Straight Dilated Network with Wavelet Transformation for Image Deblurring Wenbin Zou, Mingchao Jiang, Yunchen Zhang, Liang Chen, Zhiyong Lu, Yi Wu

ICLR 2021 Solving Compositional Reinforcement Learning Problems via Task Reduction Yunfei Li, Yilin Wu, Huazhe Xu, Xiaolong Wang, Yi Wu

IJCAI 2021 Temporal Induced Self-Play for Stochastic Bayesian Games Weizhe Chen, Zihan Zhou, Yi Wu, Fei Fang

NeurIPS 2021 Variational Automatic Curriculum Learning for Sparse-Reward Cooperative Multi-Agent Problems Jiayu Chen, Yuanxin Zhang, Yuanfan Xu, Huimin Ma, Huazhong Yang, Jiaming Song, Yu Wang, Yi Wu

ICLR 2020 Emergent Tool Use from Multi-Agent Autocurricula Bowen Baker, Ingmar Kanitscheider, Todor Markov, Yi Wu, Glenn Powell, Bob McGrew, Igor Mordatch

ICLR 2020 Evolutionary Population Curriculum for Scaling Multi-Agent Reinforcement Learning Qian Long, Zihan Zhou, Abhibav Gupta, Fei Fang, Yi Wu, Xiaolong Wang

ICLR 2020 Influence-Based Multi-Agent Exploration Tonghan Wang, Jianhao Wang, Yi Wu, Chongjie Zhang

CVPRW 2020 MSFSR: A Multi-Stage Face Super-Resolution with Accurate Facial Representation via Enhanced Facial Boundaries Yunchen Zhang, Yi Wu, Liang Chen

NeurIPS 2020 Multi-Task Reinforcement Learning with Soft Modularization Ruihan Yang, Huazhe Xu, Yi Wu, Xiaolong Wang

AAAI 2019 Deep Reinforcement Learning for Green Security Games with Real-Time Information Yufei Wang, Zheyuan Ryan Shi, Lantao Yu, Yi Wu, Rohit Singh, Lucas Joppa, Fei Fang

AAAI 2019 Robust Multi-Agent Reinforcement Learning via Minimax Deep Deterministic Policy Gradient Shihui Li, Yi Wu, Xinyue Cui, Honghua Dong, Fei Fang, Stuart Russell

NeurIPS 2019 Stochastic Runge-Kutta Accelerates Langevin Monte Carlo and Beyond Xuechen Li, Yi Wu, Lester Mackey, Murat A Erdogdu

ICML 2018 Discrete-Continuous Mixtures in Probabilistic Programming: Generalized Semantics and Inference Algorithms Yi Wu, Siddharth Srivastava, Nicholas Hay, Simon Du, Stuart Russell

NeurIPS 2018 Meta-Learning MCMC Proposals Tongzhou Wang, Yi Wu, Dave Moore, Stuart Russell

ECCVW 2018 The Sixth Visual Object Tracking VOT2018 Challenge Results Matej Kristan, Ales Leonardis, Jiri Matas, Michael Felsberg, Roman P. Pflugfelder, Luka Cehovin Zajc, Tomás Vojír, Goutam Bhat, Alan Lukezic, Abdelrahman Eldesokey, Gustavo Fernández, Álvaro García-Martín, Álvaro Iglesias-Arias, A. Aydin Alatan, Abel González-García, Alfredo Petrosino, Alireza Memarmoghadam, Andrea Vedaldi, Andrej Muhic, Anfeng He, Arnold W. M. Smeulders, Asanka G. Perera, Bo Li, Boyu Chen, Changick Kim, Changsheng Xu, Changzhen Xiong, Cheng Tian, Chong Luo, Chong Sun, Cong Hao, Daijin Kim, Deepak Mishra, Deming Chen, Dong Wang, Dongyoon Wee, Efstratios Gavves, Erhan Gundogdu, Erik Velasco-Salido, Fahad Shahbaz Khan, Fan Yang, Fei Zhao, Feng Li, Francesco Battistone, George De Ath, Gorthi R. K. Sai Subrahmanyam, Guilherme Sousa Bastos, Haibin Ling, Hamed Kiani Galoogahi, Hankyeol Lee, Haojie Li, Haojie Zhao, Heng Fan, Honggang Zhang, Horst Possegger, Houqiang Li, Huchuan Lu, Hui Zhi, Huiyun Li, Hyemin Lee, Hyung Jin Chang, Isabela Drummond, Jack Valmadre, Jaime Spencer Martin, Javaan Singh Chahl, Jin Young Choi, Jing Li, Jinqiao Wang, Jinqing Qi, Jinyoung Sung, Joakim Johnander, João F. Henriques, Jongwon Choi, Joost van de Weijer, Jorge Rodríguez Herranz, José M. Martínez, Josef Kittler, Junfei Zhuang, Junyu Gao, Klemen Grm, Lichao Zhang, Lijun Wang, Lingxiao Yang, Litu Rout, Liu Si, Luca Bertinetto, Lutao Chu, Manqiang Che, Mario Edoardo Maresca, Martin Danelljan, Ming-Hsuan Yang, Mohamed H. Abdelpakey, Mohamed Shehata, Myunggu Kang, Namhoon Lee, Ning Wang, Ondrej Miksik, Payman Moallem, Pablo Vicente-Moñivar, Pedro Senna, Peixia Li, Philip H. S. Torr, Priya Mariam Raju, Ruihe Qian, Qiang Wang, Qin Zhou, Qing Guo, Rafael Martin Nieto, Rama Krishna Sai Subrahmanyam Gorthi, Ran Tao, Richard Bowden, Richard M. Everson, Runling Wang, Sangdoo Yun, Seokeon Choi, Sergio Vivas, Shuai Bai, Shuangping Huang, Sihang Wu, Simon Hadfield, Siwen Wang, Stuart Golodetz, Ming Tang, Tianyang Xu, Tianzhu Zhang, Tobias Fischer, Vincenzo Santopietro, Vitomir Struc, Wei Wang, Wangmeng Zuo, Wei Feng, Wei Wu, Wei Zou, Weiming Hu, Wengang Zhou, Wenjun Zeng, Xiaofan Zhang, Xiaohe Wu, Xiao-Jun Wu, Xinmei Tian, Yan Li, Yan Lu, Yee Wei Law, Yi Wu, Yiannis Demiris, Yicai Yang, Yifan Jiao, Yuhong Li, Yunhua Zhang, Yuxuan Sun, Zheng Zhang, Zheng Zhu, Zhenhua Feng, Zhihui Wang, Zhiqun He

AAAI 2017 A Nearly-Black-Box Online Algorithm for Joint Parameter and State Estimation in Temporal Models Yusuf Bugra Erol, Yi Wu, Lei Li, Stuart Russell

ICCV 2017 CoupleNet: Coupling Global Structure with Local Parts for Object Detection Yousong Zhu, Chaoyang Zhao, Jinqiao Wang, Xu Zhao, Yi Wu, Hanqing Lu

ICCV 2017 Egocentric Gesture Recognition Using Recurrent 3D Convolutional Neural Networks with Spatiotemporal Transformer Modules Congqi Cao, Yifan Zhang, Yi Wu, Hanqing Lu, Jian Cheng

NeurIPS 2017 Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments Ryan Lowe, Yi Wu, Aviv Tamar, Jean Harb, OpenAI Pieter Abbeel, Igor Mordatch

IJCAI 2017 Value Iteration Networks Aviv Tamar, Yi Wu, Garrett Thomas, Sergey Levine, Pieter Abbeel

AAAI 2016 MC-HOG Correlation Tracking with Saliency Proposal Guibo Zhu, Jinqiao Wang, Yi Wu, Xiaoyu Zhang, Hanqing Lu

IJCAI 2016 Swift: Compiled Inference for Probabilistic Programming Languages Yi Wu, Lei Li, Stuart Russell, Rastislav Bodík

NeurIPS 2016 Value Iteration Networks Aviv Tamar, Yi Wu, Garrett Thomas, Sergey Levine, Pieter Abbeel

WACV 2015 An Ensemble Color Model for Human Re-Identification Xiaokai Liu, Hongyu Wang, Yi Wu, Jimei Yang, Ming-Hsuan Yang

AISTATS 2015 Understanding and Evaluating Sparse Linear Discriminant Analysis Yi Wu, David P. Wipf, Jeong-Min Yun

ICCV 2013 Multiple Non-Rigid Surface Detection and Registration Yi Wu, Yoshihisa Ijiri, Ming-Hsuan Yang

CVPR 2013 Online Object Tracking: A Benchmark Yi Wu, Jongwoo Lim, Ming-Hsuan Yang

NeurIPS 2012 Dual-Space Analysis of the Sparse Linear Model Yi Wu, David P. Wipf

CVPR 2012 Online Robust Image Alignment via Iterative Convex Optimization Yi Wu, Bin Shen, Haibin Ling

AAAI 2012 Polynomially Decomposable Global Cost Functions in Weighted Constraint Satisfaction Jimmy Ho-Man Lee, Ka Lun Leung, Yi Wu

CVPR 2012 Real Time Robust L1 Tracker Using Accelerated Proximal Gradient Approach Chenglong Bao, Yi Wu, Haibin Ling, Hui Ji

ICCV 2011 Blurred Target Tracking by Blur-Driven Tracker Yi Wu, Haibin Ling, Jingyi Yu, Feng Li, Xue Mei, Erkang Cheng

IJCAI 2011 Feature Selection via Joint Embedding Learning and Sparse Regression Chenping Hou, Feiping Nie, Dongyun Yi, Yi Wu

IJCAI 2011 Local and Structural Consistency for Multi-Manifold Clustering Yong Wang, Yuan Jiang, Yi Wu, Zhi-Hua Zhou

AAAI 2011 Localized K-Flats Yong Wang, Yuan Jiang, Yi Wu, Zhi-Hua Zhou

CVPR 2011 Minimum Error Bounded Efficient ℓ1 Tracker with Occlusion Detection Xue Mei, Haibin Ling, Yi Wu, Erik Blasch, Li Bai

ICCV 2009 Real-Time Visual Tracking via Incremental Covariance Tensor Learning Yi Wu, Jian Cheng, Jinqiao Wang, Hanqing Lu