Luo, Haipeng

98 publications

NeurIPS 2025 Adapting to Stochastic and Adversarial Losses in Episodic MDPs with Aggregate Bandit Feedback Shinji Ito, Kevin Jamieson, Haipeng Luo, Arnab Maiti, Taira Tsuchiya

COLT 2025 Alternating Regret for Online Convex Optimization Soumita Hait, Ping Li, Haipeng Luo, Mengxiao Zhang

NeurIPS 2025 Comparator-Adaptive $\Phi$-Regret: Improved Bounds, Simpler Algorithms, and Applications to Games Soumita Hait, Ping Li, Haipeng Luo, Mengxiao Zhang

ICML 2025 Contextual Linear Bandits with Delay as Payoff Mengxiao Zhang, Yingfei Wang, Haipeng Luo

COLT 2025 Corrupted Learning Dynamics in Games Taira Tsuchiya, Shinji Ito, Haipeng Luo

NeurIPS 2025 From Average-Iterate to Last-Iterate Convergence in Games: A Reduction and Its Applications Yang Cai, Haipeng Luo, Chen-Yu Wei, Weiqiang Zheng

NeurIPS 2025 Improved Bounds for Swap Multicalibration and Swap Omniprediction Haipeng Luo, Spandan Senapati, Vatsal Sharan

NeurIPS 2025 Improved Regret and Contextual Linear Extension for Pandora's Box and Prophet Inequality Junyan Liu, Ziyun Chen, Kun Wang, Haipeng Luo, Lillian J. Ratliff

COLT 2025 Instance-Dependent Regret Bounds for Learning Two-Player Zero-Sum Games with Bandit Feedback Shinji Ito, Haipeng Luo, Taira Tsuchiya, Yue Wu

ICLR 2025 Last-Iterate Convergence Properties of Regret-Matching Algorithms in Games Yang Cai, Gabriele Farina, Julien Grand-Clément, Christian Kroer, Chung-Wei Lee, Haipeng Luo, Weiqiang Zheng

NeurIPS 2025 Simultaneous Swap Regret Minimization via KL-Calibration Haipeng Luo, Spandan Senapati, Vatsal Sharan

ICLR 2025 WizardMath: Empowering Mathematical Reasoning for Large Language Models via Reinforced Evol-Instruct Haipeng Luo, Qingfeng Sun, Can Xu, Pu Zhao, Jian-Guang Lou, Chongyang Tao, Xiubo Geng, Qingwei Lin, Shifeng Chen, Yansong Tang, Dongmei Zhang

ICML 2024 ACPO: A Policy Optimization Algorithm for Average MDPs with Constraints Akhil Agnihotri, Rahul Jain, Haipeng Luo

NeurIPS 2024 Contextual Multinomial Logit Bandits with General Value Functions Mengxiao Zhang, Haipeng Luo

ICML 2024 Efficient Contextual Bandits with Uninformed Feedback Graphs Mengxiao Zhang, Yuheng Zhang, Haipeng Luo, Paul Mineiro

NeurIPS 2024 Fast Last-Iterate Convergence of Learning in Games Requires Forgetful Algorithms Yang Cai, Gabriele Farina, Julien Grand-Clément, Christian Kroer, Chung-Wei Lee, Haipeng Luo, Weiqiang Zheng

AISTATS 2024 Near-Optimal Policy Optimization for Correlated Equilibrium in General-Sum Markov Games Yang Cai, Haipeng Luo, Chen-Yu Wei, Weiqiang Zheng

ICML 2024 Near-Optimal Regret in Linear MDPs with Aggregate Bandit Feedback Asaf Cassel, Haipeng Luo, Aviv Rosenberg, Dmitry Sotnikov

NeurIPS 2024 No-Regret Learning for Fair Multi-Agent Social Welfare Optimization Mengxiao Zhang, Ramiro Deo-Campo Vuong, Haipeng Luo

NeurIPS 2024 On Tractable $\Phi$-Equilibria in Non-Concave Games Yang Cai, Constantinos Daskalakis, Haipeng Luo, Chen-Yu Wei, Weiqiang Zheng

AISTATS 2024 Online Learning in Contextual Second-Price Pay-per-Click Auctions Mengxiao Zhang, Haipeng Luo

NeurIPS 2024 Optimal Multiclass U-Calibration Error and Beyond Haipeng Luo, Spandan Senapati, Vatsal Sharan

NeurIPS 2024 Provably Efficient Interactive-Grounded Learning with Personalized Reward Mengxiao Zhang, Yuheng Zhang, Haipeng Luo, Paul Mineiro

NeurIPS 2024 WizardArena: Post-Training Large Language Models via Simulated Offline Chatbot Arena Haipeng Luo, Qingfeng Sun, Can Xu, Pu Zhao, Qingwei Lin, Jianguang Lou, Shifeng Chen, Yansong Tang, Weizhu Chen

NeurIPSW 2023 Average-Constrained Policy Optimization Akhil Agnihotri, Rahul Jain, Haipeng Luo

CVPR 2023 Bidirectional Cross-Modal Knowledge Exploration for Video Recognition with Pre-Trained Vision-Language Models Wenhao Wu, Xiaohan Wang, Haipeng Luo, Jingdong Wang, Yi Yang, Wanli Ouyang

CVPR 2023 Cap4Video: What Can Auxiliary Captions Do for Text-Video Retrieval? Wenhao Wu, Haipeng Luo, Bo Fang, Jingdong Wang, Wanli Ouyang

NeurIPS 2023 Improved Best-of-Both-Worlds Guarantees for Multi-Armed Bandits: FTRL with General Regularizers and Multiple Optimal Arms Tiancheng Jin, Junyan Liu, Haipeng Luo

ALT 2023 Improved High-Probability Regret for Adversarial Bandits with Time-Varying Feedback Graphs Haipeng Luo, Hanghang Tong, Mengxiao Zhang, Yuheng Zhang

AISTATS 2023 No-Regret Learning in Two-Echelon Supply Chain with Unknown Demand Distribution Mengxiao Zhang, Shi Chen, Haipeng Luo, Yingfei Wang

NeurIPS 2023 No-Regret Online Reinforcement Learning with Adversarial Losses and Transitions Tiancheng Jin, Junyan Liu, Chloé Rouyer, William Chang, Chen-Yu Wei, Haipeng Luo

UAI 2023 Posterior Sampling-Based Online Learning for the Stochastic Shortest Path Model Mehdi Jafarnia-Jahromi, Liyu Chen, Rahul Jain, Haipeng Luo

NeurIPS 2023 Practical Contextual Bandits with Feedback Graphs Mengxiao Zhang, Yuheng Zhang, Olga Vrousgou, Haipeng Luo, Paul Mineiro

ICML 2023 Refined Regret for Adversarial MDPs with Linear Function Approximation Yan Dai, Haipeng Luo, Chen-Yu Wei, Julian Zimmert

NeurIPS 2023 Regret Matching+: (In)Stability and Fast Convergence in Games Gabriele Farina, Julien Grand-Clément, Christian Kroer, Chung-Wei Lee, Haipeng Luo

ICMLW 2023 Uncoupled and Convergent Learning in Two-Player Zero-Sum Markov Games Yang Cai, Haipeng Luo, Chen-Yu Wei, Weiqiang Zheng

NeurIPS 2023 Uncoupled and Convergent Learning in Two-Player Zero-Sum Markov Games with Bandit Feedback Yang Cai, Haipeng Luo, Chen-Yu Wei, Weiqiang Zheng

COLT 2022 Adaptive Bandit Convex Optimization with Heterogeneous Curvature Haipeng Luo, Mengxiao Zhang, Peng Zhao

NeurIPSW 2022 Clairvoyant Regret Minimization: Equivalence with Nemirovski’s Conceptual Prox Method and Extension to General Convex Games Gabriele Farina, Christian Kroer, Chung-Wei Lee, Haipeng Luo

COLT 2022 Corralling a Larger Band of Bandits: A Case Study on Switching Regret for Linear Bandits Haipeng Luo, Mengxiao Zhang, Peng Zhao, Zhi-Hua Zhou

NeurIPS 2022 Follow-the-Perturbed-Leader for Adversarial Markov Decision Processes with Bandit Feedback Yan Dai, Haipeng Luo, Liyu Chen

ICML 2022 Improved No-Regret Algorithms for Stochastic Shortest Path with Linear MDP Liyu Chen, Rahul Jain, Haipeng Luo

ICML 2022 Kernelized Multiplicative Weights for 0/1-Polyhedral Games: Bridging the Gap Between Learning in Extensive-Form and Normal-Form Games Gabriele Farina, Chung-Wei Lee, Haipeng Luo, Christian Kroer

ICML 2022 Learning Infinite-Horizon Average-Reward Markov Decision Process with Constraints Liyu Chen, Rahul Jain, Haipeng Luo

NeurIPS 2022 Near-Optimal Goal-Oriented Reinforcement Learning in Non-Stationary Environments Liyu Chen, Haipeng Luo

NeurIPS 2022 Near-Optimal No-Regret Learning Dynamics for General Convex Games Gabriele Farina, Ioannis Anagnostides, Haipeng Luo, Chung-Wei Lee, Christian Kroer, Tuomas Sandholm

NeurIPS 2022 Near-Optimal Regret for Adversarial MDP with Delayed Bandit Feedback Tiancheng Jin, Tal Lancewicki, Haipeng Luo, Yishay Mansour, Aviv Rosenberg

ICML 2022 No-Regret Learning in Time-Varying Zero-Sum Games Mengxiao Zhang, Peng Zhao, Haipeng Luo, Zhi-Hua Zhou

COLT 2022 Policy Optimization for Stochastic Shortest Path Liyu Chen, Haipeng Luo, Aviv Rosenberg

NeurIPS 2022 Uncoupled Learning Dynamics with $O(\log T)$ Swap Regret in Multiplayer Games Ioannis Anagnostides, Gabriele Farina, Christian Kroer, Chung-Wei Lee, Haipeng Luo, Tuomas Sandholm

AISTATS 2021 Active Online Learning with Hidden Shifting Domains Yining Chen, Haipeng Luo, Tengyu Ma, Chicheng Zhang

AISTATS 2021 Learning Infinite-Horizon Average-Reward MDPs with Linear Function Approximation Chen-Yu Wei, Mehdi Jafarnia Jahromi, Haipeng Luo, Rahul Jain

ICML 2021 Achieving near Instance-Optimality and Minimax-Optimality in Stochastic and Adversarial Linear Bandits Simultaneously Chung-Wei Lee, Haipeng Luo, Chen-Yu Wei, Mengxiao Zhang, Xiaojin Zhang

ALT 2021 Adversarial Online Learning with Changing Action Sets: Efficient Algorithms with Approximate Regret Bounds Ehsan Emamjomeh-Zadeh, Chen-Yu Wei, Haipeng Luo, David Kempe

ICML 2021 Finding the Stochastic Shortest Path with Low Regret: The Adversarial Cost and Unknown Transition Case Liyu Chen, Haipeng Luo

NeurIPS 2021 Implicit Finite-Horizon Approximation and Efficient Optimal Algorithms for Stochastic Shortest Path Liyu Chen, Mehdi Jafarnia-Jahromi, Rahul Jain, Haipeng Luo

COLT 2021 Impossible Tuning Made Possible: A New Expert Algorithm and Its Applications Liyu Chen, Haipeng Luo, Chen-Yu Wei

NeurIPS 2021 Last-Iterate Convergence in Extensive-Form Games Chung-Wei Lee, Christian Kroer, Haipeng Luo

COLT 2021 Last-Iterate Convergence of Decentralized Optimistic Gradient Descent/Ascent in Infinite-Horizon Competitive Markov Games Chen-Yu Wei, Chung-Wei Lee, Mengxiao Zhang, Haipeng Luo

ICLR 2021 Linear Last-Iterate Convergence in Constrained Saddle-Point Optimization Chen-Yu Wei, Chung-Wei Lee, Mengxiao Zhang, Haipeng Luo

COLT 2021 Minimax Regret for Stochastic Shortest Path with Adversarial Costs and Known Transition Liyu Chen, Haipeng Luo, Chen-Yu Wei

COLT 2021 Non-Stationary Reinforcement Learning Without Prior Knowledge: An Optimal Black-Box Approach Chen-Yu Wei, Haipeng Luo

NeurIPS 2021 Policy Optimization in Adversarial MDPs: Improved Exploration via Dilated Bonuses Haipeng Luo, Chen-Yu Wei, Chung-Wei Lee

NeurIPS 2021 The Best of Both Worlds: Stochastic and Adversarial Episodic MDPs with Unknown Transition Tiancheng Jin, Longbo Huang, Haipeng Luo

COLT 2020 A Closer Look at Small-Loss Bounds for Bandits with Graph Feedback Chung-Wei Lee, Haipeng Luo, Mengxiao Zhang

ICMLW 2020 Active Online Domain Adaptation Yining Chen, Haipeng Luo, Tengyu Ma, Chicheng Zhang

NeurIPS 2020 Bias No More: High-Probability Data-Dependent Regret Bounds for Adversarial Bandits and MDPs Chung-Wei Lee, Haipeng Luo, Chen-Yu Wei, Mengxiao Zhang

NeurIPS 2020 Comparator-Adaptive Convex Bandits Dirk van der Hoeven, Ashok Cutkosky, Haipeng Luo

UAI 2020 Fair Contextual Multi-Armed Bandits: Theory and Experiments Yifang Chen, Alex Cuellar, Haipeng Luo, Jignesh Modi, Heramb Nemlekar, Stefanos Nikolaidis

ICML 2020 Learning Adversarial Markov Decision Processes with Bandit Feedback and Unknown Transition Chi Jin, Tiancheng Jin, Haipeng Luo, Suvrit Sra, Tiancheng Yu

ICML 2020 Model-Free Reinforcement Learning in Infinite-Horizon Average-Reward Markov Decision Processes Chen-Yu Wei, Mehdi Jafarnia Jahromi, Haipeng Luo, Hiteshi Sharma, Rahul Jain

COLT 2020 Open Problem: Model Selection for Contextual Bandits Dylan J. Foster, Akshay Krishnamurthy, Haipeng Luo

NeurIPS 2020 Simultaneously Learning Stochastic and Adversarial Episodic MDPs with Known Transition Tiancheng Jin, Haipeng Luo

COLT 2020 Taking a Hint: How to Leverage Loss Predictors in Contextual Bandits? Chen-Yu Wei, Haipeng Luo, Alekh Agarwal

COLT 2019 A New Algorithm for Non-Stationary Contextual Bandits: Efficient, Optimal and Parameter-Free Yifang Chen, Chung-Wei Lee, Haipeng Luo, Chen-Yu Wei

COLT 2019 Achieving Optimal Dynamic Regret for Non-Stationary Bandits Without Prior Information Peter Auer, Yifang Chen, Pratik Gajane, Chung-Wei Lee, Haipeng Luo, Ronald Ortner, Chen-Yu Wei

ICML 2019 Beating Stochastic and Adversarial Semi-Bandits Optimally and Simultaneously Julian Zimmert, Haipeng Luo, Chen-Yu Wei

NeurIPS 2019 Equipping Experts/Bandits with Long-Term Memory Kai Zheng, Haipeng Luo, Ilias Diakonikolas, Liwei Wang

NeurIPS 2019 Hypothesis Set Stability and Generalization Dylan J Foster, Spencer Greenberg, Satyen Kale, Haipeng Luo, Mehryar Mohri, Karthik Sridharan

COLT 2019 Improved Path-Length Regret Bounds for Bandits Sébastien Bubeck, Yuanzhi Li, Haipeng Luo, Chen-Yu Wei

NeurIPS 2019 Model Selection for Contextual Bandits Dylan J Foster, Akshay Krishnamurthy, Haipeng Luo

COLT 2018 Efficient Contextual Bandits in Non-Stationary Worlds Haipeng Luo, Chen-Yu Wei, Alekh Agarwal, John Langford

NeurIPS 2018 Efficient Online Portfolio with Logarithmic Regret Haipeng Luo, Chen-Yu Wei, Kai Zheng

COLT 2018 Logistic Regression: The Importance of Being Improper Dylan J. Foster, Satyen Kale, Haipeng Luo, Mehryar Mohri, Karthik Sridharan

COLT 2018 More Adaptive Algorithms for Adversarial Bandits Chen-Yu Wei, Haipeng Luo

ICML 2018 Practical Contextual Bandits with Regression Oracles Dylan Foster, Alekh Agarwal, Miroslav Dudik, Haipeng Luo, Robert Schapire

COLT 2017 Corralling a Band of Bandit Algorithms Alekh Agarwal, Haipeng Luo, Behnam Neyshabur, Robert E. Schapire

COLT 2017 Open Problem: First-Order Regret Bounds for Contextual Bandits Alekh Agarwal, Akshay Krishnamurthy, John Langford, Haipeng Luo, Robert E. Schapire

NeurIPS 2016 Efficient Second Order Online Learning by Sketching Haipeng Luo, Alekh Agarwal, Nicolò Cesa-Bianchi, John Langford

NeurIPS 2016 Improved Regret Bounds for Oracle-Based Adversarial Contextual Bandits Vasilis Syrgkanis, Haipeng Luo, Akshay Krishnamurthy, Robert E. Schapire

IJCAI 2016 Optimal and Adaptive Algorithms for Online Boosting Alina Beygelzimer, Satyen Kale, Haipeng Luo

ICML 2016 Variance-Reduced and Projection-Free Stochastic Optimization Elad Hazan, Haipeng Luo

COLT 2015 Achieving All with No Parameters: AdaNormalHedge Haipeng Luo, Robert E. Schapire

NeurIPS 2015 Fast Convergence of Regularized Learning in Games Vasilis Syrgkanis, Alekh Agarwal, Haipeng Luo, Robert E. Schapire

NeurIPS 2015 Online Gradient Boosting Alina Beygelzimer, Elad Hazan, Satyen Kale, Haipeng Luo

ICML 2015 Optimal and Adaptive Algorithms for Online Boosting Alina Beygelzimer, Satyen Kale, Haipeng Luo

NeurIPS 2014 A Drifting-Games Analysis for Online Learning and Applications to Boosting Haipeng Luo, Robert E. Schapire

ICML 2014 Towards Minimax Online Learning with Unknown Time Horizon Haipeng Luo, Robert Schapire