Zhang, Yuheng

13 publications

NeurIPS 2025 Improving LLM General Preference Alignment via Optimistic Online Mirror Descent Yuheng Zhang, Dian Yu, Tao Ge, Linfeng Song, Zhichen Zeng, Haitao Mi, Nan Jiang, Dong Yu

ICLR 2025 Iterative Nash Policy Optimization: Aligning LLMs with General Preferences via No-Regret Learning Yuheng Zhang, Dian Yu, Baolin Peng, Linfeng Song, Ye Tian, Mingyue Huo, Nan Jiang, Haitao Mi, Dong Yu

ICLR 2025 Statistical Tractability of Off-Policy Evaluation of History-Dependent Policies in POMDPs Yuheng Zhang, Nan Jiang

ICML 2024 Efficient Contextual Bandits with Uninformed Feedback Graphs Mengxiao Zhang, Yuheng Zhang, Haipeng Luo, Paul Mineiro

NeurIPS 2024 On the Curses of Future and History in Future-Dependent Value Functions for Off-Policy Evaluation Yuheng Zhang, Nan Jiang

NeurIPS 2024 Online Iterative Reinforcement Learning from Human Feedback with General Preference Model Chenlu Ye, Wei Xiong, Yuheng Zhang, Hanze Dong, Nan Jiang, Tong Zhang

NeurIPS 2024 Provably Efficient Interactive-Grounded Learning with Personalized Reward Mengxiao Zhang, Yuheng Zhang, Haipeng Luo, Paul Mineiro

ALT 2023 Improved High-Probability Regret for Adversarial Bandits with Time-Varying Feedback Graphs Haipeng Luo, Hanghang Tong, Mengxiao Zhang, Yuheng Zhang

ICML 2023 Offline Learning in Markov Games with General Function Approximation Yuheng Zhang, Yu Bai, Nan Jiang

NeurIPS 2023 Practical Contextual Bandits with Feedback Graphs Mengxiao Zhang, Yuheng Zhang, Olga Vrousgou, Haipeng Luo, Paul Mineiro

AAAI 2022 Batch Active Learning with Graph Neural Networks via Multi-Agent Deep Reinforcement Learning Yuheng Zhang, Hanghang Tong, Yinglong Xia, Yan Zhu, Yuejie Chi, Lei Ying

NeurIPS 2022 Improved Algorithms for Neural Active Learning Yikun Ban, Yuheng Zhang, Hanghang Tong, Arindam Banerjee, Jingrui He

AAAI 2021 Improving Robustness to Model Inversion Attacks via Mutual Information Regularization Tianhao Wang, Yuheng Zhang, Ruoxi Jia