Wang, Huazheng

29 publications

TMLR 2026 A Survey of Self-Evolving Agents: What, When, How, and Where to Evolve on the Path to Artificial Super Intelligence Huan-ang Gao, Jiayi Geng, Wenyue Hua, Mengkang Hu, Xinzhe Juan, Hongzhang Liu, Shilong Liu, Jiahao Qiu, Xuan Qi, Qihan Ren, Yiran Wu, Hongru Wang, Han Xiao, Yuhang Zhou, Shaokun Zhang, Jiayi Zhang, Jinyu Xiang, Yixiong Fang, Qiwen Zhao, Dongrui Liu, Cheng Qian, Zhenhailong Wang, Minda Hu, Huazheng Wang, Qingyun Wu, Heng Ji, Mengdi Wang

ICLR 2025 A Common Pitfall of Margin-Based Language Model Alignment: Gradient Entanglement Hui Yuan, Yifan Zeng, Yue Wu, Huazheng Wang, Mengdi Wang, Liu Leqi

NeurIPS 2025 Design-Based Bandits Under Network Interference: Trade-Off Between Regret and Statistical Inference Zichen Wang, Haoyang Hong, Chuanhao Li, Haoxuan Li, Zhiheng Zhang, Huazheng Wang

NeurIPS 2025 Do LVLMs Truly Understand Video Anomalies? Revealing Hallucination via Co-Occurrence Patterns Menghao Zhang, Huazheng Wang, Pengfei Ren, Kangheng Lin, Qi Qi, Haifeng Sun, Zirui Zhuang, Lei Zhang, Jianxin Liao, Jingyu Wang

AAAI 2025 Efficient and Robust Reinforcement Learning from Human Feedback Huazheng Wang

AAAI 2025 FCOM: A Federated Collaborative Online Monitoring Framework via Representation Learning Tanapol Kosolwattana, Huazheng Wang, Raed Al Kontar, Ying Lin

TMLR 2025 Fair Online Influence Maximization Xiangqi Wang, Shaokun Zhang, Jose Efraim Aguilar Escamilla, Qingyun Wu, Xiangliang Zhang, Jian Kang, Huazheng Wang

TMLR 2025 Hard Work Does Not Always Pay Off: On the Robustness of NAS to Data Poisoning Zachary Coalson, Huazheng Wang, Qingyun Wu, Sanghyun Hong

ICML 2025 Provably Efficient Algorithm for Best Scoring Rule Identification in Online Principal-Agent Information Acquisition Zichen Wang, Chuanhao Li, Huazheng Wang

ICML 2025 Which Agent Causes Task Failures and When? on Automated Failure Attribution of LLM Multi-Agent Systems Shaokun Zhang, Ming Yin, Jieyu Zhang, Jiale Liu, Zhiguang Han, Jingyang Zhang, Beibin Li, Chi Wang, Huazheng Wang, Yiran Chen, Qingyun Wu

NeurIPSW 2024 A Common Pitfall of Margin-Based Language Model Alignment: Gradient Entanglement Hui Yuan, Yifan Zeng, Yue Wu, Huazheng Wang, Mengdi Wang, Liu Leqi

ICML 2024 Adversarial Attacks on Combinatorial Multi-Armed Bandits Rishab Balasubramanian, Jiawei Li, Prasad Tadepalli, Huazheng Wang, Qingyun Wu, Haoyu Zhao

TMLR 2024 Adversarial Attacks on Online Learning to Rank with Stochastic Click Models Zichen Wang, Rishab Balasubramanian, Hui Yuan, Chenyu Song, Mengdi Wang, Huazheng Wang

NeurIPSW 2024 AutoDefense: Multi-Agent LLM Defense Against Jailbreak Attacks Yifan Zeng, Yiran Wu, Xiao Zhang, Huazheng Wang, Qingyun Wu

NeurIPSW 2024 Embodied LLM Agents Learn to Cooperate in Organized Teams Xudong Guo, Kaixuan Huang, Jiale Liu, Wenhui Fan, Natalia Vélez, Qingyun Wu, Huazheng Wang, Thomas L. Griffiths, Mengdi Wang

ICLR 2024 PARL: A Unified Framework for Policy Alignment in Reinforcement Learning from Human Feedback Souradip Chakraborty, Amrit Bedi, Alec Koppel, Huazheng Wang, Dinesh Manocha, Mengdi Wang, Furong Huang

UAI 2024 Pure Exploration in Asynchronous Federated Bandits Zichen Wang, Chuanhao Li, Chenyu Song, Lianghui Wang, Quanquan Gu, Huazheng Wang

NeurIPS 2024 RA-PbRL: Provably Efficient Risk-Aware Preference-Based Reinforcement Learning Yujie Zhao, Jose Efraim Aguilar Escamill, Weyl Lu, Huazheng Wang

AAAI 2024 Stealthy Adversarial Attacks on Stochastic Multi-Armed Bandits Zhiwei Wang, Huazheng Wang, Hongning Wang

AAAI 2024 Tree Search-Based Evolutionary Bandits for Protein Sequence Optimization Jiahao Qiu, Hui Yuan, Jinghong Zhang, Wentao Chen, Huazheng Wang, Mengdi Wang

ICLR 2023 Learning Kernelized Contextual Bandits in a Distributed and Asynchronous Environment Chuanhao Li, Huazheng Wang, Mengdi Wang, Hongning Wang

ICML 2023 Provably Efficient Representation Learning with Tractable Planning in Low-Rank POMDP Jiacheng Guo, Zihao Li, Huazheng Wang, Mengdi Wang, Zhuoran Yang, Xuezhou Zhang

NeurIPSW 2023 Tree Search-Based Evolutionary Bandits for Protein Sequence Optimization Jiahao Qiu, Hui Yuan, Jinghong Zhang, Wentao Chen, Huazheng Wang, Mengdi Wang

NeurIPS 2023 Unified Off-Policy Learning to Rank: A Reinforcement Learning Perspective Zeyu Zhang, Yi Su, Hui Yuan, Yiran Wu, Rishab Balasubramanian, Qingyun Wu, Huazheng Wang, Mengdi Wang

NeurIPS 2022 Bandit Theory and Thompson Sampling-Guided Directed Evolution for Sequence Optimization Hui Yuan, Chengzhuo Ni, Huazheng Wang, Xuezhou Zhang, Le Cong, Csaba Szepesvari, Mengdi Wang

NeurIPS 2022 Communication Efficient Distributed Learning for Kernelized Contextual Bandits Chuanhao Li, Huazheng Wang, Mengdi Wang, Hongning Wang

ICML 2022 When Are Linear Stochastic Bandits Attackable? Huazheng Wang, Haifeng Xu, Hongning Wang

AAAI 2020 Incentivized Exploration for Multi-Armed Bandits Under Reward Drift Zhiyuan Liu, Huazheng Wang, Fan Shen, Kai Liu, Lijun Chen

AAAI 2017 Factorization Bandits for Interactive Recommendation Huazheng Wang, Qingyun Wu, Hongning Wang