Reward Adaptation via Q-Manipulation: Provably Beneficial Reward Function Transfer in Reinforcement Learning

Vora, Kevin Jatin

doi:10.24963/IJCAI.2025/1244

Reward Adaptation via Q-Manipulation: Provably Beneficial Reward Function Transfer in Reinforcement Learning

Kevin Jatin Vora

IJCAI 2025 pp. 10979-10980

doi:10.24963/IJCAI.2025/1244 /ijcai/2025/vora2025ijcai-reward/

Abstract

Reinforcement Learning has made great strides in game playing and robotics but faces challenges with sample complexity and generalization. Transfer learning, which allows agents to reuse knowledge from prior tasks, offers a promising solution. My current research focuses on Reward Adaptation, where agents adjust to new reward functions while leveraging knowledge from tasks with different reward functions. I propose Q-Manipulation (Q-M), a method that adapts Q-functions to new rewards by computing and iteratively tightening bounds, akin to value iteration. This allows for action pruning before learning begins, enhancing sample efficiency without compromising policy optimality. Through empirical comparisons I demonstrate its effectiveness, generalizability, and practicality. Future work will handle changes in transition dynamics and continuous MDPs.

PDF IJCAI Semantic Scholar

Cite

Text

Vora. "Reward Adaptation via Q-Manipulation: Provably Beneficial Reward Function Transfer in Reinforcement Learning." International Joint Conference on Artificial Intelligence, 2025. doi:10.24963/IJCAI.2025/1244

Markdown

[Vora. "Reward Adaptation via Q-Manipulation: Provably Beneficial Reward Function Transfer in Reinforcement Learning." International Joint Conference on Artificial Intelligence, 2025.](https://mlanthology.org/ijcai/2025/vora2025ijcai-reward/) doi:10.24963/IJCAI.2025/1244

BibTeX

@inproceedings{vora2025ijcai-reward,
  title     = {{Reward Adaptation via Q-Manipulation: Provably Beneficial Reward Function Transfer in Reinforcement Learning}},
  author    = {Vora, Kevin Jatin},
  booktitle = {International Joint Conference on Artificial Intelligence},
  year      = {2025},
  pages     = {10979-10980},
  doi       = {10.24963/IJCAI.2025/1244},
  url       = {https://mlanthology.org/ijcai/2025/vora2025ijcai-reward/}
}