Revisiting Group Relative Policy Optimization: Insights into On-Policy and Off-Policy Training

Mroueh, Youssef; Dupuis, Nicolas; Belgodere, Brian; Nitsure, Apoorva; Rigotti, Mattia; Greenewald, Kristjan; Navratil, Jiri; Ross, Jarret; Rios, Jesus

Revisiting Group Relative Policy Optimization: Insights into On-Policy and Off-Policy Training

Youssef Mroueh, Nicolas Dupuis, Brian Belgodere, Apoorva Nitsure, Mattia Rigotti, Kristjan Greenewald, Jiri Navratil, Jarret Ross, Jesus Rios

ICLR 2026

/iclr/2026/mroueh2026iclr-revisiting/

Abstract

We revisit Group Relative Policy Optimization (GRPO) in both on-policy and off-policy optimization regimes. Our motivation comes from recent work on off-policy Proximal Policy Optimization (PPO), which improves training stability, sampling efficiency, and memory usage. In addition, a recent analysis of GRPO suggests that estimating the advantage function with off-policy samples could be beneficial. Building on these observations, we adapt GRPO to the off-policy setting. We show that both on-policy and off-policy GRPO objectives yield an improvement in the reward. This result motivates the use of clipped surrogate objectives in the off-policy version of GRPO. We then compare the empirical performance of reinforcement learning with verifiable rewards in post-training using both GRPO variants. Our results show that off-policy GRPO either significantly outperforms or performs on par with its on-policy counterpart.

PDF ICLR OpenReview Semantic Scholar

Cite

Text

Mroueh et al. "Revisiting Group Relative Policy Optimization: Insights into On-Policy and Off-Policy Training." International Conference on Learning Representations, 2026.

Markdown

[Mroueh et al. "Revisiting Group Relative Policy Optimization: Insights into On-Policy and Off-Policy Training." International Conference on Learning Representations, 2026.](https://mlanthology.org/iclr/2026/mroueh2026iclr-revisiting/)

BibTeX

@inproceedings{mroueh2026iclr-revisiting,
  title     = {{Revisiting Group Relative Policy Optimization: Insights into On-Policy and Off-Policy Training}},
  author    = {Mroueh, Youssef and Dupuis, Nicolas and Belgodere, Brian and Nitsure, Apoorva and Rigotti, Mattia and Greenewald, Kristjan and Navratil, Jiri and Ross, Jarret and Rios, Jesus},
  booktitle = {International Conference on Learning Representations},
  year      = {2026},
  url       = {https://mlanthology.org/iclr/2026/mroueh2026iclr-revisiting/}
}