Chu, Thang D.

1 publications

NeurIPS 2025 REINFORCE Converges to Optimal Policies with Any Learning Rate Samuel McLaughlin Robertson, Thang D. Chu, Bo Dai, Dale Schuurmans, Csaba Szepesvari, Jincheng Mei