Dou, Zhihao

1 publications

NeurIPS 2025 SRPO: Enhancing Multimodal LLM Reasoning via Reflection-Aware Reinforcement Learning Zhongwei Wan, Zhihao Dou, Che Liu, Yu Zhang, Dongfei Cui, Qinjian Zhao, Hui Shen, Jing Xiong, Yi Xin, Yifan Jiang, Chaofan Tao, Yangfan He, Mi Zhang, Shen Yan