Sun, Jiaxuan

2 publications

TMLR 2025 DA-DPO: Cost-Efficient Difficulty-Aware Preference Optimization for Reducing MLLM Hallucinations Longtian Qiu, Shan Ning, Chuyu Zhang, Jiaxuan Sun, Xuming He

NeurIPS 2025 NoisyGRPO: Incentivizing Multimodal CoT Reasoning via Noise Injection and Bayesian Estimation Longtian Qiu, Shan Ning, Jiaxuan Sun, Xuming He