Cao, Sheng

3 publications

ICLR 2026 MobileLLM-R1: Exploring the Limits of Sub-Billion Language Model Reasoners with Open Training Recipes Changsheng Zhao, Ernie Chang, Zechun Liu, Chia-Jung Chang, Wei Wen, Chen Lai, Sheng Cao, Yuandong Tian, Raghuraman Krishnamoorthi, Yangyang Shi, Vikas Chandra

ICLR 2026 Stem: Scaling Transformers with Embedding Modules Ranajoy Sadhukhan, Sheng Cao, Harry Dong, Changsheng Zhao, Attiano Purpura-Pontoniere, Yuandong Tian, Zechun Liu, Beidi Chen

ICLR 2025 Param$\Delta$ for Direct Mixing: Post-Train Large Language Model at Zero Cost Sheng Cao, Mingrui Wu, Karthik Prasad, Yuandong Tian, Zechun Liu