Xun, Zhou

7 publications

NeurIPS 2025 HybridNorm: Towards Stable and Efficient Transformer Training via Hybrid Normalization Zhijian Zhuo, Yutao Zeng, Ya Wang, Sijun Zhang, Xiaoqing Li, Jian Yang, Zhou Xun, Jinwen Ma

ICML 2025 Investigating the Overlooked Hessian Structure: From CNNs to LLMs Qian-Yuan Tang, Yufei Gu, Yunfeng Cai, Mingming Sun, Ping Li, Zhou Xun, Zeke Xie

ICML 2025 MARS: Unleashing the Power of Variance Reduction for Training Large Models Huizhuo Yuan, Yifeng Liu, Shuang Wu, Zhou Xun, Quanquan Gu

NeurIPS 2025 Model Merging in Pre-Training of Large Language Models Yunshui Li, Yiyuan Ma, Shen Yan, Chaoyi Zhang, Jing Liu, Jianqiao Lu, Ziwen Xu, Mengzhao Chen, Minrui Wang, Shiyi Zhan, Jin Ma, Xunhao Lai, Yao Luo, Xingyan Bin, Hongbin Ren, Mingji Han, Wenhao Hao, Bairen Yi, LingJun Liu, Bole Ma, Xiaoying Jia, Zhou Xun, Liang Xiang, Yonghui Wu

ICML 2025 Over-Tokenized Transformer: Vocabulary Is Generally Worth Scaling Hongzhi Huang, Defa Zhu, Banggu Wu, Yutao Zeng, Ya Wang, Qiyang Min, Zhou Xun

NeurIPS 2025 Stepsize Anything: A Unified Learning Rate Schedule for Budgeted-Iteration Training Anda Tang, Yiming Dong, Yutao Zeng, Zhou Xun, Zhouchen Lin

ICLR 2025 Ultra-Sparse Memory Network Zihao Huang, Qiyang Min, Hongzhi Huang, Yutao Zeng, Defa Zhu, Ran Guo, Zhou Xun