Ma, Shuming

19 publications

JMLR 2025 BitNet: 1-Bit Pre-Training for Large Language Models Hongyu Wang, Shuming Ma, Lingxiao Ma, Lei Wang, Wenhui Wang, Li Dong, Shaohan Huang, Huaijie Wang, Jilong Xue, Ruiping Wang, Yi Wu, Furu Wei

NeurIPS 2025 Towards Thinking-Optimal Scaling of Test-Time Compute for LLM Reasoning Wenkai Yang, Shuming Ma, Yankai Lin, Furu Wei

ICLR 2024 Grounding Multimodal Large Language Models to the World Zhiliang Peng, Wenhui Wang, Li Dong, Yaru Hao, Shaohan Huang, Shuming Ma, Qixiang Ye, Furu Wei

NeurIPS 2024 Multi-Head Mixture-of-Experts Xun Wu, Shaohan Huang, Wenhui Wang, Shuming Ma, Li Dong, Furu Wei

NeurIPS 2024 You Only Cache Once: Decoder-Decoder Architectures for Language Models Yutao Sun, Li Dong, Yi Zhu, Shaohan Huang, Wenhui Wang, Shuming Ma, Quanlu Zhang, Jianyong Wang, Furu Wei

ICLR 2023 Are More Layers Beneficial to Graph Transformers? Haiteng Zhao, Shuming Ma, Dongdong Zhang, Zhi-Hong Deng, Furu Wei

NeurIPS 2023 Language Is Not All You Need: Aligning Perception with Language Models Shaohan Huang, Li Dong, Wenhui Wang, Yaru Hao, Saksham Singhal, Shuming Ma, Tengchao Lv, Lei Cui, Owais Khan Mohammed, Barun Patra, Qiang Liu, Kriti Aggarwal, Zewen Chi, Nils Bjorck, Vishrav Chaudhary, Subhojit Som, Xia Song, Furu Wei

ICML 2023 Magneto: A Foundation Transformer Hongyu Wang, Shuming Ma, Shaohan Huang, Li Dong, Wenhui Wang, Zhiliang Peng, Yu Wu, Payal Bajaj, Saksham Singhal, Alon Benhaim, Barun Patra, Zhun Liu, Vishrav Chaudhary, Xia Song, Furu Wei

NeurIPS 2023 On the Pareto Front of Multilingual Neural Machine Translation Liang Chen, Shuming Ma, Dongdong Zhang, Furu Wei, Baobao Chang

ICLRW 2023 Why Can GPT Learn In-Context? Language Models Implicitly Perform Gradient Descent as Meta-Optimizers Damai Dai, Yutao Sun, Li Dong, Yaru Hao, Shuming Ma, Zhifang Sui, Furu Wei

IJCAI 2022 A Unified Strategy for Multilingual Grammatical Error Correction with Pre-Trained Cross-Lingual Language Model Xin Sun, Tao Ge, Shuming Ma, Jingjing Li, Furu Wei, Houfeng Wang

IJCAI 2022 High-Resource Language-Specific Training for Multilingual Neural Machine Translation Jian Yang, Yuwei Yin, Shuming Ma, Dongdong Zhang, Zhoujun Li, Furu Wei

NeurIPS 2022 On the Representation Collapse of Sparse Mixture of Experts Zewen Chi, Li Dong, Shaohan Huang, Damai Dai, Shuming Ma, Barun Patra, Saksham Singhal, Payal Bajaj, Xia Song, Xian-Ling Mao, Heyan Huang, Furu Wei

IJCAI 2022 UM4: Unified Multilingual Multiple Teacher-Student Model for Zero-Resource Neural Machine Translation Jian Yang, Yuwei Yin, Shuming Ma, Dongdong Zhang, Shuangzhi Wu, Hongcheng Guo, Zhoujun Li, Furu Wei

AAAI 2020 Alternating Language Modeling for Cross-Lingual Pre-Training Jian Yang, Shuming Ma, Dongdong Zhang, Shuangzhi Wu, Zhoujun Li, Ming Zhou

AAAI 2019 Hierarchical Encoder with Auxiliary Supervision for Neural Table-to-Text Generation: Learning Better Representation for Tables Tianyu Liu, Fuli Luo, Qiaolin Xia, Shuming Ma, Baobao Chang, Zhifang Sui

AAAI 2019 LiveBot: Generating Live Video Comments Based on Visual and Textual Contexts Shuming Ma, Lei Cui, Damai Dai, Furu Wei, Xu Sun

IJCAI 2018 A Hierarchical End-to-End Model for Jointly Improving Text Summarization and Sentiment Classification Shuming Ma, Xu Sun, Junyang Lin, Xuancheng Ren

ICML 2017 meProp: Sparsified Back Propagation for Accelerated Deep Learning with Reduced Overfitting Xu Sun, Xuancheng Ren, Shuming Ma, Houfeng Wang