Chen, Weizhu

57 publications

NeurIPS 2025 Decoder-Hybrid-Decoder Architecture for Efficient Reasoning with Long Generation Liliang Ren, Congcong Chen, Haoran Xu, Young Jin Kim, Adam Atkinson, Zheng Zhan, Jiankai Sun, Baolin Peng, Liyuan Liu, Shuohang Wang, Hao Cheng, Jianfeng Gao, Weizhu Chen, Yelong Shen

AAAI 2025 Key-Point-Driven Data Synthesis with Its Enhancement on Mathematical Reasoning Yiming Huang, Xiao Liu, Yeyun Gong, Zhibin Gou, Yelong Shen, Nan Duan, Weizhu Chen

ICML 2025 LongRoPE2: Near-Lossless LLM Context Window Scaling Ning Shang, Li Lyna Zhang, Siyuan Wang, Gaokai Zhang, Gilsinia Lopez, Fan Yang, Weizhu Chen, Mao Yang

AAAI 2025 MTL-LoRA: Low-Rank Adaptation for Multi-Task Learning Yaming Yang, Dilxat Muhtar, Yelong Shen, Yuefeng Zhan, Jianfeng Liu, Yujing Wang, Hao Sun, Weiwei Deng, Feng Sun, Qi Zhang, Weizhu Chen, Yunhai Tong

NeurIPS 2025 Reinforcement Learning for Reasoning in Large Language Models with One Training Example Yiping Wang, Qing Yang, Zhiyuan Zeng, Liliang Ren, Liyuan Liu, Baolin Peng, Hao Cheng, Xuehai He, Kuan Wang, Jianfeng Gao, Weizhu Chen, Shuohang Wang, Simon Shaolei Du, Yelong Shen

ICLR 2025 Samba: Simple Hybrid State Space Models for Efficient Unlimited Context Language Modeling Liliang Ren, Yang Liu, Yadong Lu, Yelong Shen, Chen Liang, Weizhu Chen

TMLR 2025 Segmenting Text and Learning Their Rewards for Improved RLHF in Language Model Yueqin Yin, Shentao Yang, Yujia Xie, Ziyi Yang, Yuting Sun, Hany Hassan Awadalla, Weizhu Chen, Mingyuan Zhou

NeurIPS 2025 SwS: Self-Aware Weakness-Driven Problem Synthesis in Reinforcement Learning for LLM Reasoning Xiao Liang, Zhong-Zhi Li, Yeyun Gong, Yang Wang, Hengyuan Zhang, Yelong Shen, Ying Nian Wu, Weizhu Chen

ICLR 2024 CRITIC: Large Language Models Can Self-Correct with Tool-Interactive Critiquing Zhibin Gou, Zhihong Shao, Yeyun Gong, Yelong Shen, Yujiu Yang, Nan Duan, Weizhu Chen

ICLR 2024 LoftQ: LoRA-Fine-Tuning-Aware Quantization for Large Language Models Yixiao Li, Yifan Yu, Chen Liang, Nikos Karampatziakis, Pengcheng He, Weizhu Chen, Tuo Zhao

NeurIPS 2024 Make Your LLM Fully Utilize the Context Shengnan An, Zexiong Ma, Zeqi Lin, Nanning Zheng, Jian-Guang Lou, Weizhu Chen

TMLR 2024 Multi-LoRA Composition for Image Generation Ming Zhong, Yelong Shen, Shuohang Wang, Yadong Lu, Yizhu Jiao, Siru Ouyang, Donghan Yu, Jiawei Han, Weizhu Chen

NeurIPS 2024 Not All Tokens Are What You Need for Pretraining Zhenghao Lin, Zhibin Gou, Yeyun Gong, Xiao Liu, Yelong Shen, Ruochen Xu, Chen Lin, Yujiu Yang, Jian Jiao, Nan Duan, Weizhu Chen

ICLR 2024 Seeking Neural Nuggets: Knowledge Transfer in Large Language Models from a Parametric Perspective Ming Zhong, Chenxin An, Weizhu Chen, Jiawei Han, Pengcheng He

ICLR 2024 Supervised Knowledge Makes Large Language Models Better In-Context Learners Linyi Yang, Shuibai Zhang, Zhuohao Yu, Guangsheng Bao, Yidong Wang, Jindong Wang, Ruochen Xu, Wei Ye, Xing Xie, Weizhu Chen, Yue Zhang

ICLR 2024 ToRA: A Tool-Integrated Reasoning Agent for Mathematical Problem Solving Zhibin Gou, Zhihong Shao, Yeyun Gong, Yelong Shen, Yujiu Yang, Minlie Huang, Nan Duan, Weizhu Chen

NeurIPS 2024 WizardArena: Post-Training Large Language Models via Simulated Offline Chatbot Arena Haipeng Luo, Qingfeng Sun, Can Xu, Pu Zhao, Qingwei Lin, Jianguang Lou, Shifeng Chen, Yansong Tang, Weizhu Chen

NeurIPS 2023 AR-Diffusion: Auto-Regressive Diffusion Model for Text Generation Tong Wu, Zhihao Fan, Xiao Liu, Hai-Tao Zheng, Yeyun Gong, Yelong Shen, Jian Jiao, Juntao Li, Zhongyu Wei, Jian Guo, Nan Duan, Weizhu Chen

ICLR 2023 Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning Qingru Zhang, Minshuo Chen, Alexander Bukharin, Pengcheng He, Yu Cheng, Weizhu Chen, Tuo Zhao

NeurIPSW 2023 CRITIC: Large Language Models Can Self-Correct with Tool-Interactive Critiquing Zhibin Gou, Zhihong Shao, Yeyun Gong, Yelong Shen, Yujiu Yang, Nan Duan, Weizhu Chen

ICLR 2023 CodeT: Code Generation with Generated Tests Bei Chen, Fengji Zhang, Anh Nguyen, Daoguang Zan, Zeqi Lin, Jian-Guang Lou, Weizhu Chen

ICLR 2023 DeBERTaV3: Improving DeBERTa Using ELECTRA-Style Pre-Training with Gradient-Disentangled Embedding Sharing Pengcheng He, Jianfeng Gao, Weizhu Chen

ICLR 2023 Diffusion-GAN: Training GANs with Diffusion Zhendong Wang, Huangjie Zheng, Pengcheng He, Weizhu Chen, Mingyuan Zhou

NeurIPSW 2023 HART: Efficient Adaptation via Regularized Autoregressive Parameter Generation Chen Liang, Nikos Karampatziakis, Tuo Zhao, Weizhu Chen

ICML 2023 HyperTuning: Toward Adapting Large Language Models Without Back-Propagation Jason Phang, Yi Mao, Pengcheng He, Weizhu Chen

NeurIPS 2023 In-Context Learning Unlocked for Diffusion Models Zhendong Wang, Yifan Jiang, Yadong Lu, Yelong Shen, Pengcheng He, Weizhu Chen, Zhangyang "Atlas" Wang, Mingyuan Zhou

ICML 2023 Less Is More: Task-Aware Layer-Wise Distillation for Language Model Compression Chen Liang, Simiao Zuo, Qingru Zhang, Pengcheng He, Weizhu Chen, Tuo Zhao

ICML 2023 LoSparse: Structured Compression of Large Language Models Based on Low-Rank and Sparse Approximation Yixiao Li, Yifan Yu, Qingru Zhang, Chen Liang, Pengcheng He, Weizhu Chen, Tuo Zhao

NeurIPS 2023 Meet in the Middle: A New Pre-Training Paradigm Anh Nguyen, Nikos Karampatziakis, Weizhu Chen

NeurIPS 2023 Patch Diffusion: Faster and More Data-Efficient Training of Diffusion Models Zhendong Wang, Yifan Jiang, Huangjie Zheng, Peihao Wang, Pengcheng He, Zhangyang "Atlas" Wang, Weizhu Chen, Mingyuan Zhou

NeurIPSW 2023 Sparse Backpropagation for MoE Training Liyuan Liu, Jianfeng Gao, Weizhu Chen

ICML 2023 Synthetic Prompting: Generating Chain-of-Thought Demonstrations for Large Language Models Zhihong Shao, Yeyun Gong, Yelong Shen, Minlie Huang, Nan Duan, Weizhu Chen

ICML 2023 Text Generation with Diffusion Language Models: A Pre-Training Approach with Continuous Paragraph Denoise Zhenghao Lin, Yeyun Gong, Yelong Shen, Tong Wu, Zhihao Fan, Chen Lin, Nan Duan, Weizhu Chen

ICLR 2023 Truncated Diffusion Probabilistic Models and Diffusion-Based Adversarial Auto-Encoders Huangjie Zheng, Pengcheng He, Weizhu Chen, Mingyuan Zhou

ICLR 2022 Adversarial Retriever-Ranker for Dense Text Retrieval Hang Zhang, Yeyun Gong, Yelong Shen, Jiancheng Lv, Nan Duan, Weizhu Chen

IJCAI 2022 CERT: Continual Pre-Training on Sketches for Library-Oriented Code Generation Daoguang Zan, Bei Chen, Dejian Yang, Zeqi Lin, Minsu Kim, Bei Guan, Yongji Wang, Weizhu Chen, Jian-Guang Lou

ICLR 2022 LoRA: Low-Rank Adaptation of Large Language Models Edward J Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang, Weizhu Chen

ICLR 2022 No Parameters Left Behind: Sensitivity Guided Adaptive Learning Rate for Training Large Transformer Models Chen Liang, Haoming Jiang, Simiao Zuo, Pengcheng He, Xiaodong Liu, Jianfeng Gao, Weizhu Chen, Tuo Zhao

ICML 2022 PLATON: Pruning Large Transformer Models with Upper Confidence Bound of Weight Importance Qingru Zhang, Simiao Zuo, Chen Liang, Alexander Bukharin, Pengcheng He, Weizhu Chen, Tuo Zhao

ECCV 2022 Scalable Learning to Optimize: A Learned Optimizer Can Train Big Models Xuxi Chen, Tianlong Chen, Yu Cheng, Weizhu Chen, Ahmed Awadallah, Zhangyang Wang

ICLR 2022 TAPEX: Table Pre-Training via Learning a Neural SQL Executor Qian Liu, Bei Chen, Jiaqi Guo, Morteza Ziyadi, Zeqi Lin, Weizhu Chen, Jian-Guang Lou

AAAI 2022 XLM-K: Improving Cross-Lingual Language Model Pre-Training with Multilingual Knowledge Xiaoze Jiang, Yaobo Liang, Weizhu Chen, Nan Duan

ICML 2021 BANG: Bridging Autoregressive and Non-Autoregressive Generation with Large Scale Pretraining Weizhen Qi, Yeyun Gong, Jian Jiao, Yu Yan, Weizhu Chen, Dayiheng Liu, Kewen Tang, Houqiang Li, Jiusheng Chen, Ruofei Zhang, Ming Zhou, Nan Duan

ICLR 2021 CoDA: Contrast-Enhanced and Diversity-Promoting Data Augmentation for Natural Language Understanding Yanru Qu, Dinghan Shen, Yelong Shen, Sandra Sajeev, Weizhu Chen, Jiawei Han

ICLR 2021 DeBERTa: Decoding-Enhanced BERT with Disentangled Attention Pengcheng He, Xiaodong Liu, Jianfeng Gao, Weizhu Chen

ICLR 2021 MixKD: Towards Efficient Distillation of Large-Scale Language Models Kevin J Liang, Weituo Hao, Dinghan Shen, Yufan Zhou, Weizhu Chen, Changyou Chen, Lawrence Carin

ICML 2021 Poolingformer: Long Document Modeling with Pooling Attention Hang Zhang, Yeyun Gong, Yelong Shen, Weisheng Li, Jiancheng Lv, Nan Duan, Weizhu Chen

NeurIPS 2021 Tuning Large Neural Networks via Zero-Shot Hyperparameter Transfer Ge Yang, Edward Hu, Igor Babuschkin, Szymon Sidor, Xiaodong Liu, David Farhi, Nick Ryder, Jakub Pachocki, Weizhu Chen, Jianfeng Gao

ICLR 2020 On the Variance of the Adaptive Learning Rate and Beyond Liyuan Liu, Haoming Jiang, Pengcheng He, Weizhu Chen, Xiaodong Liu, Jianfeng Gao, Jiawei Han

JMLR 2019 DSCOVR: Randomized Primal-Dual Block Coordinate Algorithms for Asynchronous Distributed Optimization Lin Xiao, Adams Wei Yu, Qihang Lin, Weizhu Chen

ICMLW 2019 Lessons from Contextual Bandit Learning in a Customer Support Bot Nikos Karampatziakis, Sebastian Kochman, Jade Huang, Paul Mineiro, Kathy Osborne, Weizhu Chen

ICLR 2018 FusionNet: Fusing via Fully-Aware Attention with Application to Machine Comprehension Hsin-Yuan Huang, Chenguang Zhu, Yelong Shen, Weizhu Chen

NeurIPS 2014 Large-Scale L-BFGS Using MapReduce Weizhu Chen, Zhenghao Wang, Jingren Zhou

AAAI 2011 A Whole Page Click Model to Better Interpret Search Engine Click Data Weizhu Chen, Zhanglong Ji, Si Shen, Qiang Yang

IJCAI 2011 Short Text Conceptualization Using a Probabilistic Knowledgebase Yangqiu Song, Haixun Wang, Zhongyuan Wang, Hongsong Li, Weizhu Chen

AAAI 2008 Mining Translations of Web Queries from Web Click-Through Data Rong Hu, Weizhu Chen, Jian Hu, Yansheng Lu, Zheng Chen, Qiang Yang

AAAI 2007 Mining Web Query Hierarchies from Clickthrough Data Dou Shen, Min Qin, Weizhu Chen, Qiang Yang, Zheng Chen