Yu, Xianzhi

8 publications

ICLR 2026 Scaling up, Speeding up: A Benchmark of Speculative Decoding for Efficient LLM Test-Time Scaling Shengyin Sun, Yiming Li, Xing Li, Yingzhao Lian, Weizhe Lin, Hui-Ling Zhen, Zhiyuan Yang, Xianzhi Yu, Chen Chen, Mingxuan Yuan, Chen Ma

ICLR 2026 TrimR: Verifier-Based Training-Free Thinking Trimming for Efficient Test-Time Scaling Weizhe Lin, Xing Li, Zhiyuan Yang, Xiaojin Fu, Hui-Ling Zhen, Yaoyuan Wang, Xianzhi Yu, Wulong Liu, Xiaosong Li, Mingxuan Yuan

NeurIPS 2025 A Simple Linear Patch Revives Layer-Pruned Large Language Models Xinrui Chen, Haoli Bai, Tao Yuan, Ruikang Liu, Kang Zhao, Xianzhi Yu, Lu Hou, Tian Guan, Yonghong He, Chun Yuan

NeurIPS 2025 AttentionPredictor: Temporal Patterns Matter for KV Cache Compression Qingyue Yang, Jie Wang, Xing Li, Zhihai Wang, Chen Chen, Lei Chen, Xianzhi Yu, Wulong Liu, Jianye Hao, Mingxuan Yuan, Bin Li

ICML 2025 FlatQuant: Flatness Matters for LLM Quantization Yuxuan Sun, Ruikang Liu, Haoli Bai, Han Bao, Kang Zhao, Yuening Li, Jiaxin Hu, Xianzhi Yu, Lu Hou, Chun Yuan, Xin Jiang, Wulong Liu, Jun Yao

NeurIPS 2025 L-MTP: Leap Multi-Token Prediction Beyond Adjacent Context for Large Language Models Xiaohao Liu, Xiaobo Xia, Weixiang Zhao, Manyi Zhang, Xianzhi Yu, Xiu Su, Shuo Yang, See-Kiong Ng, Tat-Seng Chua

NeurIPS 2025 MoESD: Unveil Speculative Decoding's Potential for Accelerating Sparse MoE Zongle Huang, Lei Zhu, ZongYuan Zhan, Ting Hu, Weikai Mao, Xianzhi Yu, Yongpan Liu, Tianyu Zhang

NeurIPS 2022 Accelerating Sparse Convolution with Column Vector-Wise Sparsity Yijun Tan, Kai Han, Kang Zhao, Xianzhi Yu, Zidong Du, Yunji Chen, Yunhe Wang, Jun Yao