Zhang, Pengle

6 publications

ICLRW 2025 SageAttention2: Efficient Attention with Smoothing Q and Per-Thread Quantization Jintao Zhang, Haofeng Huang, Pengle Zhang, Jia Wei, Jun Zhu, Jianfei Chen

ICML 2025 SageAttention2: Efficient Attention with Thorough Outlier Smoothing and Per-Thread INT4 Quantization Jintao Zhang, Haofeng Huang, Pengle Zhang, Jia Wei, Jun Zhu, Jianfei Chen

NeurIPS 2025 SageAttention3: Microscaling FP4 Attention for Inference and an Exploration of 8-Bit Training Jintao Zhang, Jia Wei, Haoxu Wang, Pengle Zhang, Xiaoming Xu, Haofeng Huang, Kai Jiang, Jianfei Chen, Jun Zhu

ICLR 2025 SageAttention: Accurate 8-Bit Attention for Plug-and-Play Inference Acceleration Jintao Zhang, Jia Wei, Pengle Zhang, Jun Zhu, Jianfei Chen

NeurIPS 2024 InfLLM: Training-Free Long-Context Extrapolation for LLMs with an Efficient Context Memory Chaojun Xiao, Pengle Zhang, Xu Han, Guangxuan Xiao, Yankai Lin, Zhengyan Zhang, Zhiyuan Liu, Maosong Sun

ICMLW 2024 InfLLM: Training-Free Long-Context Extrapolation for LLMs with an Efficient Context Memory Chaojun Xiao, Pengle Zhang, Xu Han, Guangxuan Xiao, Yankai Lin, Zhengyan Zhang, Zhiyuan Liu, Maosong Sun