Zhang, Jintao

15 publications

ICLR 2026 Cascadia: An Efficient Cascade Serving System for Large Language Models Youhe Jiang, Fangcheng Fu, Wanru Zhao, Stephan Rabanser, Jintao Zhang, Nicholas D. Lane, Binhang Yuan

ICLR 2026 Large Scale Diffusion Distillation via Score-Regularized Continuous-Time Consistency Kaiwen Zheng, Yuji Wang, Qianli Ma, Huayu Chen, Jintao Zhang, Yogesh Balaji, Jianfei Chen, Ming-Yu Liu, Jun Zhu, Qinsheng Zhang

ICLR 2026 SLA: Beyond Sparsity in Diffusion Transformers via Fine-Tunable Sparse–Linear Attention Jintao Zhang, Haoxu Wang, Kai Jiang, Shuo Yang, Kaiwen Zheng, Haocheng Xi, Ziteng Wang, Hongzhou Zhu, Min Zhao, Ion Stoica, Joseph E. Gonzalez, Jianfei Chen, Jun Zhu

ICLR 2026 UltraViCo: Breaking Extrapolation Limits in Video Diffusion Transformers Min Zhao, Hongzhou Zhu, Yingze Wang, Bokai Yan, Jintao Zhang, Guande He, Ling Yang, Chongxuan Li, Jun Zhu

IJCAI 2025 A Hybrid Multi-Factor Network with Dynamic Sequence Modeling for Early Warning of Intraoperative Hypotension Mingyue Cheng, Jintao Zhang, Zhiding Liu, Chunli Liu

CVPR 2025 CoMatcher: Multi-View Collaborative Feature Matching Jintao Zhang, Zimin Xia, Mingyue Dong, Shuhan Shen, Linwei Yue, Xianwei Zheng

IJCAI 2025 Conditional Denoising Meets Polynomial Modeling: A Flexible Decoupled Framework for Time Series Forecasting Jintao Zhang, Mingyue Cheng, Xiaoyu Tao, Zhiding Liu, Daoyu Wang

ICLRW 2025 SageAttention2: Efficient Attention with Smoothing Q and Per-Thread Quantization Jintao Zhang, Haofeng Huang, Pengle Zhang, Jia Wei, Jun Zhu, Jianfei Chen

ICML 2025 SageAttention2: Efficient Attention with Thorough Outlier Smoothing and Per-Thread INT4 Quantization Jintao Zhang, Haofeng Huang, Pengle Zhang, Jia Wei, Jun Zhu, Jianfei Chen

NeurIPS 2025 SageAttention3: Microscaling FP4 Attention for Inference and an Exploration of 8-Bit Training Jintao Zhang, Jia Wei, Haoxu Wang, Pengle Zhang, Xiaoming Xu, Haofeng Huang, Kai Jiang, Jianfei Chen, Jun Zhu

ICLR 2025 SageAttention: Accurate 8-Bit Attention for Plug-and-Play Inference Acceleration Jintao Zhang, Jia Wei, Pengle Zhang, Jun Zhu, Jianfei Chen

ICML 2025 SpargeAttention: Accurate and Training-Free Sparse Attention Accelerating Any Model Inference Jintao Zhang, Chendong Xiang, Haofeng Huang, Jia Wei, Haocheng Xi, Jun Zhu, Jianfei Chen

ICLRW 2025 SpargeAttn: Training-Free Sparse Attention Accelerating Any Model Inference Jintao Zhang, Chendong Xiang, Haofeng Huang, Jia Wei, Haocheng Xi, Jun Zhu, Jianfei Chen

ICML 2025 Sparse Video-Gen: Accelerating Video Diffusion Transformers with Spatial-Temporal Sparsity Haocheng Xi, Shuo Yang, Yilong Zhao, Chenfeng Xu, Muyang Li, Xiuyu Li, Yujun Lin, Han Cai, Jintao Zhang, Dacheng Li, Jianfei Chen, Ion Stoica, Kurt Keutzer, Song Han

NeurIPS 2025 Sparse VideoGen2: Accelerate Video Generation with Sparse Attention via Semantic-Aware Permutation Shuo Yang, Haocheng Xi, Yilong Zhao, Muyang Li, Jintao Zhang, Han Cai, Yujun Lin, Xiuyu Li, Chenfeng Xu, Kelly Peng, Jianfei Chen, Song Han, Kurt Keutzer, Ion Stoica