Zheng, Ningxin

4 publications

ICLR 2026 FlexLinearAttention: Compiling a Unified Abstraction into Scalable Kernels for Linear Attention Haojie Duanmu, Size Zheng, Ningxin Zheng, Jianqiao Lu, Xuegui Zheng, Xingcheng Zhang, Li-Wen Chang, Xin Liu, Dahua Lin

ICML 2025 ShadowKV: KV Cache in Shadows for High-Throughput Long-Context LLM Inference Hanshi Sun, Li-Wen Chang, Wenlei Bao, Size Zheng, Ningxin Zheng, Xin Liu, Harry Dong, Yuejie Chi, Beidi Chen

CVPR 2023 EfficientViT: Memory Efficient Vision Transformer with Cascaded Group Attention Xinyu Liu, Houwen Peng, Ningxin Zheng, Yuqing Yang, Han Hu, Yixuan Yuan

ICCV 2023 SpaceEvo: Hardware-Friendly Search Space Design for Efficient INT8 Inference Xudong Wang, Li Lyna Zhang, Jiahang Xu, Quanlu Zhang, Yujing Wang, Yuqing Yang, Ningxin Zheng, Ting Cao, Mao Yang