Jiang, Youhe

7 publications

ICLR 2026 Cascadia: An Efficient Cascade Serving System for Large Language Models Youhe Jiang, Fangcheng Fu, Wanru Zhao, Stephan Rabanser, Jintao Zhang, Nicholas D. Lane, Binhang Yuan

ICLR 2026 FSA: An Alternative Efficient Implementation of Native Sparse Attention Kernel Ran Yan, Youhe Jiang, Zhuoming Chen, Haohui Mai, Beidi Chen, Binhang Yuan

ICML 2025 Demystifying Cost-Efficiency in LLM Serving over Heterogeneous GPUs Youhe Jiang, Fangcheng Fu, Xiaozhe Yao, Guoliang He, Xupeng Miao, Ana Klimovic, Bin Cui, Binhang Yuan, Eiko Yoneki

NeurIPS 2025 Efficient Pre-Training of LLMs via Topology-Aware Communication Alignment on More than 9600 GPUs Guoliang He, Youhe Jiang, Wencong Xiao, Jiang Kaihua, Shuguang Wang, Jun Wang, Du Zixian, Zhuo Jiang, Xinlei Zhang, Binhang Yuan, Eiko Yoneki

ICLR 2025 HexGen-2: Disaggregated Generative Inference of LLMs in Heterogeneous Environment Youhe Jiang, Ran Yan, Binhang Yuan

ICML 2024 HexGen: Generative Inference of Large Language Model over Heterogeneous Environment Youhe Jiang, Ran Yan, Xiaozhe Yao, Yang Zhou, Beidi Chen, Binhang Yuan

IJCAI 2023 OSDP: Optimal Sharded Data Parallel for Distributed Deep Learning Youhe Jiang, Fangcheng Fu, Xupeng Miao, Xiaonan Nie, Bin Cui