Huang, Siteng

15 publications

ICLR 2025 Accelerating Diffusion Transformers with Token-Wise Feature Caching Chang Zou, Xuyang Liu, Ting Liu, Siteng Huang, Linfeng Zhang

ICCV 2025 CARP: Visuomotor Policy Learning via Coarse-to-Fine Autoregressive Prediction Zhefei Gong, Pengxiang Ding, Shangke Lyu, Siteng Huang, Mingyang Sun, Wei Zhao, Zhaoxin Fan, Donglin Wang

AAAI 2025 Cobra: Extending Mamba to Multi-Modal Large Language Model for Efficient Inference Han Zhao, Min Zhang, Wei Zhao, Pengxiang Ding, Siteng Huang, Donglin Wang

CoRL 2025 Long-VLA: Unleashing Long-Horizon Capability of Vision Language Action Model for Robot Manipulation Yiguo Fan, Shuanghao Bai, Xinyang Tong, Pengxiang Ding, Yuyang Zhu, Hongchao Lu, Fengqi Dai, Wei Zhao, Yang Liu, Siteng Huang, Zhaoxin Fan, Badong Chen, Donglin Wang

NeurIPS 2025 SSR: Enhancing Depth Perception in Vision-Language Models via Rationale-Guided Spatial Reasoning Yang Liu, Ming Ma, Xiaomin Yu, Pengxiang Ding, Han Zhao, Mingyang Sun, Siteng Huang, Donglin Wang

CVPR 2024 Check Locate Rectify: A Training-Free Layout Calibration System for Text-to-Image Generation Biao Gong, Siteng Huang, Yutong Feng, Shiwei Zhang, Yuyuan Li, Yu Liu

CVPR 2024 Learning Disentangled Identifiers for Action-Customized Text-to-Image Generation Siteng Huang, Biao Gong, Yutong Feng, Xi Chen, Yuqian Fu, Yu Liu, Donglin Wang

ECCV 2024 PiTe: Pixel-Temporal Alignment for Large Video-Language Model Yang Liu, Pengxiang Ding, Siteng Huang, Min Zhang, Han Zhao, Donglin Wang

AAAI 2024 Prompt-Based Distribution Alignment for Unsupervised Domain Adaptation Shuanghao Bai, Min Zhang, Wanqi Zhou, Siteng Huang, Zhirong Luan, Donglin Wang, Badong Chen

ECCV 2024 QUAR-VLA: Vision-Language-Action Model for Quadruped Robots Pengxiang Ding, Han Zhao, Wenjie Zhang, Wenxuan Song, Min Zhang, Siteng Huang, Ningxi Yang, Donglin Wang

CVPR 2024 Troika: Multi-Path Cross-Modal Traction for Compositional Zero-Shot Learning Siteng Huang, Biao Gong, Yutong Feng, Min Zhang, Yiliang Lv, Donglin Wang

CVPR 2023 VoP: Text-Video Co-Operative Prompt Tuning for Cross-Modal Retrieval Siteng Huang, Biao Gong, Yulin Pan, Jianwen Jiang, Yiliang Lv, Yuyuan Li, Donglin Wang

ECCV 2022 Tree Structure-Aware Few-Shot Image Classification via Hierarchical Aggregation Min Zhang, Siteng Huang, Wenbin Li, Donglin Wang

AAAI 2021 Attributes-Guided and Pure-Visual Attention Alignment for Few-Shot Recognition Siteng Huang, Min Zhang, Yachen Kang, Donglin Wang

CVPR 2021 Pareto Self-Supervised Training for Few-Shot Learning Zhengyu Chen, Jixie Ge, Heshen Zhan, Siteng Huang, Donglin Wang