Shi, Bowen

19 publications

ICCV 2025 METEOR: Multi-Encoder Collaborative Token Pruning for Efficient Vision Language Models Yuchen Liu, Yaoming Wang, Bowen Shi, Xiaopeng Zhang, Wenrui Dai, Chenglin Li, Hongkai Xiong, Qi Tian

ICLR 2024 BarLeRIa: An Efficient Tuning Framework for Referring Image Segmentation Yaoming Wang, Jin Li, Xiaopeng Zhang, Bowen Shi, Chenglin Li, Wenrui Dai, Hongkai Xiong, Qi Tian

ICML 2024 Bootstrap AutoEncoders with Contrastive Paradigm for Self-Supervised Gaze Estimation Yaoming Wang, Jin Li, Wenrui Dai, Bowen Shi, Xiaopeng Zhang, Chenglin Li, Hongkai Xiong

ICLR 2024 Generative Pre-Training for Speech with Flow Matching Alexander H. Liu, Matthew Le, Apoorv Vyas, Bowen Shi, Andros Tjandra, Wei-Ning Hsu

NeurIPSW 2024 High Fidelity Text-Guided Music Editing via Single-Stage Flow Matching Gael Le Lan, Bowen Shi, Zhaoheng Ni, Sidd Srinivasan, Anurag Kumar, Brian Ellis, David Kant, Varun K. Nagaraja, Ernie Chang, Wei-Ning Hsu, Yangyang Shi, Vikas Chandra

ICLR 2024 Hybrid Distillation: Connecting Masked Autoencoders with Contrastive Learners Bowen Shi, Xiaopeng Zhang, Yaoming Wang, Jin Li, Wenrui Dai, Junni Zou, Hongkai Xiong, Qi Tian

ICML 2024 MusicFlow: Cascaded Flow Matching for Text Guided Music Generation K R Prajwal, Bowen Shi, Matthew Le, Apoorv Vyas, Andros Tjandra, Mahi Luthra, Baishan Guo, Huiyu Wang, Triantafyllos Afouras, David Kant, Wei-Ning Hsu

JMLR 2024 Scaling Speech Technology to 1,000+ Languages Vineel Pratap, Andros Tjandra, Bowen Shi, Paden Tomasello, Arun Babu, Sayani Kundu, Ali Elkahky, Zhaoheng Ni, Apoorv Vyas, Maryam Fazel-Zarandi, Alexei Baevski, Yossi Adi, Xiaohui Zhang, Wei-Ning Hsu, Alexis Conneau, Michael Auli

ECCV 2024 UMG-CLIP: A Unified Multi-Granularity Vision Generalist for Open-World Understanding Bowen Shi, Peisen Zhao, Zichen Wang, Yuhang Zhang, Yaoming Wang, Jin Li, Wenrui Dai, Junni Zou, Hongkai Xiong, Qi Tian, Xiaopeng Zhang

CVPR 2023 Adapting Shortcut with Normalizing Flow: An Efficient Tuning Framework for Visual Recognition Yaoming Wang, Bowen Shi, Xiaopeng Zhang, Jin Li, Yuchen Liu, Wenrui Dai, Chenglin Li, Hongkai Xiong, Qi Tian

NeurIPS 2023 AiluRus: A Scalable ViT Framework for Dense Prediction Jin Li, Yaoming Wang, Xiaopeng Zhang, Bowen Shi, Dongsheng Jiang, Chenglin Li, Wenrui Dai, Hongkai Xiong, Qi Tian

AAAI 2023 Pose-Oriented Transformer with Uncertainty-Guided Refinement for 2D-to-3D Human Pose Estimation Han Li, Bowen Shi, Wenrui Dai, Hongwei Zheng, Botao Wang, Yu Sun, Min Guo, Chenglin Li, Junni Zou, Hongkai Xiong

CVPR 2023 ReVISE: Self-Supervised Speech Resynthesis with Visual Input for Universal and Generalized Speech Regeneration Wei-Ning Hsu, Tal Remez, Bowen Shi, Jacob Donley, Yossi Adi

ICML 2023 SEGA: Structural Entropy Guided Anchor View for Graph Contrastive Learning Junran Wu, Xueyuan Chen, Bowen Shi, Shangzhe Li, Ke Xu

NeurIPS 2023 Voicebox: Text-Guided Multilingual Universal Speech Generation at Scale Matthew Le, Apoorv Vyas, Bowen Shi, Brian Karrer, Leda Sari, Rashel Moritz, Mary Williamson, Vimal Manohar, Yossi Adi, Jay Mahadeokar, Wei-Ning Hsu

ECCV 2022 A Transformer-Based Decoder for Semantic Segmentation with Multi-Level Context Mining Bowen Shi, Dongsheng Jiang, Xiaopeng Zhang, Han Li, Wenrui Dai, Junni Zou, Hongkai Xiong, Qi Tian

ICLR 2022 Learning Audio-Visual Speech Representation by Masked Multimodal Cluster Prediction Bowen Shi, Wei-Ning Hsu, Kushal Lakhotia, Abdelrahman Mohamed

NeurIPS 2022 U-HuBERT: Unified Mixed-Modal Speech Pretraining and Zero-Shot Transfer to Unlabeled Modality Wei-Ning Hsu, Bowen Shi

CVPR 2021 Fingerspelling Detection in American Sign Language Bowen Shi, Diane Brentari, Greg Shakhnarovich, Karen Livescu