Bai, Zechen

20 publications

ICLR 2025 Bridging Information Asymmetry in Text-Video Retrieval: A Data-Centric Approach Zechen Bai, Tianjun Xiao, Tong He, Pichao Wang, Zheng Zhang, Thomas Brox, Mike Zheng Shou

ICML 2025 Impossible Videos Zechen Bai, Hai Ci, Mike Zheng Shou

ICLR 2025 Show-O: One Single Transformer to Unify Multimodal Understanding and Generation Jinheng Xie, Weijia Mao, Zechen Bai, David Junhao Zhang, Weihao Wang, Kevin Qinghong Lin, Yuchao Gu, Zhijie Chen, Zhenheng Yang, Mike Zheng Shou

CVPR 2025 ShowUI: One Vision-Language-Action Model for GUI Visual Agent Kevin Qinghong Lin, Linjie Li, Difei Gao, Zhengyuan Yang, Shiwei Wu, Zechen Bai, Stan Weixian Lei, Lijuan Wang, Mike Zheng Shou

NeurIPS 2025 VaporTok: RL-Driven Adaptive Video Tokenizer with Prior & Task Awareness Yang Minghao, Zechen Bai, Jing Lin, Haoqian Wang, Alex Jinpeng Wang

NeurIPS 2025 You Only Communicate Once: One-Shot Federated Low-Rank Adaptation of MLLM Binqian Xu, Haiyang Mei, Zechen Bai, Jinjin Gong, Rui Yan, Guo-Sen Xie, Yazhou Yao, Basura Fernando, Xiangbo Shu

CVPR 2024 Adaptive Slot Attention: Object Discovery with Dynamic Slot Number Ke Fan, Zechen Bai, Tianjun Xiao, Tong He, Max Horn, Yanwei Fu, Francesco Locatello, Zheng Zhang

CVPR 2024 AssistGUI: Task-Oriented PC Graphical User Interface Automation Difei Gao, Lei Ji, Zechen Bai, Mingyu Ouyang, Peiran Li, Dongxing Mao, Qinchen Wu, Weichen Zhang, Peiyi Wang, Xiangwu Guo, Hengxu Wang, Luowei Zhou, Mike Zheng Shou

NeurIPS 2024 DoFIT: Domain-Aware Federated Instruction Tuning with Alleviated Catastrophic Forgetting Binqian Xu, Xiangbo Shu, Haiyang Mei, Zechen Bai, Basura Fernando, Mike Zheng Shou, Jinhui Tang

NeurIPS 2024 LOVA3: Learning to Visual Question Answering, Asking and Assessment Henry Hengyuan Zhao, Pan Zhou, Difei Gao, Zechen Bai, Mike Zheng Shou

NeurIPS 2024 One Token to Seg Them All: Language Instructed Reasoning Segmentation in Videos Zechen Bai, Tong He, Haiyang Mei, Pichao Wang, Ziteng Gao, Joya Chen, Lei Liu, Zheng Zhang, Mike Zheng Shou

NeurIPSW 2024 ShowUI: One Vision-Language-Action Model for Generalist GUI Agent Kevin Qinghong Lin, Linjie Li, Difei Gao, Zhengyuan Yang, Zechen Bai, Weixian Lei, Lijuan Wang, Mike Zheng Shou

ICLRW 2024 Skip $\textbackslash N$: A Simple Method to Reduce Hallucination in Large Vision-Language Models Zongbo Han, Zechen Bai, Haiyang Mei, Qianli Xu, Changqing Zhang, Mike Zheng Shou

ICCV 2023 Object-Centric Multiple Object Tracking Zixu Zhao, Jiaze Wang, Max Horn, Yizhuo Ding, Tong He, Zechen Bai, Dominik Zietlow, Carl-Johann Simon-Gabriel, Bing Shuai, Zhuowen Tu, Thomas Brox, Bernt Schiele, Yanwei Fu, Francesco Locatello, Zheng Zhang, Tianjun Xiao

ICCV 2023 Unsupervised Open-Vocabulary Object Localization in Videos Ke Fan, Zechen Bai, Tianjun Xiao, Dominik Zietlow, Max Horn, Zixu Zhao, Carl-Johann Simon-Gabriel, Mike Zheng Shou, Francesco Locatello, Bernt Schiele, Thomas Brox, Zheng Zhang, Yanwei Fu, Tong He

ICCV 2021 Explain Me the Painting: Multi-Topic Knowledgeable Art Description Generation Zechen Bai, Yuta Nakashima, Noa Garcia

CVPRW 2021 Robust Vehicle Re-Identification via Rigid Structure Prior Minyue Jiang, Xuanmeng Zhang, Yue Yu, Zechen Bai, Zhedong Zheng, Zhigang Wang, Jian Wang, Xiao Tan, Hao Sun, Errui Ding, Yi Yang

CVPR 2021 Unsupervised Multi-Source Domain Adaptation for Person Re-Identification Zechen Bai, Zhigang Wang, Jian Wang, Di Hu, Errui Ding

CVPRW 2020 Going Beyond Real Data: A Robust Visual Representation for Vehicle Re-Identification Zhedong Zheng, Minyue Jiang, Zhigang Wang, Jian Wang, Zechen Bai, Xuanmeng Zhang, Xin Yu, Xiao Tan, Yi Yang, Shilei Wen, Errui Ding

AAAI 2020 Show, Recall, and Tell: Image Captioning with Recall Mechanism Li Wang, Zechen Bai, Yonghua Zhang, Hongtao Lu