Lei, Weixian

5 publications

ICLR 2025 Grounding Multimodal Large Language Model in GUI World Weixian Lei, Difei Gao, Mike Zheng Shou

ICCV 2025 The Scalability of Simplicity: Empirical Analysis of Vision-Language Learning with a Single Transformer Weixian Lei, Jiacong Wang, Haochen Wang, Xiangtai Li, Jun Hao Liew, Jiashi Feng, Zilong Huang

NeurIPSW 2024 ShowUI: One Vision-Language-Action Model for Generalist GUI Agent Kevin Qinghong Lin, Linjie Li, Difei Gao, Zhengyuan Yang, Zechen Bai, Weixian Lei, Lijuan Wang, Mike Zheng Shou

CVPR 2024 ViT-Lens: Towards Omni-Modal Representations Weixian Lei, Yixiao Ge, Kun Yi, Jianfeng Zhang, Difei Gao, Dylan Sun, Yuying Ge, Ying Shan, Mike Zheng Shou

ECCV 2022 GEB+: A Benchmark for Generic Event Boundary Captioning, Grounding and Retrieval Yuxuan Wang, Difei Gao, Licheng Yu, Weixian Lei, Matt Feiszli, Mike Zheng Shou