Yao, Kun

12 publications

AAAI 2025 Interpretable Face Anti-Spoofing: Enhancing Generalization with Multimodal Large Language Models Guosheng Zhang, Keyao Wang, Haixiao Yue, Ajian Liu, Gang Zhang, Kun Yao, Errui Ding, Jingdong Wang

ICLR 2024 FROSTER: Frozen CLIP Is a Strong Teacher for Open-Vocabulary Action Recognition Xiaohu Huang, Hao Zhou, Kun Yao, Kai Han

TMLR 2024 MaskOCR: Scene Text Recognition with Masked Vision-Language Pre-Training Pengyuan Lyu, Chengquan Zhang, Shanshan Liu, Meina Qiao, Yangliu Xu, Liang Wu, Kun Yao, Junyu Han, Errui Ding, Jingdong Wang

ECCV 2024 Textual Grounding for Open-Vocabulary Visual Information Extraction in Layout-Diversified Documents Mengjun Cheng, Chengquan Zhang, Chang Liu, Yuke Li, Bohan Li, Kun Yao, Xiawu Zheng, Rongrong Ji, Jie Chen

ICML 2024 Towards Unified Multi-Granularity Text Detection with Interactive Attention Xingyu Wan, Chengquan Zhang, Pengyuan Lyu, Sen Fan, Zihan Ni, Kun Yao, Errui Ding, Jingdong Wang

TMLR 2023 CAE V2: Context Autoencoder with CLIP Latent Alignment Xinyu Zhang, Jiahui Chen, Junkun Yuan, Qiang Chen, Jian Wang, Xiaodi Wang, Shumin Han, Xiaokang Chen, Jimin Pi, Kun Yao, Junyu Han, Errui Ding, Jingdong Wang

IJCAI 2023 Fast-StrucTexT: An Efficient Hourglass Transformer with Modality-Guided Dynamic Token Merge for Document Understanding Mingliang Zhai, Yulin Li, Xiameng Qin, Chen Yi, Qunyi Xie, Chengquan Zhang, Kun Yao, Yuwei Wu, Yunde Jia

ICCV 2023 Group DETR: Fast DETR Training with Group-Wise One-to-Many Assignment Qiang Chen, Xiaokang Chen, Jian Wang, Shan Zhang, Kun Yao, Haocheng Feng, Junyu Han, Errui Ding, Gang Zeng, Jingdong Wang

ICCV 2023 Group Pose: A Simple Baseline for End-to-End Multi-Person Pose Estimation Huan Liu, Qiang Chen, Zichang Tan, Jiang-Jiang Liu, Jian Wang, Xiangbo Su, Xiaolong Li, Kun Yao, Junyu Han, Errui Ding, Yao Zhao, Jingdong Wang

NeurIPS 2023 HAP: Structure-Aware Masked Image Modeling for Human-Centric Perception Junkun Yuan, Xinyu Zhang, Hao Zhou, Jian Wang, Zhongwei Qiu, Zhiyin Shao, Shaofeng Zhang, Sifan Long, Kun Kuang, Kun Yao, Junyu Han, Errui Ding, Lanfen Lin, Fei Wu, Jingdong Wang

ICLR 2023 StrucTexTv2: Masked Visual-Textual Prediction for Document Image Pre-Training Yuechen Yu, Yulin Li, Chengquan Zhang, Xiaoqiang Zhang, Zengyuan Guo, Xiameng Qin, Kun Yao, Junyu Han, Errui Ding, Jingdong Wang

CVPR 2022 ViSTA: Vision and Scene Text Aggregation for Cross-Modal Retrieval Mengjun Cheng, Yipeng Sun, Longchao Wang, Xiongwei Zhu, Kun Yao, Jie Chen, Guoli Song, Junyu Han, Jingtuo Liu, Errui Ding, Jingdong Wang