Yang, Zhibo

18 publications

ICCV 2025 CC-OCR: A Comprehensive and Challenging OCR Benchmark for Evaluating Large Multimodal Models in Literacy Zhibo Yang, Jun Tang, Zhaohai Li, Pengfei Wang, Jianqiang Wan, Humen Zhong, Xuejing Liu, Mingkun Yang, Peng Wang, Shuai Bai, Lianwen Jin, Junyang Lin

ICCV 2025 DocThinker: Explainable Multimodal Large Language Models with Rule-Based Reinforcement Learning for Document Understanding Wenwen Yu, Zhibo Yang, Yuliang Liu, Xiang Bai

ECCV 2024 Look Hear: Gaze Prediction for Speech-Directed Human Attention Sounak Mondal, Seoyoung Ahn, Zhibo Yang, Niranjan Balasubramanian, Dimitris Samaras, Gregory Zelinsky, Minh Hoai

CVPR 2024 OmniParser: A Unified Framework for Text Spotting Key Information Extraction and Table Recognition Jianqiang Wan, Sibo Song, Wenwen Yu, Yuliang Liu, Wenqing Cheng, Fei Huang, Xiang Bai, Cong Yao, Zhibo Yang

ECCV 2024 Platypus: A Generalized Specialist Model for Reading Text in Various Forms Peng Wang, Zhaohai Li, Jun Tang, Humen Zhong, Fei Huang, Zhibo Yang, Cong Yao

CVPR 2024 Unifying Top-Down and Bottom-up Scanpath Prediction Using Transformers Zhibo Yang, Sounak Mondal, Seoyoung Ahn, Ruoyu Xue, Gregory Zelinsky, Minh Hoai, Dimitris Samaras

ECCV 2024 Visual Text Generation in the Wild Yuanzhi Zhu, Jiawei Liu, Feiyu Gao, Wenyu Liu, Xinggang Wang, Peng Wang, Fei Huang, Cong Yao, Zhibo Yang

CVPR 2023 Gazeformer: Scalable, Effective and Fast Prediction of Goal-Directed Human Attention Sounak Mondal, Zhibo Yang, Seoyoung Ahn, Dimitris Samaras, Gregory Zelinsky, Minh Hoai

CVPR 2023 Modeling Entities as Semantic Points for Visual Information Extraction in the Wild Zhibo Yang, Rujiao Long, Pengfei Wang, Sibo Song, Humen Zhong, Wenqing Cheng, Xiang Bai, Cong Yao

CVPRW 2022 Characterizing Target-Absent Human Attention Yupei Chen, Zhibo Yang, Souradeep Chakraborty, Sounak Mondal, Seoyoung Ahn, Dimitris Samaras, Minh Hoai, Gregory J. Zelinsky

WACV 2022 Hierarchical Proxy-Based Loss for Deep Metric Learning Zhibo Yang, Muhammet Bastan, Xinliang Zhu, Douglas Gray, Dimitris Samaras

CVPR 2022 Revisiting Document Image Dewarping by Grid Regularization Xiangwei Jiang, Rujiao Long, Nan Xue, Zhibo Yang, Cong Yao, Gui-Song Xia

ECCV 2022 Target-Absent Human Attention Zhibo Yang, Sounak Mondal, Seoyoung Ahn, Gregory Zelinsky, Minh Hoai, Dimitris Samaras

CVPR 2022 Vision-Language Pre-Training for Boosting Scene Text Detectors Sibo Song, Jianqiang Wan, Zhibo Yang, Jun Tang, Wenqing Cheng, Xiang Bai, Cong Yao

CVPR 2021 MOST: A Multi-Oriented Scene Text Detector with Localization Refinement Minghang He, Minghui Liao, Zhibo Yang, Humen Zhong, Jun Tang, Wenqing Cheng, Cong Yao, Yongpan Wang, Xiang Bai

ICCV 2021 Parsing Table Structures in the Wild Rujiao Long, Wen Wang, Nan Xue, Feiyu Gao, Zhibo Yang, Yongpan Wang, Gui-Song Xia

ECCV 2020 AE TextSpotter: Learning Visual and Linguistic Representation for Ambiguous Text Spotting Wenhai Wang, Xuebo Liu, Xiaozhong Ji, Enze Xie, Ding Liang, ZhiBo Yang, Tong Lu, Chunhua Shen, Ping Luo

CVPRW 2019 Benchmarking Gaze Prediction for Categorical Visual Search Gregory J. Zelinsky, Zhibo Yang, Lihan Huang, Yupei Chen, Seoyoung Ahn, Zijun Wei, Hossein Adeli, Dimitris Samaras, Minh Hoai