UrbanVLP: Multi-Granularity Vision-Language Pretraining for Urban Socioeconomic Indicator Prediction

Hao, Xixuan; Chen, Wei; Yan, Yibo; Zhong, Siru; Wang, Kun; Wen, Qingsong; Liang, Yuxuan

doi:10.1609/AAAI.V39I27.35024

UrbanVLP: Multi-Granularity Vision-Language Pretraining for Urban Socioeconomic Indicator Prediction

Xixuan Hao, Wei Chen, Yibo Yan, Siru Zhong, Kun Wang, Qingsong Wen, Yuxuan Liang

AAAI 2025 pp. 28061-28069

doi:10.1609/AAAI.V39I27.35024 /aaai/2025/hao2025aaai-urbanvlp/

Abstract

Urban socioeconomic indicator prediction aims to infer various metrics related to sustainable development in diverse urban landscapes using data-driven methods. However, prevalent pretrained models, particularly those reliant on satellite imagery, face dual challenges. Firstly, concentrating solely on macro-level patterns from satellite data may introduce bias, lacking nuanced details at micro levels, such as architectural details at a place. Secondly, the text generated by the precursor work UrbanCLIP, which fully utilizes the extensive knowledge of LLMs, frequently exhibits issues such as hallucination and homogenization, resulting in a lack of reliable quality. In response to these issues, we devise a novel framework entitled UrbanVLP based on Vision-Language Pretraining. Our UrbanVLP seamlessly integrates multi-granularity information from both macro (satellite) and micro (street-view) levels, overcoming the limitations of prior pretrained models. Moreover, it introduces automatic text generation and calibration, providing a robust guarantee for producing high-quality text descriptions of urban imagery. Rigorous experiments conducted across six socioeconomic indicator prediction tasks underscore its superior performance.

PDF AAAI Semantic Scholar

Cite

Text

Hao et al. "UrbanVLP: Multi-Granularity Vision-Language Pretraining for Urban Socioeconomic Indicator Prediction." AAAI Conference on Artificial Intelligence, 2025. doi:10.1609/AAAI.V39I27.35024

Markdown

[Hao et al. "UrbanVLP: Multi-Granularity Vision-Language Pretraining for Urban Socioeconomic Indicator Prediction." AAAI Conference on Artificial Intelligence, 2025.](https://mlanthology.org/aaai/2025/hao2025aaai-urbanvlp/) doi:10.1609/AAAI.V39I27.35024

BibTeX

@inproceedings{hao2025aaai-urbanvlp,
  title     = {{UrbanVLP: Multi-Granularity Vision-Language Pretraining for Urban Socioeconomic Indicator Prediction}},
  author    = {Hao, Xixuan and Chen, Wei and Yan, Yibo and Zhong, Siru and Wang, Kun and Wen, Qingsong and Liang, Yuxuan},
  booktitle = {AAAI Conference on Artificial Intelligence},
  year      = {2025},
  pages     = {28061-28069},
  doi       = {10.1609/AAAI.V39I27.35024},
  url       = {https://mlanthology.org/aaai/2025/hao2025aaai-urbanvlp/}
}