Histopathology Image Report Generation by Vision Language Model with Multimodal In-Context Learning

Liu, Shih-Wen; Fan, Hsuan-Yu; Chu, Wei-Ta; Yang, Fu-En; Wang, Yu-Chiang Frank

Histopathology Image Report Generation by Vision Language Model with Multimodal In-Context Learning

Shih-Wen Liu, Hsuan-Yu Fan, Wei-Ta Chu, Fu-En Yang, Yu-Chiang Frank Wang

MIDL 2025

/midl/2025/liu2025midl-histopathology/

Abstract

Automating medical report generation from histopathology images is a critical challenge requiring effective visual representations and domain-specific knowledge. Inspired by the common practices of human experts, we propose an in-context learning framework called PathGenIC that integrates context derived from the training set with a multimodal in-context learning (ICL) mechanism. Our method dynamically retrieves semantically similar whole slide image (WSI)-report pairs and incorporates adaptive feedback to enhance contextual relevance and generation quality. Evaluated on the HistGen benchmark, the framework achieves state-of-the-art results, with significant improvements across BLEU, METEOR, and ROUGE-L metrics, and demonstrates robustness across diverse report lengths and disease categories. By maximizing training data utility and bridging vision and language with ICL, our work offers a solution for AI-driven histopathology reporting, setting a strong foundation for future advancements in multimodal clinical applications.

PDF MIDL OpenReview Semantic Scholar

Cite

Text

Liu et al. "Histopathology Image Report Generation by Vision Language Model with Multimodal In-Context Learning." Medical Imaging with Deep Learning, 2025.

Markdown

[Liu et al. "Histopathology Image Report Generation by Vision Language Model with Multimodal In-Context Learning." Medical Imaging with Deep Learning, 2025.](https://mlanthology.org/midl/2025/liu2025midl-histopathology/)

BibTeX

@inproceedings{liu2025midl-histopathology,
  title     = {{Histopathology Image Report Generation by Vision Language Model with Multimodal In-Context Learning}},
  author    = {Liu, Shih-Wen and Fan, Hsuan-Yu and Chu, Wei-Ta and Yang, Fu-En and Wang, Yu-Chiang Frank},
  booktitle = {Medical Imaging with Deep Learning},
  year      = {2025},
  url       = {https://mlanthology.org/midl/2025/liu2025midl-histopathology/}
}