CLIP-Llama: A New Approach for Scene Text Recognition with a Pre-Trained Vision-Language Model and a Pre-Trained Language Model

This study focuses on Scene Text Recognition (STR), which plays a crucial role in various applications of artificial intelligence such as image retrieval, office automation, and intelligent transportation systems. Currently, pre-trained vision-language models have become the foundation for various d...

Full description

Saved in:

Bibliographic Details
Published in	Sensors (Basel, Switzerland) Vol. 24; no. 22; p. 7371
Main Authors	Zhao, Xiaoqing, Xu, Miaomiao, Silamu, Wushour, Li, Yanbing
Format	Journal Article
Language	English
Published	Switzerland MDPI AG 19.11.2024 MDPI
Subjects	Artificial intelligence Computer vision Deep learning Image retrieval Language Llamas Natural language processing pre-trained language model scene text recognition Semantics vision-language model vision-language model pre-trained language model scene text recognition
Online Access	Get full text

Cover

Loading…

Be the first to leave a comment!