AI Transformation을 위한 Vision Language Model 기반 지능형 문서처리 서비스 플랫폼의 설계 및 구현
This study supports corporate AI Transformation (AX) by designing a document processing platform based on a Vision Language Model (VLM) and implementing a prototype using Qwen2.5VL-7B. The platform employs a three-tier microservice architecture with prompt management and modular components to ensure...
Saved in:
Published in | 디지털정책학회지 Vol. 4; no. 2; pp. 1 - 10 |
---|---|
Main Authors | , , , |
Format | Journal Article |
Language | Korean |
Published |
한국디지털정책학회
01.06.2025
|
Subjects | |
Online Access | Get full text |
ISSN | 2951-245X |
DOI | 10.23149/JDP.2025.4.2.001 |
Cover
Summary: | This study supports corporate AI Transformation (AX) by designing a document processing platform based on a Vision Language Model (VLM) and implementing a prototype using Qwen2.5VL-7B. The platform employs a three-tier microservice architecture with prompt management and modular components to ensure flexibility and scalability. Experiments showed an average information extraction accuracy of 91.7%, and the system demonstrated practical applicability by handling diverse document formats without predefined templates. This research provides an empirical implementation of a prompt-based VLM architecture that overcomes limitations of OCR technologies, offering academic and practical value as a foundation for document automation across sectors such as finance, logistics, and healthcare. 본 연구는 기업의 AI Transformation(AX)을 지원하기 위해, Vision Language Model(VLM) 기반 지능형 문서처리 플랫폼을 설계하고, Qwen2.5VL-7B를 활용한 영수증 처리 프로토타입을 구현하였다. 제안된 플랫폼은 3-Tier 마이크로서비스 아키텍처를 기반으로, 프롬프트 관리 체계와 기능별 모듈화를 통해 유연하고 확장 가능한 구조를 구현하였다. 실험 결과, 평균 91.7%의 정보 추출 정확도를 달성하였으며, 사전 템플릿 없이 다양한 문서 형식에 대응 가능한 처리 유연성을 바탕으로 실무 적용 가능성을 입증하였다. 본 연구는 OCR 중심 기술의 한계를 보완하는 프롬프트 기반 VLM 아키텍처를 실증적으로 제시하고, 금융·물류·의료 등 산업 전반에서 적용 가능한 문서 자동화 기반을 제공하였다는 점에서 학문적·실무적 의의를 갖는다. |
---|---|
Bibliography: | KISTI1.1003/JNL.JAKO202518454002924 |
ISSN: | 2951-245X |
DOI: | 10.23149/JDP.2025.4.2.001 |