AI Transformation을 위한 Vision Language Model 기반 지능형 문서처리 서비스 플랫폼의 설계 및 구현

This study supports corporate AI Transformation (AX) by designing a document processing platform based on a Vision Language Model (VLM) and implementing a prototype using Qwen2.5VL-7B. The platform employs a three-tier microservice architecture with prompt management and modular components to ensure...

Full description

Saved in:
Bibliographic Details
Published in디지털정책학회지 Vol. 4; no. 2; pp. 1 - 10
Main Authors 안필용, 이충형, Pil-Yong Ahn, Choong-Hyong Lee
Format Journal Article
LanguageKorean
Published 한국디지털정책학회 01.06.2025
Subjects
Online AccessGet full text
ISSN2951-245X
DOI10.23149/JDP.2025.4.2.001

Cover

More Information
Summary:This study supports corporate AI Transformation (AX) by designing a document processing platform based on a Vision Language Model (VLM) and implementing a prototype using Qwen2.5VL-7B. The platform employs a three-tier microservice architecture with prompt management and modular components to ensure flexibility and scalability. Experiments showed an average information extraction accuracy of 91.7%, and the system demonstrated practical applicability by handling diverse document formats without predefined templates. This research provides an empirical implementation of a prompt-based VLM architecture that overcomes limitations of OCR technologies, offering academic and practical value as a foundation for document automation across sectors such as finance, logistics, and healthcare. 본 연구는 기업의 AI Transformation(AX)을 지원하기 위해, Vision Language Model(VLM) 기반 지능형 문서처리 플랫폼을 설계하고, Qwen2.5VL-7B를 활용한 영수증 처리 프로토타입을 구현하였다. 제안된 플랫폼은 3-Tier 마이크로서비스 아키텍처를 기반으로, 프롬프트 관리 체계와 기능별 모듈화를 통해 유연하고 확장 가능한 구조를 구현하였다. 실험 결과, 평균 91.7%의 정보 추출 정확도를 달성하였으며, 사전 템플릿 없이 다양한 문서 형식에 대응 가능한 처리 유연성을 바탕으로 실무 적용 가능성을 입증하였다. 본 연구는 OCR 중심 기술의 한계를 보완하는 프롬프트 기반 VLM 아키텍처를 실증적으로 제시하고, 금융·물류·의료 등 산업 전반에서 적용 가능한 문서 자동화 기반을 제공하였다는 점에서 학문적·실무적 의의를 갖는다.
Bibliography:KISTI1.1003/JNL.JAKO202518454002924
ISSN:2951-245X
DOI:10.23149/JDP.2025.4.2.001