심층 신경망을 활용한 전자문서 내 객체의 자동 추출 방법 연구

인공지능 기술의 확산으로 인해 과학기술 분야에서도 연구 데이터의 확보, 저장 및 활용이 중요시 되고 있는 상황이다. 연구 데이터를 확보하기 위해 전자문서 형태의 연구논문으로부터 그래프, 표와 같은 유의미한 객체를 추출하는 다양한 방법들이 제안되고 있다. 경험적 방법론을 이용하는 기존의 연구들은 문서의 편집 특성을 일반화하여 객체들을 추출하기 때문에 다수의 이질적인 형태를 갖는 전자문서들을 대상으로 연구결과를 적용하는데는 한계가 있다. 본 논문은 경험적 방법론의 경직성을 극복하고 이질적인 전자문서들로부터 목표 객체들을 효과적으로 추출...

Full description

Saved in:
Bibliographic Details
Published in정보처리학회 논문지 (KTSDE) Vol. 7; no. 11; pp. 411 - 418
Main Authors 장희진, Heejin Jang, 채영훈, Yeonghun Chae, 이상원, Sangwon Lee, 조진용, Jinyong Jo
Format Journal Article
LanguageKorean
Published 한국정보처리학회 30.11.2018
Subjects
Online AccessGet full text
ISSN2287-5905

Cover

Abstract 인공지능 기술의 확산으로 인해 과학기술 분야에서도 연구 데이터의 확보, 저장 및 활용이 중요시 되고 있는 상황이다. 연구 데이터를 확보하기 위해 전자문서 형태의 연구논문으로부터 그래프, 표와 같은 유의미한 객체를 추출하는 다양한 방법들이 제안되고 있다. 경험적 방법론을 이용하는 기존의 연구들은 문서의 편집 특성을 일반화하여 객체들을 추출하기 때문에 다수의 이질적인 형태를 갖는 전자문서들을 대상으로 연구결과를 적용하는데는 한계가 있다. 본 논문은 경험적 방법론의 경직성을 극복하고 이질적인 전자문서들로부터 목표 객체들을 효과적으로 추출하기 위해 심층 학습 기반의 객체 추출 시스템을 제안한다. 텐서플로우 객체 탐지 API의 Faster R-CNN 알고리즘을 기반으로 새로운 학습모델을 생성했으며 심층 학습과 평가를 위해 총 100여 편의 연구논문들을 대상으로 목표 객체들을 데이터화했다. 마지막으로 성능평가를 통해 제안한 시스템이 경험적 방법론을 적용한 비교 대상에 비해 약 5.2% 높은 성능을 보임을 확인하였다. With the proliferation of artificial intelligence technology, it is becoming important to obtain, store, and utilize scientific data in research and science sectors. A number of methods for extracting meaningful objects such as graphs and tables from research articles have been proposed to eventually obtain scientific data. Existing extraction methods using heuristic approaches are hardly applicable to electronic documents having heterogeneous manuscript formats because they are designed to work properly for some targeted manuscripts. This paper proposes a prototype of an object extraction system which exploits a recent deep-learning technology so as to overcome the inflexibility of the heuristic approaches. We implemented our trained model, based on the Faster R-CNN algorithm, using the Google TensorFlow Object Detection API and also composed an annotated data set from 100 research articles for training and evaluation. Finally, a performance evaluation shows that the proposed system outperforms a comparator adopting heuristic approaches by 5.2%.
AbstractList 인공지능 기술의 확산으로 인해 과학기술 분야에서도 연구 데이터의 확보, 저장 및 활용이 중요시 되고 있는 상황이다. 연구 데이터를 확보하기 위해 전자문서 형태의 연구논문으로부터 그래프, 표와 같은 유의미한 객체를 추출하는 다양한 방법들이 제안되고 있다. 경험적 방법론을 이용하는 기존의 연구들은 문서의 편집 특성을 일반화하여 객체들을 추출하기 때문에 다수의 이질적인 형태를 갖는 전자문서들을 대상으로 연구결과를 적용하는데는 한계가 있다. 본 논문은 경험적 방법론의 경직성을 극복하고 이질적인 전자문서들로부터 목표 객체들을 효과적으로 추출하기 위해 심층 학습 기반의 객체 추출 시스템을 제안한다. 텐서플로우 객체 탐지 API의 Faster R-CNN 알고리즘을 기반으로 새로운 학습모델을 생성했으며 심층 학습과 평가를 위해 총 100여 편의 연구논문들을 대상으로 목표 객체들을 데이터화했다. 마지막으로 성능평가를 통해 제안한 시스템이 경험적 방법론을 적용한 비교 대상에 비해 약 5.2% 높은 성능을 보임을 확인하였다. With the proliferation of artificial intelligence technology, it is becoming important to obtain, store, and utilize scientific data in research and science sectors. A number of methods for extracting meaningful objects such as graphs and tables from research articles have been proposed to eventually obtain scientific data. Existing extraction methods using heuristic approaches are hardly applicable to electronic documents having heterogeneous manuscript formats because they are designed to work properly for some targeted manuscripts. This paper proposes a prototype of an object extraction system which exploits a recent deep-learning technology so as to overcome the inflexibility of the heuristic approaches. We implemented our trained model, based on the Faster R-CNN algorithm, using the Google TensorFlow Object Detection API and also composed an annotated data set from 100 research articles for training and evaluation. Finally, a performance evaluation shows that the proposed system outperforms a comparator adopting heuristic approaches by 5.2%.
With the proliferation of artificial intelligence technology, it is becoming important to obtain, store, and utilize scientific data in research and science sectors. A number of methods for extracting meaningful objects such as graphs and tables from research articles have been proposed to eventually obtain scientific data. Existing extraction methods using heuristic approaches are hardly applicable to electronic documents having heterogeneous manuscript formats because they are designed to work properly for some targeted manuscripts. This paper proposes a prototype of an object extraction system which exploits a recent deep-learning technology so as to overcome the inflexibility of the heuristic approaches. We implemented our trained model, based on the Faster R-CNN algorithm, using the Google TensorFlow Object Detection API and also composed an annotated data set from 100 research articles for training and evaluation. Finally, a performance evaluation shows that the proposed system outperforms a comparator adopting heuristic approaches by 5.2%. 인공지능 기술의 확산으로 인해 과학기술 분야에서도 연구 데이터의 확보, 저장 및 활용이 중요시 되고 있는 상황이다. 연구 데이터를 확보하기 위해 전자문서 형태의 연구논문으로부터 그래프, 표와 같은 유의미한 객체를 추출하는 다양한 방법들이 제안되고 있다. 경험적 방법론을 이용하는 기존의 연구들은 문서의 편집 특성을 일반화하여 객체들을 추출하기 때문에 다수의 이질적인 형태를 갖는 전자문서들을 대상으로 연구결과를 적용하는데는 한계가 있다. 본 논문은 경험적 방법론의 경직성을 극복하고 이질적인 전자문서들로부터 목표 객체들을 효과적으로 추출하기 위해 심층 학습 기반의 객체 추출 시스템을 제안한다. 텐서플로우 객체 탐지 API의 Faster R-CNN 알고리즘을 기반으로 새로운 학습 모델을 생성했으며 심층 학습과 평가를 위해 총 100여 편의 연구논문들을 대상으로 목표 객체들을 데이터화했다. 마지막으로 성능평가를 통해 제안한 시스템이 경험적 방법론을 적용한 비교 대상에 비해 약 5.2% 높은 성능을 보임을 확인하였다.
Author Jinyong Jo
장희진
이상원
Heejin Jang
Yeonghun Chae
채영훈
Sangwon Lee
조진용
Author_xml – sequence: 1
  fullname: 장희진
– sequence: 2
  fullname: Heejin Jang
– sequence: 3
  fullname: 채영훈
– sequence: 4
  fullname: Yeonghun Chae
– sequence: 5
  fullname: 이상원
– sequence: 6
  fullname: Sangwon Lee
– sequence: 7
  fullname: 조진용
– sequence: 8
  fullname: Jinyong Jo
BookMark eNo9jLtqAkEYRqcwEGN8gjTTpFyYy86tFMldsLFf9jILi8YEN03aYGeRFJFEcYNdECwWUbHJC7m_7xBDQqoPzjl8R6jUvevaEiozppUjDBGHqJqmSUAE50q5gpdRCwZz2KwwDKbbxVfxmUHWx7vRBMaz3XCCYdqHj5divoH-BBdPS7zNM1gsIXvHP_x5hGH9Cuu9y2fFYojhLd-u5sfoIPY7qa3-bQW1zs9a9Uun0by4qtcaTlsQ5QRaMc1dP6Rx7AbSsogrFprYjYSMLJGChDagRCoZG20E1YG1htqQCU4lDXxeQae_t-0kfUi8bpR2vOvaTZMRqonhQhjuUqL23cl_l3r3veTW7z16XLqMasm_Aa5hbhQ
ContentType Journal Article
DBID HZB
Q5X
JDI
DEWEY 004
DatabaseName Korea Information Science Society (KISS)
Korean Studies Information Service System (KISS) B-Type
KoreaScience
DatabaseTitleList

DeliveryMethod fulltext_linktorsrc
Discipline Computer Science
DocumentTitleAlternate 심층 신경망을 활용한 전자문서 내 객체의 자동 추출 방법 연구
EndPage 418
ExternalDocumentID JAKO201809355934107
3642186
GroupedDBID ALMA_UNASSIGNED_HOLDINGS
HZB
Q5X
.UV
JDI
ID FETCH-LOGICAL-k507-b872834ac1ff4b6e2d372c9f4d56de0650ceb10676f989518bee91ec253161ba3
ISSN 2287-5905
IngestDate Fri Dec 22 11:58:35 EST 2023
Sat Feb 15 02:11:14 EST 2025
IsOpenAccess true
IsPeerReviewed false
IsScholarly false
Issue 11
Language Korean
LinkModel OpenURL
MergedId FETCHMERGED-LOGICAL-k507-b872834ac1ff4b6e2d372c9f4d56de0650ceb10676f989518bee91ec253161ba3
Notes Korea Information Processing Society
KISTI1.1003/JNL.JAKO201809355934107
OpenAccessLink http://click.ndsl.kr/servlet/LinkingDetailView?cn=JAKO201809355934107&dbt=JAKO&org_code=O481&site_code=SS1481&service_code=01
PageCount 8
ParticipantIDs kisti_ndsl_JAKO201809355934107
kiss_primary_3642186
PublicationCentury 2000
PublicationDate 20181130
PublicationDateYYYYMMDD 2018-11-30
PublicationDate_xml – month: 11
  year: 2018
  text: 20181130
  day: 30
PublicationDecade 2010
PublicationTitle 정보처리학회 논문지 (KTSDE)
PublicationTitleAlternate 정보처리학회 논문지 (KTSDE)
PublicationYear 2018
Publisher 한국정보처리학회
Publisher_xml – name: 한국정보처리학회
SSID ssib053377453
ssib013223549
ssib044742768
ssib058467650
ssib014210003
ssib012446219
Score 1.6720519
Snippet 인공지능 기술의 확산으로 인해 과학기술 분야에서도 연구 데이터의 확보, 저장 및 활용이 중요시 되고 있는 상황이다. 연구 데이터를 확보하기 위해 전자문서 형태의 연구논문으로부터 그래프, 표와 같은 유의미한 객체를 추출하는 다양한 방법들이 제안되고 있다. 경험적 방법론을 이용하는 기존의...
With the proliferation of artificial intelligence technology, it is becoming important to obtain, store, and utilize scientific data in research and science...
SourceID kisti
kiss
SourceType Open Access Repository
Publisher
StartPage 411
SubjectTerms Deep Learning
Object Extraction
PDF Document
Tensorflow
객체 추출
심층 학습
전자문서
텐서플로우
Title 심층 신경망을 활용한 전자문서 내 객체의 자동 추출 방법 연구
URI https://kiss.kstudy.com/ExternalLink/Ar?key=3642186
http://click.ndsl.kr/servlet/LinkingDetailView?cn=JAKO201809355934107&dbt=JAKO&org_code=O481&site_code=SS1481&service_code=01
Volume 7
hasFullText 1
inHoldings 1
isFullTextHit
isPrint
link http://utb.summon.serialssolutions.com/2.0.0/link/0/eLvHCXMwnV07T9xAELaAKk1eJAp5IBfZ6mTkx3q9W9rnQwSUh5SLRHeyfbaUEB1RAEVKkSKio0iKoISIi-giJAqEANHkf-Q3cOY_ZGZ3fWcipDwayx7vfjsP2zPjXY8N4z4Hn0WFU1hZ5jn4SQ61kqIoLIjME18ULIADXG3xiM09o_OL_uLY-M_aqqW11XQme3vhdyX_Y1WggV3xK9l_sOwQFAiwD_aFLVgYtn9lY9JqEh6RsIk7ESeR36hINmmFJHJJFJMWHAZExHgKtpxCo5gIQYTsJ0ISCknxgSIBoDen8lyLCFsCSHzEpqpRRDiAIxQMY2t0HI_qYQRvnEPgszCkJEWMCFrtKCxAQB4iRBBKCBEgFdF9outDvhhJDRwCu9jB00NiTy5ZZVIhSh4lWEh4U_Lgk6h5ThxQDLdnGgsPnjzFv2VUv06Xcygr4KHeJHp-BVfSNvJR8cYZpWkmkWMUCDUG2g01soBR1A5TepJS8lmlu1gKJxUVqX4UKEqbHopc8V_dEFqXoToTa5sj-7TeJHIqy3HIEWRbGI2fQ4m1xrgnm0hWhV1vEjqaPYk_vEjqb4gcXlWmrByJC1mx5Qvbr3u9oH5zOzUXRvVRro_4KFKoVkf8FkAMl3XOhwuPXVkRDqJYAfERlnkY9xz0Pw_ftarnPIaUzB2VEcQXIl5tttmhLs46Df0GpQF1a2kxZCiQtMgCs0PRIKKChGsFUkzMu57XYsT2VeOyTu7MUN2p14yxpeXrxpXqxymm9qOTRrvc2CtPjsxyY-f04Mfge7_sr5tnW9vl192zzW2z3Fkvv30c7J2U69vm4P2hebrfLw8Oy_4XE-kftszy-FN5DOf2dwcHm2b5ef_0aO-G0Z5ttZtzlv69ibUESZiV8gBCe5pkTlHQlOVu1wvcTBS067NujplTBnEUBJOsEBzyIJ7muXDyzAWvyZw08W4aE73lXn7LMD1ue5TTnLMCa0NlCeQd8JjNvDwteMGSKWMSldN5pQrYdDz8up2zKWNaKqvT66687FxgvNt_anDHuDS64O4aE6uv1_J7EKSvptPS4r8A95K2mw
linkProvider ISSN International Centre
openUrl ctx_ver=Z39.88-2004&ctx_enc=info%3Aofi%2Fenc%3AUTF-8&rfr_id=info%3Asid%2Fsummon.serialssolutions.com&rft_val_fmt=info%3Aofi%2Ffmt%3Akev%3Amtx%3Ajournal&rft.genre=article&rft.atitle=%EC%8B%AC%EC%B8%B5+%EC%8B%A0%EA%B2%BD%EB%A7%9D%EC%9D%84+%ED%99%9C%EC%9A%A9%ED%95%9C+%EC%A0%84%EC%9E%90%EB%AC%B8%EC%84%9C+%EB%82%B4+%EA%B0%9D%EC%B2%B4%EC%9D%98+%EC%9E%90%EB%8F%99+%EC%B6%94%EC%B6%9C+%EB%B0%A9%EB%B2%95+%EC%97%B0%EA%B5%AC&rft.jtitle=%EC%A0%95%EB%B3%B4%EC%B2%98%EB%A6%AC%ED%95%99%ED%9A%8C%EB%85%BC%EB%AC%B8%EC%A7%80.+KIPS+transactions+on+software+and+data+engineering.+%EC%86%8C%ED%94%84%ED%8A%B8%EC%9B%A8%EC%96%B4+%EB%B0%8F+%EB%8D%B0%EC%9D%B4%ED%84%B0+%EA%B3%B5%ED%95%99&rft.au=%EC%9E%A5%ED%9D%AC%EC%A7%84&rft.au=%EC%B1%84%EC%98%81%ED%9B%88&rft.au=%EC%9D%B4%EC%83%81%EC%9B%90&rft.au=%EC%A1%B0%EC%A7%84%EC%9A%A9&rft.date=2018-11-30&rft.issn=2287-5905&rft.volume=7&rft.issue=11&rft.spage=411&rft.epage=418&rft.externalDBID=n%2Fa&rft.externalDocID=JAKO201809355934107
thumbnail_l http://covers-cdn.summon.serialssolutions.com/index.aspx?isbn=/lc.gif&issn=2287-5905&client=summon
thumbnail_m http://covers-cdn.summon.serialssolutions.com/index.aspx?isbn=/mc.gif&issn=2287-5905&client=summon
thumbnail_s http://covers-cdn.summon.serialssolutions.com/index.aspx?isbn=/sc.gif&issn=2287-5905&client=summon