심층 신경망을 활용한 전자문서 내 객체의 자동 추출 방법 연구
인공지능 기술의 확산으로 인해 과학기술 분야에서도 연구 데이터의 확보, 저장 및 활용이 중요시 되고 있는 상황이다. 연구 데이터를 확보하기 위해 전자문서 형태의 연구논문으로부터 그래프, 표와 같은 유의미한 객체를 추출하는 다양한 방법들이 제안되고 있다. 경험적 방법론을 이용하는 기존의 연구들은 문서의 편집 특성을 일반화하여 객체들을 추출하기 때문에 다수의 이질적인 형태를 갖는 전자문서들을 대상으로 연구결과를 적용하는데는 한계가 있다. 본 논문은 경험적 방법론의 경직성을 극복하고 이질적인 전자문서들로부터 목표 객체들을 효과적으로 추출...
Saved in:
Published in | 정보처리학회 논문지 (KTSDE) Vol. 7; no. 11; pp. 411 - 418 |
---|---|
Main Authors | , , , , , , , |
Format | Journal Article |
Language | Korean |
Published |
한국정보처리학회
30.11.2018
|
Subjects | |
Online Access | Get full text |
ISSN | 2287-5905 |
Cover
Abstract | 인공지능 기술의 확산으로 인해 과학기술 분야에서도 연구 데이터의 확보, 저장 및 활용이 중요시 되고 있는 상황이다. 연구 데이터를 확보하기 위해 전자문서 형태의 연구논문으로부터 그래프, 표와 같은 유의미한 객체를 추출하는 다양한 방법들이 제안되고 있다. 경험적 방법론을 이용하는 기존의 연구들은 문서의 편집 특성을 일반화하여 객체들을 추출하기 때문에 다수의 이질적인 형태를 갖는 전자문서들을 대상으로 연구결과를 적용하는데는 한계가 있다. 본 논문은 경험적 방법론의 경직성을 극복하고 이질적인 전자문서들로부터 목표 객체들을 효과적으로 추출하기 위해 심층 학습 기반의 객체 추출 시스템을 제안한다. 텐서플로우 객체 탐지 API의 Faster R-CNN 알고리즘을 기반으로 새로운 학습모델을 생성했으며 심층 학습과 평가를 위해 총 100여 편의 연구논문들을 대상으로 목표 객체들을 데이터화했다. 마지막으로 성능평가를 통해 제안한 시스템이 경험적 방법론을 적용한 비교 대상에 비해 약 5.2% 높은 성능을 보임을 확인하였다.
With the proliferation of artificial intelligence technology, it is becoming important to obtain, store, and utilize scientific data in research and science sectors. A number of methods for extracting meaningful objects such as graphs and tables from research articles have been proposed to eventually obtain scientific data. Existing extraction methods using heuristic approaches are hardly applicable to electronic documents having heterogeneous manuscript formats because they are designed to work properly for some targeted manuscripts. This paper proposes a prototype of an object extraction system which exploits a recent deep-learning technology so as to overcome the inflexibility of the heuristic approaches. We implemented our trained model, based on the Faster R-CNN algorithm, using the Google TensorFlow Object Detection API and also composed an annotated data set from 100 research articles for training and evaluation. Finally, a performance evaluation shows that the proposed system outperforms a comparator adopting heuristic approaches by 5.2%. |
---|---|
AbstractList | 인공지능 기술의 확산으로 인해 과학기술 분야에서도 연구 데이터의 확보, 저장 및 활용이 중요시 되고 있는 상황이다. 연구 데이터를 확보하기 위해 전자문서 형태의 연구논문으로부터 그래프, 표와 같은 유의미한 객체를 추출하는 다양한 방법들이 제안되고 있다. 경험적 방법론을 이용하는 기존의 연구들은 문서의 편집 특성을 일반화하여 객체들을 추출하기 때문에 다수의 이질적인 형태를 갖는 전자문서들을 대상으로 연구결과를 적용하는데는 한계가 있다. 본 논문은 경험적 방법론의 경직성을 극복하고 이질적인 전자문서들로부터 목표 객체들을 효과적으로 추출하기 위해 심층 학습 기반의 객체 추출 시스템을 제안한다. 텐서플로우 객체 탐지 API의 Faster R-CNN 알고리즘을 기반으로 새로운 학습모델을 생성했으며 심층 학습과 평가를 위해 총 100여 편의 연구논문들을 대상으로 목표 객체들을 데이터화했다. 마지막으로 성능평가를 통해 제안한 시스템이 경험적 방법론을 적용한 비교 대상에 비해 약 5.2% 높은 성능을 보임을 확인하였다.
With the proliferation of artificial intelligence technology, it is becoming important to obtain, store, and utilize scientific data in research and science sectors. A number of methods for extracting meaningful objects such as graphs and tables from research articles have been proposed to eventually obtain scientific data. Existing extraction methods using heuristic approaches are hardly applicable to electronic documents having heterogeneous manuscript formats because they are designed to work properly for some targeted manuscripts. This paper proposes a prototype of an object extraction system which exploits a recent deep-learning technology so as to overcome the inflexibility of the heuristic approaches. We implemented our trained model, based on the Faster R-CNN algorithm, using the Google TensorFlow Object Detection API and also composed an annotated data set from 100 research articles for training and evaluation. Finally, a performance evaluation shows that the proposed system outperforms a comparator adopting heuristic approaches by 5.2%. With the proliferation of artificial intelligence technology, it is becoming important to obtain, store, and utilize scientific data in research and science sectors. A number of methods for extracting meaningful objects such as graphs and tables from research articles have been proposed to eventually obtain scientific data. Existing extraction methods using heuristic approaches are hardly applicable to electronic documents having heterogeneous manuscript formats because they are designed to work properly for some targeted manuscripts. This paper proposes a prototype of an object extraction system which exploits a recent deep-learning technology so as to overcome the inflexibility of the heuristic approaches. We implemented our trained model, based on the Faster R-CNN algorithm, using the Google TensorFlow Object Detection API and also composed an annotated data set from 100 research articles for training and evaluation. Finally, a performance evaluation shows that the proposed system outperforms a comparator adopting heuristic approaches by 5.2%. 인공지능 기술의 확산으로 인해 과학기술 분야에서도 연구 데이터의 확보, 저장 및 활용이 중요시 되고 있는 상황이다. 연구 데이터를 확보하기 위해 전자문서 형태의 연구논문으로부터 그래프, 표와 같은 유의미한 객체를 추출하는 다양한 방법들이 제안되고 있다. 경험적 방법론을 이용하는 기존의 연구들은 문서의 편집 특성을 일반화하여 객체들을 추출하기 때문에 다수의 이질적인 형태를 갖는 전자문서들을 대상으로 연구결과를 적용하는데는 한계가 있다. 본 논문은 경험적 방법론의 경직성을 극복하고 이질적인 전자문서들로부터 목표 객체들을 효과적으로 추출하기 위해 심층 학습 기반의 객체 추출 시스템을 제안한다. 텐서플로우 객체 탐지 API의 Faster R-CNN 알고리즘을 기반으로 새로운 학습 모델을 생성했으며 심층 학습과 평가를 위해 총 100여 편의 연구논문들을 대상으로 목표 객체들을 데이터화했다. 마지막으로 성능평가를 통해 제안한 시스템이 경험적 방법론을 적용한 비교 대상에 비해 약 5.2% 높은 성능을 보임을 확인하였다. |
Author | Jinyong Jo 장희진 이상원 Heejin Jang Yeonghun Chae 채영훈 Sangwon Lee 조진용 |
Author_xml | – sequence: 1 fullname: 장희진 – sequence: 2 fullname: Heejin Jang – sequence: 3 fullname: 채영훈 – sequence: 4 fullname: Yeonghun Chae – sequence: 5 fullname: 이상원 – sequence: 6 fullname: Sangwon Lee – sequence: 7 fullname: 조진용 – sequence: 8 fullname: Jinyong Jo |
BookMark | eNo9jLtqAkEYRqcwEGN8gjTTpFyYy86tFMldsLFf9jILi8YEN03aYGeRFJFEcYNdECwWUbHJC7m_7xBDQqoPzjl8R6jUvevaEiozppUjDBGHqJqmSUAE50q5gpdRCwZz2KwwDKbbxVfxmUHWx7vRBMaz3XCCYdqHj5divoH-BBdPS7zNM1gsIXvHP_x5hGH9Cuu9y2fFYojhLd-u5sfoIPY7qa3-bQW1zs9a9Uun0by4qtcaTlsQ5QRaMc1dP6Rx7AbSsogrFprYjYSMLJGChDagRCoZG20E1YG1htqQCU4lDXxeQae_t-0kfUi8bpR2vOvaTZMRqonhQhjuUqL23cl_l3r3veTW7z16XLqMasm_Aa5hbhQ |
ContentType | Journal Article |
DBID | HZB Q5X JDI |
DEWEY | 004 |
DatabaseName | Korea Information Science Society (KISS) Korean Studies Information Service System (KISS) B-Type KoreaScience |
DatabaseTitleList | |
DeliveryMethod | fulltext_linktorsrc |
Discipline | Computer Science |
DocumentTitleAlternate | 심층 신경망을 활용한 전자문서 내 객체의 자동 추출 방법 연구 |
EndPage | 418 |
ExternalDocumentID | JAKO201809355934107 3642186 |
GroupedDBID | ALMA_UNASSIGNED_HOLDINGS HZB Q5X .UV JDI |
ID | FETCH-LOGICAL-k507-b872834ac1ff4b6e2d372c9f4d56de0650ceb10676f989518bee91ec253161ba3 |
ISSN | 2287-5905 |
IngestDate | Fri Dec 22 11:58:35 EST 2023 Sat Feb 15 02:11:14 EST 2025 |
IsOpenAccess | true |
IsPeerReviewed | false |
IsScholarly | false |
Issue | 11 |
Language | Korean |
LinkModel | OpenURL |
MergedId | FETCHMERGED-LOGICAL-k507-b872834ac1ff4b6e2d372c9f4d56de0650ceb10676f989518bee91ec253161ba3 |
Notes | Korea Information Processing Society KISTI1.1003/JNL.JAKO201809355934107 |
OpenAccessLink | http://click.ndsl.kr/servlet/LinkingDetailView?cn=JAKO201809355934107&dbt=JAKO&org_code=O481&site_code=SS1481&service_code=01 |
PageCount | 8 |
ParticipantIDs | kisti_ndsl_JAKO201809355934107 kiss_primary_3642186 |
PublicationCentury | 2000 |
PublicationDate | 20181130 |
PublicationDateYYYYMMDD | 2018-11-30 |
PublicationDate_xml | – month: 11 year: 2018 text: 20181130 day: 30 |
PublicationDecade | 2010 |
PublicationTitle | 정보처리학회 논문지 (KTSDE) |
PublicationTitleAlternate | 정보처리학회 논문지 (KTSDE) |
PublicationYear | 2018 |
Publisher | 한국정보처리학회 |
Publisher_xml | – name: 한국정보처리학회 |
SSID | ssib053377453 ssib013223549 ssib044742768 ssib058467650 ssib014210003 ssib012446219 |
Score | 1.6720519 |
Snippet | 인공지능 기술의 확산으로 인해 과학기술 분야에서도 연구 데이터의 확보, 저장 및 활용이 중요시 되고 있는 상황이다. 연구 데이터를 확보하기 위해 전자문서 형태의 연구논문으로부터 그래프, 표와 같은 유의미한 객체를 추출하는 다양한 방법들이 제안되고 있다. 경험적 방법론을 이용하는 기존의... With the proliferation of artificial intelligence technology, it is becoming important to obtain, store, and utilize scientific data in research and science... |
SourceID | kisti kiss |
SourceType | Open Access Repository Publisher |
StartPage | 411 |
SubjectTerms | Deep Learning Object Extraction PDF Document Tensorflow 객체 추출 심층 학습 전자문서 텐서플로우 |
Title | 심층 신경망을 활용한 전자문서 내 객체의 자동 추출 방법 연구 |
URI | https://kiss.kstudy.com/ExternalLink/Ar?key=3642186 http://click.ndsl.kr/servlet/LinkingDetailView?cn=JAKO201809355934107&dbt=JAKO&org_code=O481&site_code=SS1481&service_code=01 |
Volume | 7 |
hasFullText | 1 |
inHoldings | 1 |
isFullTextHit | |
isPrint | |
link | http://utb.summon.serialssolutions.com/2.0.0/link/0/eLvHCXMwnV07T9xAELaAKk1eJAp5IBfZ6mTkx3q9W9rnQwSUh5SLRHeyfbaUEB1RAEVKkSKio0iKoISIi-giJAqEANHkf-Q3cOY_ZGZ3fWcipDwayx7vfjsP2zPjXY8N4z4Hn0WFU1hZ5jn4SQ61kqIoLIjME18ULIADXG3xiM09o_OL_uLY-M_aqqW11XQme3vhdyX_Y1WggV3xK9l_sOwQFAiwD_aFLVgYtn9lY9JqEh6RsIk7ESeR36hINmmFJHJJFJMWHAZExHgKtpxCo5gIQYTsJ0ISCknxgSIBoDen8lyLCFsCSHzEpqpRRDiAIxQMY2t0HI_qYQRvnEPgszCkJEWMCFrtKCxAQB4iRBBKCBEgFdF9outDvhhJDRwCu9jB00NiTy5ZZVIhSh4lWEh4U_Lgk6h5ThxQDLdnGgsPnjzFv2VUv06Xcygr4KHeJHp-BVfSNvJR8cYZpWkmkWMUCDUG2g01soBR1A5TepJS8lmlu1gKJxUVqX4UKEqbHopc8V_dEFqXoToTa5sj-7TeJHIqy3HIEWRbGI2fQ4m1xrgnm0hWhV1vEjqaPYk_vEjqb4gcXlWmrByJC1mx5Qvbr3u9oH5zOzUXRvVRro_4KFKoVkf8FkAMl3XOhwuPXVkRDqJYAfERlnkY9xz0Pw_ftarnPIaUzB2VEcQXIl5tttmhLs46Df0GpQF1a2kxZCiQtMgCs0PRIKKChGsFUkzMu57XYsT2VeOyTu7MUN2p14yxpeXrxpXqxymm9qOTRrvc2CtPjsxyY-f04Mfge7_sr5tnW9vl192zzW2z3Fkvv30c7J2U69vm4P2hebrfLw8Oy_4XE-kftszy-FN5DOf2dwcHm2b5ef_0aO-G0Z5ttZtzlv69ibUESZiV8gBCe5pkTlHQlOVu1wvcTBS067NujplTBnEUBJOsEBzyIJ7muXDyzAWvyZw08W4aE73lXn7LMD1ue5TTnLMCa0NlCeQd8JjNvDwteMGSKWMSldN5pQrYdDz8up2zKWNaKqvT66687FxgvNt_anDHuDS64O4aE6uv1_J7EKSvptPS4r8A95K2mw |
linkProvider | ISSN International Centre |
openUrl | ctx_ver=Z39.88-2004&ctx_enc=info%3Aofi%2Fenc%3AUTF-8&rfr_id=info%3Asid%2Fsummon.serialssolutions.com&rft_val_fmt=info%3Aofi%2Ffmt%3Akev%3Amtx%3Ajournal&rft.genre=article&rft.atitle=%EC%8B%AC%EC%B8%B5+%EC%8B%A0%EA%B2%BD%EB%A7%9D%EC%9D%84+%ED%99%9C%EC%9A%A9%ED%95%9C+%EC%A0%84%EC%9E%90%EB%AC%B8%EC%84%9C+%EB%82%B4+%EA%B0%9D%EC%B2%B4%EC%9D%98+%EC%9E%90%EB%8F%99+%EC%B6%94%EC%B6%9C+%EB%B0%A9%EB%B2%95+%EC%97%B0%EA%B5%AC&rft.jtitle=%EC%A0%95%EB%B3%B4%EC%B2%98%EB%A6%AC%ED%95%99%ED%9A%8C%EB%85%BC%EB%AC%B8%EC%A7%80.+KIPS+transactions+on+software+and+data+engineering.+%EC%86%8C%ED%94%84%ED%8A%B8%EC%9B%A8%EC%96%B4+%EB%B0%8F+%EB%8D%B0%EC%9D%B4%ED%84%B0+%EA%B3%B5%ED%95%99&rft.au=%EC%9E%A5%ED%9D%AC%EC%A7%84&rft.au=%EC%B1%84%EC%98%81%ED%9B%88&rft.au=%EC%9D%B4%EC%83%81%EC%9B%90&rft.au=%EC%A1%B0%EC%A7%84%EC%9A%A9&rft.date=2018-11-30&rft.issn=2287-5905&rft.volume=7&rft.issue=11&rft.spage=411&rft.epage=418&rft.externalDBID=n%2Fa&rft.externalDocID=JAKO201809355934107 |
thumbnail_l | http://covers-cdn.summon.serialssolutions.com/index.aspx?isbn=/lc.gif&issn=2287-5905&client=summon |
thumbnail_m | http://covers-cdn.summon.serialssolutions.com/index.aspx?isbn=/mc.gif&issn=2287-5905&client=summon |
thumbnail_s | http://covers-cdn.summon.serialssolutions.com/index.aspx?isbn=/sc.gif&issn=2287-5905&client=summon |