거대언어모델 기반 검색증강생성 시스템의 표 데이터 인식률을 높이기 위한 최적의 초매개변수 조합

거대언어모델(Large Language Models, LLM)은 비정형 데이터 처리에 강점을 지니지만, 표와 같은 정형 데이터처리에서는 인식률이 낮다. 본 연구에서는 이 문제를 해결하기 위해, 검색증강생성(Retrieval-AugmentedGeneration, RAG) 기반 질의응답 시스템의 표 데이터 인식 성능을 높이는 최적의 초매개변수(Hyperparameter) 조합을 제안한다. 표 데이터를 효과적으로 처리할 수 있도록 전처리 기법을 활용하며, 실험에는 전처리 된 표 데이터 기반의 말뭉치를 사용했다. 다양한 청크 및 오버랩 크...

Full description

Saved in:
Bibliographic Details
Published in한국정보통신학회논문지 Vol. 28; no. 11; pp. 1282 - 1290
Main Authors 정민수(Min-Su Jung), 이정훈(Jung-Hun Lee)
Format Journal Article
LanguageKorean
Published 한국정보통신학회 01.11.2024
Subjects
Online AccessGet full text
ISSN2234-4772
2288-4165
DOI10.6109/jkiice.2024.28.11.1282

Cover

Abstract 거대언어모델(Large Language Models, LLM)은 비정형 데이터 처리에 강점을 지니지만, 표와 같은 정형 데이터처리에서는 인식률이 낮다. 본 연구에서는 이 문제를 해결하기 위해, 검색증강생성(Retrieval-AugmentedGeneration, RAG) 기반 질의응답 시스템의 표 데이터 인식 성능을 높이는 최적의 초매개변수(Hyperparameter) 조합을 제안한다. 표 데이터를 효과적으로 처리할 수 있도록 전처리 기법을 활용하며, 실험에는 전처리 된 표 데이터 기반의 말뭉치를 사용했다. 다양한 청크 및 오버랩 크기를 조절해 가능 높은 성능을 보이는 초매개변수 조합을 도출하는데 중점을 두었다. 실험 결과, 거대언어모델마다 최적의 성능을 보이는 초매개변수 조합이 달랐으며, 청크 크기는 응답 품질에 큰 영향을 미치지 않았으나 오버랩을 적용했을 때 일관되게 성능이 개선되는 결과를 보였다. 향후 연구에서는 다양한 도메인의 정형화된 데이터를 활용한 추가 실험을 진행할 예정이다. Large Language Models are highly proficient at handling unstructured data, like natural language, but their performancesignificantly declines when processing structured data, such as tables or other similar formats. To address this limitation,this study proposes an optimal combination of hyperparameters aimed at improving the recognition of table data in aretrieval-augmented question-answering system. Preprocessing techniques are applied to ensure the effective handling oftable data, and the experiments conducted use corpora based on preprocessed tables. The main focus was on discoveringthe best-performing hyperparameter combination by adjusting chunk sizes and varying overlap settings. The experimentalresults revealed that the optimal hyperparameters differed based on the specific language model being used. Althoughchunk size had little effect on overall response quality, introducing overlap consistently led to notable performanceimprovements. Future research will extend these findings by conducting further experiments with structured data acrossvarious domains. KCI Citation Count: 0
AbstractList 거대언어모델(Large Language Models, LLM)은 비정형 데이터 처리에 강점을 지니지만, 표와 같은 정형 데이터처리에서는 인식률이 낮다. 본 연구에서는 이 문제를 해결하기 위해, 검색증강생성(Retrieval-AugmentedGeneration, RAG) 기반 질의응답 시스템의 표 데이터 인식 성능을 높이는 최적의 초매개변수(Hyperparameter) 조합을 제안한다. 표 데이터를 효과적으로 처리할 수 있도록 전처리 기법을 활용하며, 실험에는 전처리 된 표 데이터 기반의 말뭉치를 사용했다. 다양한 청크 및 오버랩 크기를 조절해 가능 높은 성능을 보이는 초매개변수 조합을 도출하는데 중점을 두었다. 실험 결과, 거대언어모델마다 최적의 성능을 보이는 초매개변수 조합이 달랐으며, 청크 크기는 응답 품질에 큰 영향을 미치지 않았으나 오버랩을 적용했을 때 일관되게 성능이 개선되는 결과를 보였다. 향후 연구에서는 다양한 도메인의 정형화된 데이터를 활용한 추가 실험을 진행할 예정이다. Large Language Models are highly proficient at handling unstructured data, like natural language, but their performancesignificantly declines when processing structured data, such as tables or other similar formats. To address this limitation,this study proposes an optimal combination of hyperparameters aimed at improving the recognition of table data in aretrieval-augmented question-answering system. Preprocessing techniques are applied to ensure the effective handling oftable data, and the experiments conducted use corpora based on preprocessed tables. The main focus was on discoveringthe best-performing hyperparameter combination by adjusting chunk sizes and varying overlap settings. The experimentalresults revealed that the optimal hyperparameters differed based on the specific language model being used. Althoughchunk size had little effect on overall response quality, introducing overlap consistently led to notable performanceimprovements. Future research will extend these findings by conducting further experiments with structured data acrossvarious domains. KCI Citation Count: 0
Author 이정훈(Jung-Hun Lee)
정민수(Min-Su Jung)
Author_xml – sequence: 1
  fullname: 정민수(Min-Su Jung)
– sequence: 2
  fullname: 이정훈(Jung-Hun Lee)
BackLink https://www.kci.go.kr/kciportal/ci/sereArticleSearch/ciSereArtiView.kci?sereArticleSearchBean.artiId=ART003138726$$DAccess content in National Research Foundation of Korea (NRF)
BookMark eNotjE1L3EAcxgdR8PUryFy8FJLO_DMzyRzFtwpSoew9xGRW0tVd2aUHbyuuorUeWljxkICCrz3Fdgv7mTL_fIfG1tPzPD-e55klk-1O2xCyyJmrONPvP7fSNDYuMBAuBC7nLocAJsgMQBA4gis5-eo94Qjfh2my0OulO8xT4GvuqRlyWr4U9lsfr8Z4NbI_n-zlmJbjwhbXtPzVx-NzfMjLYojHOQ5eKF5k-PWuOskwv6bV94zaywLzUTUoKOZjvMjt_Q3mA2pPf9S4_qGYDaphRvFPhjdHryscndnHu7LI7O8-ntX5tqiGz_Nkqhnt9czCm86RxvpaY-WDs7W9sbmyvOW0lfQdKRhAAkoHGnZirpXHWJT4ATPcxEJyHgEzTcMET5RJYtBa6poJYSTIgIM3R979v213m2ErTsNOlP7T3U7Y6obLnxqbIWdKqEDKurz0Vv7STfdNkkbhQW2i7mH4cXt1jXOtGVO-9xfq2561
ContentType Journal Article
DBID DBRKI
TDB
ACYCR
DOI 10.6109/jkiice.2024.28.11.1282
DatabaseName DBPIA - 디비피아
Nurimedia DBPIA Journals
Korean Citation Index
DatabaseTitleList
DeliveryMethod fulltext_linktorsrc
DocumentTitleAlternate Optimal Hyperparameter Combination for Improving Table Data Recognition Rate in Large Language Model based Retrieval-Augmented Generation Systems
DocumentTitle_FL Optimal Hyperparameter Combination for Improving Table Data Recognition Rate in Large Language Model based Retrieval-Augmented Generation Systems
EISSN 2288-4165
EndPage 1290
ExternalDocumentID oai_kci_go_kr_ARTI_10646855
NODE11990067
GroupedDBID .UV
ALMA_UNASSIGNED_HOLDINGS
DBRKI
TDB
ACYCR
ID FETCH-LOGICAL-n657-54022d269892bc196300ad780e1ec4511a20efe041d6edc299591a244e5258123
ISSN 2234-4772
IngestDate Thu Dec 05 03:44:57 EST 2024
Thu Feb 06 13:23:28 EST 2025
IsPeerReviewed true
IsScholarly true
Issue 11
Keywords 검색 증강 생성
Data Preprocessing
LangChain
Table QA
RAG
랭체인
거대언어모델
표 질의응답
LLM
데이터 전처리
Language Korean
LinkModel OpenURL
MergedId FETCHMERGED-LOGICAL-n657-54022d269892bc196300ad780e1ec4511a20efe041d6edc299591a244e5258123
Notes http://jkiice.org
PageCount 9
ParticipantIDs nrf_kci_oai_kci_go_kr_ARTI_10646855
nurimedia_primary_NODE11990067
PublicationCentury 2000
PublicationDate 2024-11
PublicationDateYYYYMMDD 2024-11-01
PublicationDate_xml – month: 11
  year: 2024
  text: 2024-11
PublicationDecade 2020
PublicationTitle 한국정보통신학회논문지
PublicationYear 2024
Publisher 한국정보통신학회
Publisher_xml – sequence: 0
  name: 한국정보통신학회
– name: 한국정보통신학회
SSID ssib036279136
ssib053377456
ssib044738262
ssib015937029
ssib023393675
ssib012146319
Score 2.2685845
Snippet 거대언어모델(Large Language Models, LLM)은 비정형 데이터 처리에 강점을 지니지만, 표와 같은 정형 데이터처리에서는 인식률이 낮다. 본 연구에서는 이 문제를 해결하기 위해, 검색증강생성(Retrieval-AugmentedGeneration, RAG) 기반 질의응답...
SourceID nrf
nurimedia
SourceType Open Website
Publisher
StartPage 1282
SubjectTerms 전자/정보통신공학
Title 거대언어모델 기반 검색증강생성 시스템의 표 데이터 인식률을 높이기 위한 최적의 초매개변수 조합
URI https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE11990067
https://www.kci.go.kr/kciportal/ci/sereArticleSearch/ciSereArtiView.kci?sereArticleSearchBean.artiId=ART003138726
Volume 28
hasFullText 1
inHoldings 1
isFullTextHit
isPrint
ispartofPNX 한국정보통신학회논문지, 2024, 28(11), , pp.1282-1290
link http://utb.summon.serialssolutions.com/2.0.0/link/0/eLvHCXMwrR1Nb9MwNBrjABcEAsT4mCJBTlVK7NiJc0zSTgNp4zKk3ap-pGhU6tC0XTigoZVpMHYAadMOrTSk8XnKYEj9TY37H3h2nDZDExqIS_r6_Pw-m_jZdZ417Z5Na0j8o2aiOqmZJKpVTRY1HdNrNqvEamJUjcSLwnPzzuxj8nCRLk5MFnO7ltZWa8X681PfK_mXqAIO4irekv2LyI6YAgJgiC9cIcJwPVOMjbJvBMgILKMcGCwUuxbKoeE5RsAygIgm3zd8JmlK0FSQ3ZjqBldPobBiwGyDeQLwHcMrySYgoqpJYAAgILkgocDwQgmAFBBXMhhVGCCVvOEDAaqQqWCpxiAlB1ZWIUOxjGdJak4NP6NmJGUASuEcA2VLykAqJuTRVF5oBJkywIehvFah6M6kX3xXqp4aGkq32JkzWEbtp56WzH0vn9WPJEoW0FpSAoXTJC9lqSNaU_v8jJXnScAXARTmUSOQgB8qZ4ByYoNmWMBMVNVCucWbE2L8GdlTqZwnUZ4a0YI4EMTyKz7iPjqx4vO_bBqPNJAiEpO46RlKxUjh4GaDbJ3mRjfIZXAuUxJLmKeNwk5axPZpa0mUxRIWFDGDsbk47p8ve_5bOnKi8HmrvlR5slxprVRgeveggiCBdhil57Tz2HXltoy5F-Vs_EDikHp7XJ4QMnXbzf3rjG3bs3O1iyB3cz1kj9JxQlyb5cpnwkwIJkfyAOiRh9IiA8LC-6fbBzlqewVS2wvtNXE-Bzzkc_nqwmXtkppo6n761LiiTbSWr2qbg6M4ebvO9_p87zj59iXZ6euDfpzE-_rg-zrfeM0_9QbxLt_o8c6Rzre7_M3h8FWX9_b14buunuzEvHc87MQ67_X5di_5eMB7HT3ZfA9o4KPzbme429X5zy4_eCl68eOt5PPhIO4mP9b5Fnz_EA93v17TFmbKC-GsqU5iMdsOdcXmKYwbWJw1i2t1MWZbVrXhMitCUV0UOKxiK2pGFkENJ2rUsahhCDhCIoopzCDs69pke7kd3dD0BqNNLAp20YZLoG-V1UWd9Br4mTQQxlPaXXCfjPsf4j-lTY_cW3mWluWpzD8qlRGC7BoS8JtnYnNLuzi-v25rk6sra9EdmGOs1qblD-sXp7DzgA
linkProvider ISSN International Centre
openUrl ctx_ver=Z39.88-2004&ctx_enc=info%3Aofi%2Fenc%3AUTF-8&rfr_id=info%3Asid%2Fsummon.serialssolutions.com&rft_val_fmt=info%3Aofi%2Ffmt%3Akev%3Amtx%3Ajournal&rft.genre=article&rft.atitle=%EA%B1%B0%EB%8C%80%EC%96%B8%EC%96%B4%EB%AA%A8%EB%8D%B8+%EA%B8%B0%EB%B0%98+%EA%B2%80%EC%83%89%EC%A6%9D%EA%B0%95%EC%83%9D%EC%84%B1+%EC%8B%9C%EC%8A%A4%ED%85%9C%EC%9D%98+%ED%91%9C+%EB%8D%B0%EC%9D%B4%ED%84%B0+%EC%9D%B8%EC%8B%9D%EB%A5%A0%EC%9D%84+%EB%86%92%EC%9D%B4%EA%B8%B0+%EC%9C%84%ED%95%9C+%EC%B5%9C%EC%A0%81%EC%9D%98+%EC%B4%88%EB%A7%A4%EA%B0%9C%EB%B3%80%EC%88%98+%EC%A1%B0%ED%95%A9&rft.jtitle=%ED%95%9C%EA%B5%AD%EC%A0%95%EB%B3%B4%ED%86%B5%EC%8B%A0%ED%95%99%ED%9A%8C%EB%85%BC%EB%AC%B8%EC%A7%80%2C+28%2811%29&rft.au=%EC%A0%95%EB%AF%BC%EC%88%98&rft.au=%EC%9D%B4%EC%A0%95%ED%9B%88&rft.date=2024-11-01&rft.pub=%ED%95%9C%EA%B5%AD%EC%A0%95%EB%B3%B4%ED%86%B5%EC%8B%A0%ED%95%99%ED%9A%8C&rft.issn=2234-4772&rft.eissn=2288-4165&rft.spage=1282&rft.epage=1290&rft_id=info:doi/10.6109%2Fjkiice.2024.28.11.1282&rft.externalDBID=n%2Fa&rft.externalDocID=oai_kci_go_kr_ARTI_10646855
thumbnail_l http://covers-cdn.summon.serialssolutions.com/index.aspx?isbn=/lc.gif&issn=2234-4772&client=summon
thumbnail_m http://covers-cdn.summon.serialssolutions.com/index.aspx?isbn=/mc.gif&issn=2234-4772&client=summon
thumbnail_s http://covers-cdn.summon.serialssolutions.com/index.aspx?isbn=/sc.gif&issn=2234-4772&client=summon