거대언어모델 기반 검색증강생성 시스템의 표 데이터 인식률을 높이기 위한 최적의 초매개변수 조합
거대언어모델(Large Language Models, LLM)은 비정형 데이터 처리에 강점을 지니지만, 표와 같은 정형 데이터처리에서는 인식률이 낮다. 본 연구에서는 이 문제를 해결하기 위해, 검색증강생성(Retrieval-AugmentedGeneration, RAG) 기반 질의응답 시스템의 표 데이터 인식 성능을 높이는 최적의 초매개변수(Hyperparameter) 조합을 제안한다. 표 데이터를 효과적으로 처리할 수 있도록 전처리 기법을 활용하며, 실험에는 전처리 된 표 데이터 기반의 말뭉치를 사용했다. 다양한 청크 및 오버랩 크...
Saved in:
Published in | 한국정보통신학회논문지 Vol. 28; no. 11; pp. 1282 - 1290 |
---|---|
Main Authors | , |
Format | Journal Article |
Language | Korean |
Published |
한국정보통신학회
01.11.2024
|
Subjects | |
Online Access | Get full text |
ISSN | 2234-4772 2288-4165 |
DOI | 10.6109/jkiice.2024.28.11.1282 |
Cover
Abstract | 거대언어모델(Large Language Models, LLM)은 비정형 데이터 처리에 강점을 지니지만, 표와 같은 정형 데이터처리에서는 인식률이 낮다. 본 연구에서는 이 문제를 해결하기 위해, 검색증강생성(Retrieval-AugmentedGeneration, RAG) 기반 질의응답 시스템의 표 데이터 인식 성능을 높이는 최적의 초매개변수(Hyperparameter) 조합을 제안한다. 표 데이터를 효과적으로 처리할 수 있도록 전처리 기법을 활용하며, 실험에는 전처리 된 표 데이터 기반의 말뭉치를 사용했다. 다양한 청크 및 오버랩 크기를 조절해 가능 높은 성능을 보이는 초매개변수 조합을 도출하는데 중점을 두었다. 실험 결과, 거대언어모델마다 최적의 성능을 보이는 초매개변수 조합이 달랐으며, 청크 크기는 응답 품질에 큰 영향을 미치지 않았으나 오버랩을 적용했을 때 일관되게 성능이 개선되는 결과를 보였다. 향후 연구에서는 다양한 도메인의 정형화된 데이터를 활용한 추가 실험을 진행할 예정이다. Large Language Models are highly proficient at handling unstructured data, like natural language, but their performancesignificantly declines when processing structured data, such as tables or other similar formats. To address this limitation,this study proposes an optimal combination of hyperparameters aimed at improving the recognition of table data in aretrieval-augmented question-answering system. Preprocessing techniques are applied to ensure the effective handling oftable data, and the experiments conducted use corpora based on preprocessed tables. The main focus was on discoveringthe best-performing hyperparameter combination by adjusting chunk sizes and varying overlap settings. The experimentalresults revealed that the optimal hyperparameters differed based on the specific language model being used. Althoughchunk size had little effect on overall response quality, introducing overlap consistently led to notable performanceimprovements. Future research will extend these findings by conducting further experiments with structured data acrossvarious domains. KCI Citation Count: 0 |
---|---|
AbstractList | 거대언어모델(Large Language Models, LLM)은 비정형 데이터 처리에 강점을 지니지만, 표와 같은 정형 데이터처리에서는 인식률이 낮다. 본 연구에서는 이 문제를 해결하기 위해, 검색증강생성(Retrieval-AugmentedGeneration, RAG) 기반 질의응답 시스템의 표 데이터 인식 성능을 높이는 최적의 초매개변수(Hyperparameter) 조합을 제안한다. 표 데이터를 효과적으로 처리할 수 있도록 전처리 기법을 활용하며, 실험에는 전처리 된 표 데이터 기반의 말뭉치를 사용했다. 다양한 청크 및 오버랩 크기를 조절해 가능 높은 성능을 보이는 초매개변수 조합을 도출하는데 중점을 두었다. 실험 결과, 거대언어모델마다 최적의 성능을 보이는 초매개변수 조합이 달랐으며, 청크 크기는 응답 품질에 큰 영향을 미치지 않았으나 오버랩을 적용했을 때 일관되게 성능이 개선되는 결과를 보였다. 향후 연구에서는 다양한 도메인의 정형화된 데이터를 활용한 추가 실험을 진행할 예정이다. Large Language Models are highly proficient at handling unstructured data, like natural language, but their performancesignificantly declines when processing structured data, such as tables or other similar formats. To address this limitation,this study proposes an optimal combination of hyperparameters aimed at improving the recognition of table data in aretrieval-augmented question-answering system. Preprocessing techniques are applied to ensure the effective handling oftable data, and the experiments conducted use corpora based on preprocessed tables. The main focus was on discoveringthe best-performing hyperparameter combination by adjusting chunk sizes and varying overlap settings. The experimentalresults revealed that the optimal hyperparameters differed based on the specific language model being used. Althoughchunk size had little effect on overall response quality, introducing overlap consistently led to notable performanceimprovements. Future research will extend these findings by conducting further experiments with structured data acrossvarious domains. KCI Citation Count: 0 |
Author | 이정훈(Jung-Hun Lee) 정민수(Min-Su Jung) |
Author_xml | – sequence: 1 fullname: 정민수(Min-Su Jung) – sequence: 2 fullname: 이정훈(Jung-Hun Lee) |
BackLink | https://www.kci.go.kr/kciportal/ci/sereArticleSearch/ciSereArtiView.kci?sereArticleSearchBean.artiId=ART003138726$$DAccess content in National Research Foundation of Korea (NRF) |
BookMark | eNotjE1L3EAcxgdR8PUryFy8FJLO_DMzyRzFtwpSoew9xGRW0tVd2aUHbyuuorUeWljxkICCrz3Fdgv7mTL_fIfG1tPzPD-e55klk-1O2xCyyJmrONPvP7fSNDYuMBAuBC7nLocAJsgMQBA4gis5-eo94Qjfh2my0OulO8xT4GvuqRlyWr4U9lsfr8Z4NbI_n-zlmJbjwhbXtPzVx-NzfMjLYojHOQ5eKF5k-PWuOskwv6bV94zaywLzUTUoKOZjvMjt_Q3mA2pPf9S4_qGYDaphRvFPhjdHryscndnHu7LI7O8-ntX5tqiGz_Nkqhnt9czCm86RxvpaY-WDs7W9sbmyvOW0lfQdKRhAAkoHGnZirpXHWJT4ATPcxEJyHgEzTcMET5RJYtBa6poJYSTIgIM3R979v213m2ErTsNOlP7T3U7Y6obLnxqbIWdKqEDKurz0Vv7STfdNkkbhQW2i7mH4cXt1jXOtGVO-9xfq2561 |
ContentType | Journal Article |
DBID | DBRKI TDB ACYCR |
DOI | 10.6109/jkiice.2024.28.11.1282 |
DatabaseName | DBPIA - 디비피아 Nurimedia DBPIA Journals Korean Citation Index |
DatabaseTitleList | |
DeliveryMethod | fulltext_linktorsrc |
DocumentTitleAlternate | Optimal Hyperparameter Combination for Improving Table Data Recognition Rate in Large Language Model based Retrieval-Augmented Generation Systems |
DocumentTitle_FL | Optimal Hyperparameter Combination for Improving Table Data Recognition Rate in Large Language Model based Retrieval-Augmented Generation Systems |
EISSN | 2288-4165 |
EndPage | 1290 |
ExternalDocumentID | oai_kci_go_kr_ARTI_10646855 NODE11990067 |
GroupedDBID | .UV ALMA_UNASSIGNED_HOLDINGS DBRKI TDB ACYCR |
ID | FETCH-LOGICAL-n657-54022d269892bc196300ad780e1ec4511a20efe041d6edc299591a244e5258123 |
ISSN | 2234-4772 |
IngestDate | Thu Dec 05 03:44:57 EST 2024 Thu Feb 06 13:23:28 EST 2025 |
IsPeerReviewed | true |
IsScholarly | true |
Issue | 11 |
Keywords | 검색 증강 생성 Data Preprocessing LangChain Table QA RAG 랭체인 거대언어모델 표 질의응답 LLM 데이터 전처리 |
Language | Korean |
LinkModel | OpenURL |
MergedId | FETCHMERGED-LOGICAL-n657-54022d269892bc196300ad780e1ec4511a20efe041d6edc299591a244e5258123 |
Notes | http://jkiice.org |
PageCount | 9 |
ParticipantIDs | nrf_kci_oai_kci_go_kr_ARTI_10646855 nurimedia_primary_NODE11990067 |
PublicationCentury | 2000 |
PublicationDate | 2024-11 |
PublicationDateYYYYMMDD | 2024-11-01 |
PublicationDate_xml | – month: 11 year: 2024 text: 2024-11 |
PublicationDecade | 2020 |
PublicationTitle | 한국정보통신학회논문지 |
PublicationYear | 2024 |
Publisher | 한국정보통신학회 |
Publisher_xml | – sequence: 0 name: 한국정보통신학회 – name: 한국정보통신학회 |
SSID | ssib036279136 ssib053377456 ssib044738262 ssib015937029 ssib023393675 ssib012146319 |
Score | 2.2685845 |
Snippet | 거대언어모델(Large Language Models, LLM)은 비정형 데이터 처리에 강점을 지니지만, 표와 같은 정형 데이터처리에서는 인식률이 낮다. 본 연구에서는 이 문제를 해결하기 위해, 검색증강생성(Retrieval-AugmentedGeneration, RAG) 기반 질의응답... |
SourceID | nrf nurimedia |
SourceType | Open Website Publisher |
StartPage | 1282 |
SubjectTerms | 전자/정보통신공학 |
Title | 거대언어모델 기반 검색증강생성 시스템의 표 데이터 인식률을 높이기 위한 최적의 초매개변수 조합 |
URI | https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE11990067 https://www.kci.go.kr/kciportal/ci/sereArticleSearch/ciSereArtiView.kci?sereArticleSearchBean.artiId=ART003138726 |
Volume | 28 |
hasFullText | 1 |
inHoldings | 1 |
isFullTextHit | |
isPrint | |
ispartofPNX | 한국정보통신학회논문지, 2024, 28(11), , pp.1282-1290 |
link | http://utb.summon.serialssolutions.com/2.0.0/link/0/eLvHCXMwrR1Nb9MwNBrjABcEAsT4mCJBTlVK7NiJc0zSTgNp4zKk3ap-pGhU6tC0XTigoZVpMHYAadMOrTSk8XnKYEj9TY37H3h2nDZDExqIS_r6_Pw-m_jZdZ417Z5Na0j8o2aiOqmZJKpVTRY1HdNrNqvEamJUjcSLwnPzzuxj8nCRLk5MFnO7ltZWa8X681PfK_mXqAIO4irekv2LyI6YAgJgiC9cIcJwPVOMjbJvBMgILKMcGCwUuxbKoeE5RsAygIgm3zd8JmlK0FSQ3ZjqBldPobBiwGyDeQLwHcMrySYgoqpJYAAgILkgocDwQgmAFBBXMhhVGCCVvOEDAaqQqWCpxiAlB1ZWIUOxjGdJak4NP6NmJGUASuEcA2VLykAqJuTRVF5oBJkywIehvFah6M6kX3xXqp4aGkq32JkzWEbtp56WzH0vn9WPJEoW0FpSAoXTJC9lqSNaU_v8jJXnScAXARTmUSOQgB8qZ4ByYoNmWMBMVNVCucWbE2L8GdlTqZwnUZ4a0YI4EMTyKz7iPjqx4vO_bBqPNJAiEpO46RlKxUjh4GaDbJ3mRjfIZXAuUxJLmKeNwk5axPZpa0mUxRIWFDGDsbk47p8ve_5bOnKi8HmrvlR5slxprVRgeveggiCBdhil57Tz2HXltoy5F-Vs_EDikHp7XJ4QMnXbzf3rjG3bs3O1iyB3cz1kj9JxQlyb5cpnwkwIJkfyAOiRh9IiA8LC-6fbBzlqewVS2wvtNXE-Bzzkc_nqwmXtkppo6n761LiiTbSWr2qbg6M4ebvO9_p87zj59iXZ6euDfpzE-_rg-zrfeM0_9QbxLt_o8c6Rzre7_M3h8FWX9_b14buunuzEvHc87MQ67_X5di_5eMB7HT3ZfA9o4KPzbme429X5zy4_eCl68eOt5PPhIO4mP9b5Fnz_EA93v17TFmbKC-GsqU5iMdsOdcXmKYwbWJw1i2t1MWZbVrXhMitCUV0UOKxiK2pGFkENJ2rUsahhCDhCIoopzCDs69pke7kd3dD0BqNNLAp20YZLoG-V1UWd9Br4mTQQxlPaXXCfjPsf4j-lTY_cW3mWluWpzD8qlRGC7BoS8JtnYnNLuzi-v25rk6sra9EdmGOs1qblD-sXp7DzgA |
linkProvider | ISSN International Centre |
openUrl | ctx_ver=Z39.88-2004&ctx_enc=info%3Aofi%2Fenc%3AUTF-8&rfr_id=info%3Asid%2Fsummon.serialssolutions.com&rft_val_fmt=info%3Aofi%2Ffmt%3Akev%3Amtx%3Ajournal&rft.genre=article&rft.atitle=%EA%B1%B0%EB%8C%80%EC%96%B8%EC%96%B4%EB%AA%A8%EB%8D%B8+%EA%B8%B0%EB%B0%98+%EA%B2%80%EC%83%89%EC%A6%9D%EA%B0%95%EC%83%9D%EC%84%B1+%EC%8B%9C%EC%8A%A4%ED%85%9C%EC%9D%98+%ED%91%9C+%EB%8D%B0%EC%9D%B4%ED%84%B0+%EC%9D%B8%EC%8B%9D%EB%A5%A0%EC%9D%84+%EB%86%92%EC%9D%B4%EA%B8%B0+%EC%9C%84%ED%95%9C+%EC%B5%9C%EC%A0%81%EC%9D%98+%EC%B4%88%EB%A7%A4%EA%B0%9C%EB%B3%80%EC%88%98+%EC%A1%B0%ED%95%A9&rft.jtitle=%ED%95%9C%EA%B5%AD%EC%A0%95%EB%B3%B4%ED%86%B5%EC%8B%A0%ED%95%99%ED%9A%8C%EB%85%BC%EB%AC%B8%EC%A7%80%2C+28%2811%29&rft.au=%EC%A0%95%EB%AF%BC%EC%88%98&rft.au=%EC%9D%B4%EC%A0%95%ED%9B%88&rft.date=2024-11-01&rft.pub=%ED%95%9C%EA%B5%AD%EC%A0%95%EB%B3%B4%ED%86%B5%EC%8B%A0%ED%95%99%ED%9A%8C&rft.issn=2234-4772&rft.eissn=2288-4165&rft.spage=1282&rft.epage=1290&rft_id=info:doi/10.6109%2Fjkiice.2024.28.11.1282&rft.externalDBID=n%2Fa&rft.externalDocID=oai_kci_go_kr_ARTI_10646855 |
thumbnail_l | http://covers-cdn.summon.serialssolutions.com/index.aspx?isbn=/lc.gif&issn=2234-4772&client=summon |
thumbnail_m | http://covers-cdn.summon.serialssolutions.com/index.aspx?isbn=/mc.gif&issn=2234-4772&client=summon |
thumbnail_s | http://covers-cdn.summon.serialssolutions.com/index.aspx?isbn=/sc.gif&issn=2234-4772&client=summon |