대용량 전자사전 구축을 위한 국어 대사전의 통계 정보

There are various application areas of Language information processing such as information retrieval, morphological analysis, spell checker, voice recognition, character recognition, etc. In these language information processing areas, an electronic dictionary is essential. This thesis made research...

Full description

Saved in:
Bibliographic Details
Published in한국콘텐츠학회 논문지, 7(6) Vol. 7; no. 6; pp. 60 - 68
Main Authors 김철수(Cheol-Su Kim), 김양범(Yang-Beom Kim)
Format Journal Article
LanguageKorean
Published 한국콘텐츠학회 2007
Subjects
Online AccessGet full text
ISSN1598-4877
2508-6723

Cover

Abstract There are various application areas of Language information processing such as information retrieval, morphological analysis, spell checker, voice recognition, character recognition, etc. In these language information processing areas, an electronic dictionary is essential. This thesis made researches on basic statistical information on the Korean dictionary and on the construction of electronic dictionary. The targets of analysis were the number of registered word in Korea dictionary, the entry number of registered word in electronic dictionary, the number of used syllables, the number of different syllables, the average length of entry, the distribution of part of speech and the number of used nodes to construct electronic dictionary using Trie, except for words including a archaic word or incomplete syllables. Total entry number of electronic dictionary is 361,980, the number of used syllables is 1,289,659, the average length of entries is 3.56 and the number of different syllables is 2,463. Theses informations would play a beneficial role in constructing an electronic dictionary and in processing Korean information. 언어 정보 처리 응용 분야는 정보검색, 형태소분석, 철자검색, 음성인식, 문자 인식 등 다양하다. 이러한 정보처리 과정은 전자 사전이 필수적이다. 본 논문에서는 국어대사전에 대한 기본적인 통계 정보들을 살펴보고, 전자사전 구축에 대하여 알아보았다. 대상 정보는 고어 및 불완전음절을 포함하는 단어를 제외한 표제어들에 대하여, 대사전의 표제어수, 전자사전의 엔트리수, 사용된 전체음절수, 서로 다른 음절수, 엔트리들의 평균 길이, 품사별 분포, 전자사전을 트라이로 구축할 때 사용되는 노드 수 등 이다. 전자사전의 전체 엔트리 수는 361,980개, 사용된 음절수는 1,289,659개로 엔트리들의 평균 길이는 3.56이었으며 서로 다른 음절수는 2,463개였다. 이러한 통계 정보들은 전자사전 구축 및 한국어 정보처리에 도움이 될 것이다.
AbstractList There are various application areas of Language information processing such as information retrieval, morphological analysis, spell checker, voice recognition, character recognition, etc. In these language information processing areas, an electronic dictionary is essential. This thesis made researches on basic statistical information on the Korean dictionary and on the construction of electronic dictionary. The targets of analysis were the number of registered word in Korea dictionary, the entry number of registered word in electronic dictionary, the number of used syllables, the number of different syllables, the average length of entry, the distribution of part of speech and the number of used nodes to construct electronic dictionary using Trie, except for words including a archaic word or incomplete syllables. Total entry number of electronic dictionary is 361,980, the number of used syllables is 1,289,659, the average length of entries is 3.56 and the number of different syllables is 2,463. Theses informations would play a beneficial role in constructing an electronic dictionary and in processing Korean information. 언어 정보 처리 응용 분야는 정보검색, 형태소분석, 철자검색, 음성인식, 문자 인식 등 다양하다. 이러한 정보처리 과정은 전자 사전이 필수적이다. 본 논문에서는 국어대사전에 대한 기본적인 통계 정보들을 살펴보고, 전자사전 구축에 대하여 알아보았다. 대상 정보는 고어 및 불완전음절을 포함하는 단어를 제외한 표제어들에 대하여, 대사전의 표제어수, 전자사전의 엔트리수, 사용된 전체음절수, 서로 다른 음절수, 엔트리들의 평균 길이, 품사별 분포, 전자사전을 트라이로 구축할 때 사용되는 노드 수 등 이다. 전자사전의 전체 엔트리 수는 361,980개, 사용된 음절수는 1,289,659개로 엔트리들의 평균 길이는 3.56이었으며 서로 다른 음절수는 2,463개였다. 이러한 통계 정보들은 전자사전 구축 및 한국어 정보처리에 도움이 될 것이다.
언어 정보 처리 응용 분야는 정보검색, 형태소분석, 철자검색, 음성인식, 문자 인식 등 다양하다. 이러한 정보처리 과정은 전자 사전이 필수적이다. 본 논문에서는 국어대사전에 대한 기본적인 통계 정보들을 살펴보고, 전자사전 구축에 대하여 알아보았다. 대상 정보는 고어 및 불완전음절을 포함하는 단어를 제외한 표제어들에 대하여, 대사전의 표제어수, 전자사전의 엔트리수, 사용된 전체음절수, 서로 다른 음절수, 엔트리들의 평균 길이, 품사별 분포, 전자사전을 트라이로 구축할 때 사용되는 노드 수 등 이다. 전자사전의 전체 엔트리 수는 361,980개, 사용된 음절수는 1,289,659개로 엔트리들의 평균 길이는 3.56이었으며 서로 다른 음절수는 2,463개였다. 이러한 통계 정보들은 전자사전 구축 및 한국어 정보처리에 도움이 될 것이다. There are various application areas of Language information processing such as information retrieval, morphological analysis, spell checker, voice recognition, character recognition, etc. In these language information processing areas, an electronic dictionary is essential. This thesis made researches on basic statistical information on the Korean dictionary and on the construction of electronic dictionary. The targets of analysis were the number of registered word in Korea dictionary, the entry number of registered word in electronic dictionary, the number of used syllables, the number of different syllables, the average length of entry, the distribution of part of speech and the number of used nodes to construct electronic dictionary using Trie, except for words including a archaic word or incomplete syllables. Total entry number of electronic dictionary is 361,980, the number of used syllables is 1,289,659, the average length of entries is 3.56 and the number of different syllables is 2,463. Theses informations would play a beneficial role in constructing an electronic dictionary and in processing Korean information. KCI Citation Count: 8
Author 김철수(Cheol-Su Kim)
김양범(Yang-Beom Kim)
Author_xml – sequence: 1
  fullname: 김철수(Cheol-Su Kim)
– sequence: 2
  fullname: 김양범(Yang-Beom Kim)
BackLink https://www.kci.go.kr/kciportal/ci/sereArticleSearch/ciSereArtiView.kci?sereArticleSearchBean.artiId=ART001062218$$DAccess content in National Research Foundation of Korea (NRF)
BookMark eNpFzM1KAlEcBfBLGGTmO8wmaDPwv993lmJWliSErS8zzkwMY2PM1KJdhARBizZGhJbbwFZqD6XXd2jSoNU5HH6cbVRIukmwgYqEg7KFJLSAipg7ymZKyi1UzrLIA-AUBBakiOqLpzvz9rn4eLTMqGfen839OC_WfDY2330z7Flm0Fv2B_nwZV6m1i9fCTN8tZYPs_kkF6P-YjLdQZuh28mC8l-W0PlBrVU9shvNw3q10rBjjLmwBTi-i6WQjvKFp3gQUAk0lJyGBAKXSuVwjwnSFjxknDLpYsa9EBjBAisnoCW0t_5N0lDH7Uh33WiVF10dp7py1qprhwpGZE531zSOsutIJ37W0ceVkyYBkERyAAKCYfrvkps0ugz8yNVXeXHTW33a3K8BKOZQKugPDyN31A
ContentType Journal Article
DBID DBRKI
TDB
JDI
ACYCR
DEWEY 005.7
DatabaseName DBPIA - 디비피아
Nurimedia DBPIA Journals
KoreaScience
Korean Citation Index
DatabaseTitleList

DeliveryMethod fulltext_linktorsrc
Discipline Computer Science
DocumentTitleAlternate Statistical Information of Korean Dictionary to Construct an Enormous Electronic Dictionary
DocumentTitle_FL Statistical Information of Korean Dictionary to Construct an Enormous Electronic Dictionary
EISSN 2508-6723
EndPage 68
ExternalDocumentID oai_kci_go_kr_ARTI_936427
JAKO200727500206413
NODE00849336
GroupedDBID .UV
ALMA_UNASSIGNED_HOLDINGS
DBRKI
TDB
JDI
ACYCR
M~E
ID FETCH-LOGICAL-k1156-609da176798d6b85ee3703f753f20ea37895b462c65f45347a145bf04216189e3
ISSN 1598-4877
IngestDate Tue Nov 21 21:11:34 EST 2023
Fri Dec 22 12:03:31 EST 2023
Thu Feb 06 13:29:06 EST 2025
IsOpenAccess true
IsPeerReviewed false
IsScholarly false
Issue 6
Keywords 정보처리
Korean Dictionary
음절
Electronic Dictionary
전자사전
국어 대사전
Information Processing
Statistical Information
통계정보
Syllable
Language Korean
LinkModel OpenURL
MergedId FETCHMERGED-LOGICAL-k1156-609da176798d6b85ee3703f753f20ea37895b462c65f45347a145bf04216189e3
Notes KISTI1.1003/JNL.JAKO200727500206413
G704-001475.2007.7.6.009
OpenAccessLink http://click.ndsl.kr/servlet/LinkingDetailView?cn=JAKO200727500206413&dbt=JAKO&org_code=O481&site_code=SS1481&service_code=01
PageCount 9
ParticipantIDs nrf_kci_oai_kci_go_kr_ARTI_936427
kisti_ndsl_JAKO200727500206413
nurimedia_primary_NODE00849336
PublicationCentury 2000
PublicationDate 2007
PublicationDateYYYYMMDD 2007-01-01
PublicationDate_xml – year: 2007
  text: 2007
PublicationDecade 2000
PublicationTitle 한국콘텐츠학회 논문지, 7(6)
PublicationTitleAlternate The Journal of the Korea Contents Association
PublicationYear 2007
Publisher 한국콘텐츠학회
Publisher_xml – name: 한국콘텐츠학회
SSID ssib005306162
ssib036279156
ssib001107260
ssib053377518
ssib030194663
ssib044738273
Score 1.3699888
Snippet There are various application areas of Language information processing such as information retrieval, morphological analysis, spell checker, voice recognition,...
언어 정보 처리 응용 분야는 정보검색, 형태소분석, 철자검색, 음성인식, 문자 인식 등 다양하다. 이러한 정보처리 과정은 전자 사전이 필수적이다. 본 논문에서는 국어대사전에 대한 기본적인 통계 정보들을 살펴보고, 전자사전 구축에 대하여 알아보았다. 대상 정보는 고어 및 불완전음절을...
SourceID nrf
kisti
nurimedia
SourceType Open Website
Open Access Repository
Publisher
StartPage 60
SubjectTerms 학제간연구
Title 대용량 전자사전 구축을 위한 국어 대사전의 통계 정보
URI https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE00849336
http://click.ndsl.kr/servlet/LinkingDetailView?cn=JAKO200727500206413&dbt=JAKO&org_code=O481&site_code=SS1481&service_code=01
https://www.kci.go.kr/kciportal/ci/sereArticleSearch/ciSereArtiView.kci?sereArticleSearchBean.artiId=ART001062218
Volume 7
hasFullText 1
inHoldings 1
isFullTextHit
isPrint
ispartofPNX 한국콘텐츠학회 논문지, 2007, 7(6), , pp.60-68
link http://utb.summon.serialssolutions.com/2.0.0/link/0/eLvHCXMwpV3Na9RAFA-1F72IomL9KBGcU4k0X5MZ8JJkt7SVtgdbqKeQZLO1bN2VdffiQUQWQfDgpSLSaq9CPbX1j2rT_8Hfm6RpKgW_Lsnw5s2bmbxk5vdmMu9p2v2Ux8Ahtmm0YysxYH9lhojTGECuFWeiLV0Z00HhhUU-u-LMr7qrYxce1v5aGg6SB-nLc8-V_ItWQYNe6ZTsX2i2EgoC0tAvrtAwrn-kY9YMmAjpZ4VmyKTPfEkUOcMETH2Q_GkmHJXXZFIxCYv5YZUFJp8FbkkKOJOu4m4UeUiFSkCDMmRYsTdUHmcBcdWacFZ6KUqKKZIgOBUlAfaJdHBRhQGRAqcOk6sqz9QYkDAlyy27EwgSUjJLlfCpOdQolwUq4Ss2qs5jotqcUYJl2e7AUmLQAUE1WCJ8mvU2jMfDKRVsWp5bCP2Xpmq9xaSDQk_i7poRZL1n9VInCype9fL_Z9_qs4ikVdoyPk2maICawuBecbj6ZOrxal9YfRopQiyUgKQIO_SLV_DFpUaTYiFI2yZ_84CZ9D_jwqvmKRaGYW_VbF8XxqF56hsSAzuFFqgGZwAZT5qnjpUcx7NFDdvCLPBoi075Hy67B4OOrJx14LJuH3DuYndIMSkwsNUw2vIV7XJpXOl-8aVc1cY6vWva3NH71_nnb0df3-n5zij_8iF_s4uEfniwm__YzLdHer41Ot7cAuF7_nFfJ3bFkW9_0o_fHhzugWNn82hv_7q2MtNcDmeNMoCI0YGhww0-LVux6dFGY4snws0yGxNcGxZ625rOYtsT0k0cbqXcbTuu7Xix6bhJG_MYhZGQmX1DG-_2utlNTU_tlgTabSUJ8KyJ0QyzM5AuiiVpCrwwoU2qRxF1Wy82onn_0RK9WhQ8AfYYB1Kc0O7hGUWddD0ij-50X-tFnX4Eu3UukjZ3LA9CqicYPS-8zUR1Td_6HcNt7VKx-UBrhHe08UF_mN0Fah4kk-rt-AkUdZdz
linkProvider ISSN International Centre
openUrl ctx_ver=Z39.88-2004&ctx_enc=info%3Aofi%2Fenc%3AUTF-8&rfr_id=info%3Asid%2Fsummon.serialssolutions.com&rft_val_fmt=info%3Aofi%2Ffmt%3Akev%3Amtx%3Ajournal&rft.genre=article&rft.atitle=%EB%8C%80%EC%9A%A9%EB%9F%89+%EC%A0%84%EC%9E%90%EC%82%AC%EC%A0%84+%EA%B5%AC%EC%B6%95%EC%9D%84+%EC%9C%84%ED%95%9C+%EA%B5%AD%EC%96%B4+%EB%8C%80%EC%82%AC%EC%A0%84%EC%9D%98+%ED%86%B5%EA%B3%84+%EC%A0%95%EB%B3%B4&rft.jtitle=%ED%95%9C%EA%B5%AD%EC%BD%98%ED%85%90%EC%B8%A0%ED%95%99%ED%9A%8C%EB%85%BC%EB%AC%B8%EC%A7%80&rft.au=%EA%B9%80%EC%B2%A0%EC%88%98%28Cheol-Su+Kim%29&rft.au=%EA%B9%80%EC%96%91%EB%B2%94%28Yang-Beom+Kim%29&rft.date=2007&rft.pub=%ED%95%9C%EA%B5%AD%EC%BD%98%ED%85%90%EC%B8%A0%ED%95%99%ED%9A%8C&rft.issn=1598-4877&rft.eissn=2508-6723&rft.volume=7&rft.issue=6&rft.spage=60&rft.epage=68&rft.externalDocID=NODE00849336
thumbnail_l http://covers-cdn.summon.serialssolutions.com/index.aspx?isbn=/lc.gif&issn=1598-4877&client=summon
thumbnail_m http://covers-cdn.summon.serialssolutions.com/index.aspx?isbn=/mc.gif&issn=1598-4877&client=summon
thumbnail_s http://covers-cdn.summon.serialssolutions.com/index.aspx?isbn=/sc.gif&issn=1598-4877&client=summon