Strojno označevanje slovenskih besedil: Kako daleč smo?
Članek obravnava oblikoslovno označevanje in lematizacijo slovenskih besedil. Prvo poglavje razlaga izvedbo teh postopkov. Drugo poglavje predstavi rezultate poskusov strojnega označevanja slovenskih besedil z uporabo milijonskega že označenega učnega korpusa. Za slovenščino prilagojen strojni označ...
Saved in:
Published in | Slavistična revija Vol. 53; no. 2 |
---|---|
Main Author | |
Format | Journal Article |
Language | English |
Published |
Slavistično društvo Slovenije
01.02.2005
|
Subjects | |
Online Access | Get full text |
Cover
Loading…
Summary: | Članek obravnava oblikoslovno označevanje in lematizacijo slovenskih besedil. Prvo poglavje razlaga izvedbo teh postopkov. Drugo poglavje predstavi rezultate poskusov strojnega označevanja slovenskih besedil z uporabo milijonskega že označenega učnega korpusa. Za slovenščino prilagojen strojni označevalnik TreeTagger je dosegel točnost okoli 85 % in označil ter lematiziral 100 milijonov besed slovenskega korpusa Nova Beseda. |
---|---|
ISSN: | 0350-6894 1855-7570 |