Strojno označevanje slovenskih besedil: Kako daleč smo?

Članek obravnava oblikoslovno označevanje in lematizacijo slovenskih besedil. Prvo poglavje razlaga izvedbo teh postopkov. Drugo poglavje predstavi rezultate poskusov strojnega označevanja slovenskih besedil z uporabo milijonskega že označenega učnega korpusa. Za slovenščino prilagojen strojni označ...

Full description

Saved in:
Bibliographic Details
Published inSlavistična revija Vol. 53; no. 2
Main Author Birte LÖNNEKER
Format Journal Article
LanguageEnglish
Published Slavistično društvo Slovenije 01.02.2005
Subjects
Online AccessGet full text

Cover

Loading…
More Information
Summary:Članek obravnava oblikoslovno označevanje in lematizacijo slovenskih besedil. Prvo poglavje razlaga izvedbo teh postopkov. Drugo poglavje predstavi rezultate poskusov strojnega označevanja slovenskih besedil z uporabo milijonskega že označenega učnega korpusa. Za slovenščino prilagojen strojni označevalnik TreeTagger je dosegel točnost okoli 85 % in označil ter lematiziral 100 milijonov besed slovenskega korpusa Nova Beseda.
ISSN:0350-6894
1855-7570