EESTI KEELE ÜHENDKORPUSTE SARI 2013–2021: MAHUKAIM EESTIKEELSETE DIGITEKSTIDE KOGU

Eesti Keele Instituudi ja tarkvarafirma Lexical Computing Ltd. koostöös on valminud ühendkorpuste sari, milles on nüüdseks neli versiooni: eesti keele ühendkorpus 2013, 2017, 2019 ja 2021. Ühendkorpused on mahult suurimad eesti keele korpused ning nende rakendusvõimalused on laialdased, alates leksi...

Full description

Saved in:
Bibliographic Details
Published inEesti Rakenduslingvistika Ühingu aastaraamat Vol. 18; pp. 207 - 228
Main Authors Koppel, Kristina, Kallas, Jelena
Format Journal Article
LanguageEstonian
English
Published Tallinn Eesti Keele Instituut 01.04.2022
Eesti Rakenduslingvistika Ühing (Estonian Association for Applied Linguistics)
Subjects
Online AccessGet full text

Cover

Loading…
More Information
Summary:Eesti Keele Instituudi ja tarkvarafirma Lexical Computing Ltd. koostöös on valminud ühendkorpuste sari, milles on nüüdseks neli versiooni: eesti keele ühendkorpus 2013, 2017, 2019 ja 2021. Ühendkorpused on mahult suurimad eesti keele korpused ning nende rakendusvõimalused on laialdased, alates leksikograafia-alasest uurimistööst ning lõpetades masinõppe-otstarbeliste keelemudelite loomisega. Artiklis keskendume seni uusimale eesti keele ühendkorpusele 2021, mis koosneb suures osas veebist kogutud tekstidest. Kirjeldame veebitekstide kogumise, järeltöötluse ja puhastamise põhimõtteid ning ühendkorpuse allkorpusi, samuti anname ülevaate lähtetekstide klassifitseerimisest. Lisaks tutvustame korpuspäringusüsteemi Sketch Engine näitel korpusandemete uusi analüüsivõimalusi ning visandame korpusalase arendustöö edasisi perspektiive ja vajadusi.
ISSN:1736-2563
2228-0677
DOI:10.5128/ERYa18.12