EESTI KEELE ÜHENDKORPUSTE SARI 2013–2021: MAHUKAIM EESTIKEELSETE DIGITEKSTIDE KOGU
Eesti Keele Instituudi ja tarkvarafirma Lexical Computing Ltd. koostöös on valminud ühendkorpuste sari, milles on nüüdseks neli versiooni: eesti keele ühendkorpus 2013, 2017, 2019 ja 2021. Ühendkorpused on mahult suurimad eesti keele korpused ning nende rakendusvõimalused on laialdased, alates leksi...
Saved in:
Published in | Eesti Rakenduslingvistika Ühingu aastaraamat Vol. 18; pp. 207 - 228 |
---|---|
Main Authors | , |
Format | Journal Article |
Language | Estonian English |
Published |
Tallinn
Eesti Keele Instituut
01.04.2022
Eesti Rakenduslingvistika Ühing (Estonian Association for Applied Linguistics) |
Subjects | |
Online Access | Get full text |
Cover
Loading…
Summary: | Eesti Keele Instituudi ja tarkvarafirma Lexical Computing Ltd. koostöös on valminud ühendkorpuste sari, milles on nüüdseks neli versiooni: eesti keele ühendkorpus 2013, 2017, 2019 ja 2021. Ühendkorpused on mahult suurimad eesti keele korpused ning nende rakendusvõimalused on laialdased, alates leksikograafia-alasest uurimistööst ning lõpetades masinõppe-otstarbeliste keelemudelite loomisega. Artiklis keskendume seni uusimale eesti keele ühendkorpusele 2021, mis koosneb suures osas veebist kogutud tekstidest. Kirjeldame veebitekstide kogumise, järeltöötluse ja puhastamise põhimõtteid ning ühendkorpuse allkorpusi, samuti anname ülevaate lähtetekstide klassifitseerimisest. Lisaks tutvustame korpuspäringusüsteemi Sketch Engine näitel korpusandemete uusi analüüsivõimalusi ning visandame korpusalase arendustöö edasisi perspektiive ja vajadusi. |
---|---|
ISSN: | 1736-2563 2228-0677 |
DOI: | 10.5128/ERYa18.12 |