Eesti keele pesa

Tänu ühendkorpusele on keeleteadlastel suurepärane võimalus analüüsida empiirilisi andmeid tänapäeva keele mistahes küsimuse puhul.

Margit Langemets, Kristina Koppel, Madis Jürviste

Teaduse eesmärk on kirjeldada ja seletada uuritavat ainest, teha järeldusi nähtuste kohta. Kuidas asjad tegelikult on, seda ütleb empiiriline teadus, ja kuidas asjad peaksid loogiliselt olema, seda ütleb teooria. Niiviisi juhatatakse noori teadustöö juurde ülikoolis.1 Keeleteadus ei erine teistest teadustest karvavõrdki: üldistuste tegemiseks ja tüüpilise leidmiseks analüüsitakse suurt hulka empiirilisi keeleandmeid, mis tänapäeval on koondatud mitmesugustesse keele­korpustesse. Eelmisel aastal ilmunud „Eesti grammatika“ toetub oma näidetes ja üldistustes muuhulgas eesti keele koondkorpusele, eesti keele spontaanse kõne foneetilisele korpusele, eesti keele ühendkorpusele ja suulise eesti keele korpusele.2 Samamoodi tuginetakse korpustele sõnastikutöös – maailmas juba ligi poolsada aastat, umbes 1980ndatest. Eestis hakati sõnaraamatutöö jaoks 1990ndatest kasutama Tartu ülikoolis loodud tasakaalus korpust (lisaks 1955. aastast kogutud sedelkogule). Käsitsi koostatud sedelite kogumine (omal moel ju samuti korpuse koostamine) lõpetati 2000. aastal, „sest see ei suutnud enam võistelda andme­kogumisega arvutite abil“, on sedastatud EKSS 2009 eessõnas. Otsustav pööre eesti sõnaraamatutöös toimus 2010. aasta paiku, kui Eesti Keele Instituut (EKI) alustas koostööd 2003. aastal loodud tarkvarafirmaga Lexical Computing, misjärel valmis esimene eesti keele ühendkorpus (2013). Sealtpeale on keeleteadlastel olnud suurepärane võimalus analüüsida empiirilisi andmeid tänapäeva keele mistahes küsimuse puhul.

Eesti keel ühendkorpuses

Liialdamata võime öelda, et tänapäeva eesti (kirjalik) keel asub ühendkorpuses: siin on koos mahukaim ja rikkalikem valik keeleandmeid. See on otsekui eesti keele pesa. Ühendkorpus ühendab endas mitmeid alamkogusid: meediatekste, akadeemilisi tekste, ilukirjanduse korpusi, Tartu ülikooli koondkorpust ja tasakaalus korpust, Vikipeedia tekste, muid eripalgelisi veebist kogutud tekste jne. Ühendkorpuse sisu täiendame praegu iga kahe aasta tagant, lisades sinna vahepealse ajaga kogutud uued tekstid. Kümne aastaga on eesti keele andmete hulk kasvanud hüppeliselt: kui 2013. aastal oli korpuses 563 miljonit tekstisõna, siis 2023. aastal juba 3,8 miljardit. Esindatud on erinevad tekstitüübid alates seadustest ja erialatekstidest kuni meediatekstide ja veebisuhtluseni3.

Žanrid ja teemad

Valik sõnaleide eesti keele ühendkorpusest 2023.

Madis Jürviste

Ehkki elektroonilised tekstid kogutakse tänapäeval kokku automaatselt, kätkeb ühendkorpuse kokkupanek suurt hulka inimtööd. Tulevikus pole võimatu, et saame tööle rakendada ka tehisintellekti. Seni on inimene tuvastanud, millised tekstid on masintõlkelised, et need korpusest eemaldada. Samuti määrab inimene tekstidele žanrid ja teemad: kokku on kasutusel 8 žanri ning 21 teemat. Žanrid koondavad enda alla tekstitüüpe: näiteks perioodika, ilukirjandus ja akadeemiline keel. Teemad näitavad, millest tekstides kirjutatakse: näiteks kultuurist, spordist, religioonist, poliitikast. Korpuse tekstidest on žanr määratud 79%-l ja teema 50%-l. Kõige paremini on korpuses esindatud perioodikaväljaannete ja meediaportaalide keel (nt Delfi, Postimees, ERR) – see hõlmab 41% kõigist klassifitseeritud tekstidest. Tulemus ei üllata, kuna viimastel aastatel on mitmed ajalehed (nt Äripäev, Eesti Päevaleht) lõpetanud paberlehe väljaandmise ning publitseerivadki vaid (või enamasti) veebis. Teemadest on kõige rohkem kultuuri ja meelelahutust (10%), seejärel sporti ja poliitikat (kumbagi 6%) ning tehnoloogiat ja ITd (5%). Ametlikud tekstid on kogutud Riigi Teataja, Euroopa Parlamendi, Riigikohtu kodulehelt, aga ka teistelt valitsuse ja riigiametite kodulehtedelt. Akadeemilist keelt esindavad paljud teadus- ja populaarteaduslikud ajakirjad (nt Keel ja Kirjandus, Eesti Arst, Ajalooline Ajakiri), peale selle on hõlmatud kogu eestikeelne Vikipeedia. Vähem on ühendkorpuses olnud ilukirjandust, ent seegi osa on aja jooksul kasvanud. Võrdluseks: 2021. aasta ühendkorpuses oli ilukirjandust vaid 1,2% kõigist klassifitseeritud tekstidest, uusimas juba 4%.

Ilukirjandus ühendkorpuses

Rahvusraamatukogu digihumanitaaria peaspetsialist Peeter Tinits on hiljaaegu kokku lugenud, kui palju on eesti keeles n-ö aegade algusest ilmunud raama­tuid: 2023. aasta novembri seisuga kokku 218 856 teost4, sh on ilu­kirjandust rahvus­bibliograafia andmetel 2020. aasta seisuga 46 602 teost. Ühendkorpusse on sellest kullavaramust praeguseks jõudnud väga väike osa5. Korpuse koostajate unistus on mõistagi kokku koguda kõik seni ilmunud raamatud ja kogu ilukirjandus. Iseäranis hea meel oleks keeleteadlastel korpustesse kaasata kõik üha lisanduvad uued eestikeelsed teosed, kuna neid ilmub Eesti Kirjastuste Liidu andmeil ligi 3400 raamatut aastas6.

Autoriõigustega kaitstud tekstide korpusesse lisamine on keeruline mitmel põhjusel. Esiteks on autoriõiguse seaduse tõttu selliste teoste kasutamine piiratud vähemalt 70 aasta jooksul pärast autori surma (juhul, kui neile ei rakendu muud seadusesätted). Tuleb arvestada ka kirjastuste põhjendatud ärihuvidega. Ja viimaks tuleb otsustada, millisel moel saame keeleliselt kasulikku infot nendest teavikutest, mis on küll vabalt kättesaadavad, aga avaldatud väga kaua aega tagasi. Õnneks on kirjastusi, kes mõistavad keeleandmete olulisust ja kellega oleme saanud sõlmida kokkuleppe suure hulga raamatute kasutamiseks, arvestades seejuures kõigi osaliste huvidega.

Sõnaraamatute näitelaused

Tänapäeval põhinevad pea kõik sõnaraamatud autentsel materjalil, korpusest vm keeleallikatest ammutatud andmetel. Näitelause sõltub eeskätt sõnaraamatu tüübist. Enamasti on näide mõeldud toetama tähenduse seletust ja näitlikustama sõna kasutust. Õigekeelsussõnaraamatu (ÕS) eesmärk pole kunagi olnud seletada ära kõiki sõnu, ent 1999. aasta nn uut tüüpi ÕSist peale „aitavad sõnatähenduste avamisel palju kaasa rohked näited, mida varem ÕSidesse ei pandud“7. Hea näide on loomulik ja tüüpiline ning samas informatiivne: just korpuseandmete toel saab näidata sõna harilikku ümbrust ja süntaktilisi seoseid, vältida harvaesinevaid kasutusjuhte. Eestis on selle sihiga näiteid lisatud nii seletus- kui ka õigekeelsussõnaraamatutesse8. Kakskeelses sõnastikus võib olla vaja näidete najal osutada keelte erinevustele. Mida suurem korpus, seda täielikuma pildi keelest saab. Sõnaveebi 2023. aasta kasutaja­uuringust9 saime kinnitust, et kasutajatele näited meeldivad ning nad sooviks neid aina enam. Muuhulgas taipasime, et naabersõnu ei osata näideteks pidada, kuigi just seda nad on: näitavad sõnu nende süntaktilistes seostes. Seletussõnaraamatus (EKSS 2009) ja õigekeelsus­sõnaraamatutes on samalaadsed lausungid esitatud kõrvu täislausetega.

Keeleteadlastel on suur au eesti keele pesas ringi vaadata ning samas suur vastutus oma tähelepanekutest teistele teada anda, nii uute uurimuste kui ka sõnaraamatukirjelduste vahendusel. Aga pesa sisustavad kõik keelekasutajad üheskoos.

1 https://sisu.ut.ee/teadustoo_alused/teaduse-eesm%C3%A4rgid-ja-komponendid

2 Helle Metslang, Mati Erelt, Külli Habicht, Tiit Hennoste, Reet Kasik, Pire Teras, Annika Viht, Eva Liina Asu, Liina Lindström, Pärtel Lippus, Renate Pajusalu, Helen Plado, Andriela Rääbis, Ann Veismann, Eesti grammatika. Tartu Ülikooli Kirjastus, Tartu 2023.

3 Kristina Koppel, Jelena Kallas, Eesti keele ühendkorpuste sari 2013–2021: mahukaim eestikeelsete digitekstide kogu. – Eesti Rakenduslingvistika Ühingu aastaraamat 2022, nr 18, lk 207−228.

4 https://digilab.rara.ee/blogi/kui-palju-on-eesti-keeles-ilmunud-raamatuid/

5 Kristina Koppel, Keeleminutid. Digi-Tammsaare kinnipüüdmise tõde ja õigus. – ERRi kultuuriportaal 29. I 2024.

6 https://estbook.com/eesti-kirjastuste-liit/kirjastamine-eestis/

7 Tiiu Erelt, Mida ÕSist leida on. – Oma Keel 2002, nr 2, lk 67.

8 Margit Langemets, Mai Tiits, Tiia Valdre, Piret Voll. In spe: üheköiteline eesti keele sõnaraamat. – Keel ja Kirjandus 2010, nr 11, lk 793−810; Tiiu Erelt, Mida ÕSist leida on.

9 Sõnaveebi kasutajauuringu raport. https://portaal.eki.ee/avalehe-uudised-taisloend/4557-2024-01-21-19-26-06.htm

Kui sulle meeldis see postitus jaga seda oma sõpradega

[LoginRadius_Share]

Leia veel huvitavat lugemist

Värske Rõhk
Hea laps
LR
Keel ja kirjandus
Akadeemia
Kunstel
Muusika
Õpetajate leht
Täheke
TeaterMuusikaKino
Vikerkaar
Looming
Müürileht