Sõnaraamat pärast Gutenbergi ehk mõeldes väljaspool paberit
Mida rohkem eesti tekste, uusi ja vanu eesti sõnu veebis ringleb, seda elujõulisem on eesti keel.
Kuidas positsioneerida sõnaraamatut moodsa aja inimese igapäevaelus, millesse juba kehaosana kuulub suurem või väiksem mobiilne vidin, telefon, arvuti või mõni muu asi? Tänapäeval on üldjuhul kõik elektrooniline, ka sõnaraamatut ei tee ammu enam keeleinimesed üksi: hõivatud on suur hulk keeletehnolooge (tarkvaraarendajaid, korpuselingviste, veebimeistreid jt), keda sõnaraamatuinimesed vajavad nagu õhku. E-leksikograafia põhilised päevaküsimused kerkisid üles „eLexi” konverentsil pealkirjaga „Elektrooniline leksikograafia XXI sajandil: mõeldes väljaspool paberit”, mille korraldas eelmise aasta lõpus Eesti Keele Instituut koostöös Sloveenia rakenduslingvistika instituudiga Trojina.* Siinkohal vahendan vaid mõnd konverentsil kõlanud teemat.
Telefon on parem kui … sigaret
Jens Erlandsen (Erlandsen Media Publishing) on võrrelnud tänapäeva telefoni Šveitsi noaga, millega on kaasas kõik, mis vaja, aga ka vana hea sigaretiga, mis aitab suhelda, puhata, pakub vaheldust ja muud toredat. Peamine on side internetiga – ükskõik millal, ükskõik kus. Edukas on see ettevõte, kes ihkab ulatuda kõigi sihtrühmadeni ehk kes tegutseb pika slepiga nagu Google, iPhone või Amazon. Praegu tuleb eeskätt luua äppe, s.t kõikvõimalikke rakendusi ühe või teise (keele)ülesande täitmiseks, luua nimelt seda, mida inimestel on vaja. Kusjuures pole häda, kui rakendust kasutab ainult paar kitsa eriala spetsialisti – oluline on, et seda on võimalik teha. Šveitsi noa ja sigareti metafoor kehtib ka sõnaraamatute puhul.
Sõnaraamat ei ole sõnaraamat
Traditsiooniline kõigile mõeldud sõnaraamat on „tuulest viidud”, nüüd tuleb eeskätt väga täpselt määratleda, sõnastada, kellele ja milleks see on mõeldud. Leksikograafid peavad palju paremini tundma õppima oma kasutajat, temaga ühendust hoidma, et infot paremini esitada. Ja mitte ilmtingimata rohkem infot! Võib tunduda üllatav, aga vähem on sageli parem. Sõnaraamatut või muud keelekogu peaks mõtestama pigem kui paindlikku teenust, kui pruukida äri mõisteid. Inimestelt tuleks küsida, millises kontekstis või situatsioonis kerkivad esile keelelised küsimused. Keeleinfo peaks olema justkui portsude kaupa pakitud sahtlitesse, mida saab järjest avada. Ja alati on entusiaste, kes tahavad kõike teada! Milline roll jääb internetiajastul sõnaraamatule, on suuresti leksikograafide kujundada. Viimasel ajal on pilk üheselt suunatud sõnaraamatu vajalike funktsioonide (Šveitsi noa), mitte meelelahutuse (sigareti) poole.
Mida suurem, seda parem
Kuigi ütlesin eespool, et rohkem pole alati hea, siis see ei kehti tekstikorpuste puhul. Statistikaks, millele toetub tänapäevane keeleanalüüs, on vaja üha rohkem andmeid, seetõttu peaksid tekstikogud ehk korpused olema võimalikult suured. Üksnes nii on võimalik saada sabast kinni iseäralikel, harva esinevatel keelenähtustel, mis jäävad keelekasutuse äärealadele, aga võivad olla – ja tavaliselt ongi – ääretult huvitavad. Keelekorpused on keeleteadlaste ja leksikograafide üks olulisemaid töövahendeid, neid täiendatakse pidevalt, samuti arendatakse nende töötlemise vahendeid. Sõnaraamatu koostaja võib üsna hõlpsasti läbi lugeda ja analüüsida 50 lauset/rida, kus seda sõna on kasutatud, võib-olla ka 500 lauset/rida, aga kui sõnakasutusi on 5000 – sageli veel palju rohkem –, siis seda käsitsi läbi töötada pole enam võimalik. Spetsiaalsed programmid nagu Sketch Engine firmalt Lexical Computing Ltd. toovad statistikale toetudes esile keele eripärased sõnakooslused. Selles süsteemis on praegu 400 korpust, mis esindavad 70 keelt, sh ka eesti keelt (Tartu ülikooli ja Filosofti koostöös valminud tekstikorpus). Kui rääkida suurusest, siis umbes 100 korpust sisaldavad rohkem kui 100 miljonit sõna (täpsemalt, sõnavormi), nende hulgas ka eesti korpus, mis on praegu esindatud 250 miljoni sõnaga. On ka väga palju suuremaid: umbes 30 korpuses on rohkem kui 30 miljardit sõna. Mis eesti keelde puutub, siis peagi lisanduvad sinna kogu veebist automaatselt kogutud (ja mürast puhastatud) tekstid – veel umbes 250 miljonit eesti sõnakasutust. Veebikorpus kannab tulevikku ulatuvat nime etTenTen, märkides kümme astmes kümmet ehk kümmet miljardit eesti sõna. Praegu oleme kokku saanud „üksnes” pool miljardit sõnakasutust. Võrdluseks: maailma suurim veebist kogutud korpus English ClueWeb sisaldab 80 miljardit (!) sõna.
Ei ole mõtet võistelda Google’iga
See lause kõlas konverentsil korduvalt. Seetõttu oli eriti huvitav kuulda, mida räägib sõnaraamatutest Google’i esindaja Ryan McDonald. Kui 20 aastat tagasi, 1990ndatel, toimus automaatses keeletöötluses statistiline pööre, siis praegust aega keeletehnoloogias nimetas McDonald pooljuhendatud õppimiseks, pidades silmas seda, et olemas on paremad elektroonilised keelekogud, rahva-Wiktionary (170 keelt), paljude keeltega sõnakogu WordNet, mitmekeelne teatmeteos Wikipedia jpm, kuhu talletatud teadmisi rakendab Google lisaks oma ülivõimsale automaatsele statistilisele töötlusele. Kui näiteks suurele sõnaraamatule toetudes õnnestub analüüsida umbes 65% sõnakasutusest, siis haaret eri keeltes rööpsetele tekstidele laiendades tõuseb täpsus koguni 93%-ni. See ongi Google’i tulevikuplaan: nõrutada keelekogudest välja iga viimane oluliseks osutuda võiv pisiasi – ja NB! – pakkuda need välja aina uute äppidena. Näiteks keele vallas analüüsitakse teksti emotsionaalsust (vt Google Sentiment Analysis Tool), samuti süntaksit ja semantikat, töötab leksikonirühm. Google’i soovitus oli luua sõnaraamatule rohkem otsinguvõimalusi, esitada infot uuel viisil, näiteks seda visualiseerida. Tõsi, oivaliselt saavad sellega hakkama veel vähesed.
Kes koostab sõnaraamatu – leksikograaf, arvuti või meie kõik?
Arvuti on veebikorpust töödeldes suuteline genereerima sõnaartikleid, täpsemalt, nende toorikuid, nii et säärane küsimus on rohkem kui õigustatud. Leksikograafil on arvutit toimetada efektiivsem kui kogu materjali ise läbi käia. Samas saavad sõnaraamatutööle kaasa aidata kõik, kellele meeldib seda talgu korras (ingl crowd sourcing) teha. Leksikograafi ülesanne oleks siis nii-öelda vägesid juhatada ja anda lõpuks artiklile viimane lihv. Arvuti abi on mujal (nt Macmillani kirjastuses) juba edukalt kasutatud uute sõnade tuvastamisel ja kirjeldamisel ning ka siin on inimesed saanud abiks olla, klikkides sobiva esituse poolt või vastu.
Kasutagem eesti keelt!
Meie varandus on eesti keel, kõik, mis on (üles) kirjutatud ja mida edaspidi kõneldakse ja (üles) kirjutatakse või mida arvuti kõnest tekstiks teeb. Omal moel rikastab eesti keelt ka keeleline mängulõbu foorumites, netikommentaarides ja blogides, eriti kui see lähtub eesti sõnast või kui võõra sõnaga mängitsetakse eesti keele (reeglite) sees. Selle peale tuleks lihtsalt mõtelda. Küllap on paljud märganud, et Google’i eesti tõlge läheb aina paremaks. Aga mispärast? Puhtalt samal põhjusel, et eesti keele (veebi)tekstide hulk, millele statistikas toetuda, aina kasvab.
* Kõik peamised ettekanded on videovormis konverentsi kodulehel http://eki.ee/elex2013/, ilmunud on konverentsi kogumik.