Kust on pärit zuumeri eesti keel?

Väikeste keelte arvutitoe tragöödia seisneb asjaolus, et piisava koguse ja kvaliteediga keelekorpusi statistikamasinate ja tehisintellekti treenimiseks pole lihtsalt saadaval. Kvaliteetse korpuse on keeletädi märgendanud käsitsi – vajaliku palgaraha arvutab igaüks ise välja.

Trendiks on saamas masina tõlge. Kui too poolt rehkendust teha ei jõua, no teeb siis vähemalt veerandigi! Hinnatakse, et zuumerite põlvkond pole oma eluea jooksul head eesti keelt näinudki¹, sest taskutelos ja sotsmeedias võimutsevad estongliš ja estoranto ning saidid nagu Linguee ja Glosbe indekseerivad santi olukorda täiesti adekvaatselt. Siit saab alguse nõiaring: masinad ju suudaksid nõksa kvaliteetsemalt tõlkida, kui vaid leiduks piisavalt hea mitmekeelne tekstikorpus. Praegu on need sunnitud tiražeerima seda viledat piskut, mis küliskäigul kroolija-krabaja haardeulatusse jäänud.

Mulle on alati tundunud, et eesti keelde tõlkimisel ette tulevad konarused ja vead on kuidagi tüüpsed, sestap asusin kaks suve tagasi koostama ja analüüsima omaenda korpust – väärtõlgete korpust. Püüdsin aru saada, mis täpselt valesti läheb va indoeuroopa keeles kokkumõeldut eesti keelde ümber tõstes. Näiteid hankisin kahest valdkonnast: alustuseks omaenda alalt – infoturbest. Probleem on ilmne: eesti keelde tõlgitud infoturbejuhis ei moodusta eestlasele mõistetavat skeemat ning kui lisavalgustust ei saabu, siis jätab ratsionaalne eestlane rakendamata ka infoturbemeetme. Ometi võttis keegi niru tõlke eest raha – siit kaks muret: koopiaõigus ja häbi. Peale õiguste riivaks väärtõlgete korpus liiga paljude asjaosaliste väärikust.

Meedia tõlkelõksud

Ja siis see teine valdkond, avalik meedia, kust pärit näited sobivad tõlkeviperuste korpusse nagu rusik silmaauku. Meediale viidata on palju hõlpsam (± maksumüür), ometi on medialektil ka iseärasusi. Kõigepealt tuleb aru saada, et indoeuroopamõjuline uusus, fraasid ja oskussõnad on nagu vähkkasvaja ajanud siirded eestlaste omaloomingusse. Eriti hull on asi spordivaldkonnas, kus laiutavad Striidikool, workout ja endurance, rääkimata juba kinnistunud esimese asetusega sportlastest, valitsevast maailmameistrist ja puttamise greenidest. Teisisõnu, räägitakse ja kirjutatakse, nagu taskutelo ja sotsmeedia parasjagu ette ütlevad, ja andku EKI töötajad andeks, ent nende suutlikkus keelekasutust mõjutada on piirdunud viimasel ajal vaid neegri kultuurimarksistliku tühistamisega. Sedapalju sõnavarast. Vähem räägitakse keelte struktuuri erinevustest.

On esteetiliselt nauditav, kuidas eesti keele struktuuriga sobimatu algpäästik käivitab mitme tõlkija puhul ühetaolise segaduse: „13. juulil hukkus Donbassis sõjategevuse käigus Valgevenes sündinud Eesti kodakondsusega Nikolai Iljin, vahendab Cen-sor.net“ ja „Ukraina ajakirjanduse teatel hukkus 13. juulil 2020 Donbassis Valgevenes sündinud Eesti kodanik Nikolai Iljin“. Kui lähtekeele lause pole üles tähendatud plain English’is (vrd selge keele liikumine), vaid sinna on mõõdutundetult pikitud täpsustavaid sõnu (määrusi ja täiendeid), siis juhtub neid paremhargnevast keelest vasakhargnevasse ükshaaval üle tõstes miski, mida naiivne tõlkija oodata ei tea: eri fraasidesse kuuluvad elemendid (siinses näites Donbass ja Valgevene) saavad kujundlikult öeldes keskel kokku ja hakkavad omavahel „mängima“. See annab aimu, et korpuslingvistika nõiaringi saladust tuleb otsida hoopis sügavamalt kui pelgalt terminitest. Osa tarindeid polegi teise keelde kadudeta ümberpandavad.

Muide, meedia on „tuletatud teos“ ning üldjuhul ei too meediamajad ära viidet (lähtekeelsele) uudisele. Vaevalt on autoridki võimelised viitama, kust täpselt pärineb see või teine osalause, tsitaat või kild ning missugune või miskeelne väljaanne on mõjutanud autorit ütlema „lahvatas õõvastavalt võigas aevastus“. Katse luua meedia põhjal kakskeelset väärtõlgete korpust lagunes siinkohal koost lähteteksti halva viidatavuse tõttu.

Ent kust sel juhul hankida toorainet tõlkevigade mitmekeelsele korpusele?

Eesti keele kontrollimatu teisenemine globaalse inforuumi tingimustes.

Tehisintellekti treeningmaterjal

Juulis üllitas „sisule juurdepääsu kontrollija“² Meta priivarana oma tõlkesüsteemi NLLB-200³, mis tähendavat „No Language Left Behind“ ehk „maha ei jäeta ühtki keelt“. Kaasatud on 202 keelt, mis teoorias tähendaks 40 602 tõlkesuunda (permutatsiooni). Kaasnevas teadustöös⁴ selgitab feissar, et tegelikult loodi treeningmaterjal enamiku keelepaaride tõlkeks ikkagi vahekeele, põhiliselt inglise, mõnel juhul aga vene kaudu ja Aafrika puhul kaasati ilmselt ka prantsuse keel. Seletab feissar sedagi, et tõlkekvaliteet paranes keskmiselt 44%. Kuna seekord hõlmati NLLBga 60 lingvistiliselt rasket neegrikeelt, siis kulus aur mujale ja Metast meie Mark Fišelile ikkagi konkurenti ei saa. Vonneguti parafraseerides: eesti keeletoe parendamine polnud jooksva aasta põhitegevus. NLLB vajadust seletab Meta asjaoluga, et kui inglise keelt oskavat vaid 25,9% Interneti kasutajatest, siis ingliskeelsed olla tervelt 63,7% Interneti materjalidest. Eestlastel⁵ on seega hirmsasti vedanud, kuivõrd teisel kohal paiknev 6,8%ne Interneti osa olevat venekeelne⁶.

Eesti meediamajade kõmukeel lasi uudisel paista sedasi: „Meta väidab, et nende uus AI oskab eesti keelt“⁷ või „Paabeli kala nüüd olemas, Zuckerberg esitles Facebooki enneolematut 200 keele tõlkemasinat“⁸.

Kui peaksin esile tooma ühe ja tähtsaima innovatsiooni, siis selleks on tsensuurinimekirja „Toxicity 200“⁹ publitseerimine tõlkepriivara osana. Sortsikildude tra ja krt pruukimisele feissaris saabub lõpp. „Toxicity 200“ lahtiütlus väidab, et tsenseerimise motiiv olla pelgalt „hallutsineeritud mürgisuses“, mida AI, va sindrinahk, tõlgitavatesse tekstidesse jätkuvalt sisse topib, samas tunnistatakse feissari ühes teises reklaamtekstis¹⁰ ausalt üles, et „NLLB-200 võimaldab iga päev teha 25 miljardit tõlget“ ja et „eesmärk on kahjuliku sisu ja desinformatsiooni avastamine“.

Jääb üle vaid kaasatundvalt muiata, kuivõrd iga eestikeelse suguelundnimisõna käändeparadigma kätkeb 2 × 14 käändevormi ja vahel enamgi. Pahasõnade hulka on sokutatud nii tupp, taun, murjan kui ka neeger, nii et õie ehituse ja keskaegse sõjamehe relvastuse üle arutlemine feissaris edaspidi ei õnnestu. Mürgisuskorpuse kaastekstidest siiski ei selgu, kas lakmussõnu POlitsEI, TÄHnikkumaLANE, LÕputsEREMOONIA ja türaTRON tohib edasi kasutada.

Innovatsioonile lisaks on Meta oma eelmise, Flores 101 tõlkemudeli värskendanud Flores 200¹¹ peale ja igaüks tohib selle täiesti priilt alla tirida. Korpuses on 2009(!) lauset ning erikeelseid faile tegelikult isegi 204. Ülejäänu eest hoolitseb imeline AI.

Vastuseks küsimusele, kust saab tõlkevigade korpuse, tuleb nentida, et just NLLB-200 sobib sel otstarbel suurepäraselt, vähemasti kuniks jutt käib inglise-eesti tõlkesuunast.

Fail „est_Latn.dev“, rida 31: „Vangla sai kurikuulsaks, kui pärast Ameerika Ühendriikide vägede ülevõttu avastati, et seal kuritarvitati vange.“ Rida 35: „Täpselt kell 8.46 hommikul kattis linna vaikus, märkides täpse hetke, mil esimene lennuk oma sihtmärgi vastu lendas.“ Rida 267: „Venemaa maapealne juhtimiskeskus aktiveeris reaktiivlennukid ja jaama normaalne suhtumine taastati.“ Rida 433: „Luksemburgil on pikk ajalugu, kuid iseseisvaks sai see 1839. aastal.“

Fail „est_Latn.devtest“, rida 67: „Keskmise asendi lööjad Sachin Tendulkar ja Rahul Dravid esinesed hästi ja tegid koostöös sada jooksu.“ Rida 224: „Samal kuul sõitis teine reisilennuk Mashhadis läbi lennuraja vastu seina, tappes seitseteist inimest.“ Rida 578: „Praktiliselt kõik tänapäeval kasutatavad arvutid põhinevad teabe manipuleerimisel, mis on kodeeritud kahendarvude vormingus.“ Rida 979: „Pärsia keele grammar on suhteliselt lihtne ja enamasti reeglipärane.“

Neid faile lugedes ajab alul naerma ja siis nutma. Teise faili 50 algusreal leidubki üldse vaid paar arusaadavat eestikeelset lauset, mis ei anu toimetaja kohendavat kätt. Vigade põhjused on standardsed: teema/reema eiramine, asesõnade kuritarvitamine, räiged uususenihked ja labased kirjavead.

Selline kvaliteet on materjalil, millega feissar treenib oma masintõlke tehisintellekti. Tulemus, kui tahes uskumatu – ja mitte EKI –, kujundab eesti keelekasutuse kvaliteedi järgmisel aastakümnel. On aeg aru saada, et mobiilseadmete ja pilve ajastul toimub tehnoareng kusagil mujal kui trükikojas ning et keelekorralduse jõustamiseks läheb vaja pädevat, tehnoloogia ning diginuiadega varustet kiirreageerimisrühma. Kodulehe andmeil¹² sai EKI visiooni „parim enne“ otsa aastaga 2016, missioon aga mediteeriva koriluse kaudu vaevalt teostub. Neljast väärtusest on põlu alla sattunud järjepidevus – eesti keele väärtustamine ühiskonnas. Seevastu keskkondade ja rakenduste edendajail on kiusatus lisada oma tootesse võimalikult rohkem keeli, seega eesti keel pilastamisest ei pääse.

Korpuste kõlakojastumine

Hoopis pahasti on lood tarneahela turvalisusega. Juba on ilmunud esimesed teadustööd, mis käsitlevad keelekorpuste mürgitamist, näiteks sõnade tähenduse muutmise eesmärgil.¹³ Võib arvata, et eesti keele originaalina ei hakka tehnohiiud tarvitama mitte EKI neitsilikku Sõnaveebi, vaid mürgikorpusi, mille on turule paisanud suur seitsmik (M$, G, FB jne). EKI vaim on nõder ja puudu on kiirreageerimisoskus, et sääraste levikut pidurdada. Surmamats antakse eesti keelele siis, kui kõik mobla- ja pilvekasutajad on mõjutusmürgi alla neelanud ning asuvad oma rikutud keelekasutusega nakatama EKI krooler-krabajatega blogosfäärist originaalina kokku traalitavat keelt.

Selles punktis saabki mäng läbi ning tuleb lugeda kordaläinuks Arvi Tavasti (tollal polnud ta veel EKI direktor) kunagine isetäituv ennustus, et eesti keel hävib kahe põlvkonna jooksul (üks, muide, ongi juba möödunud). Eksperimenteerimiseks huvitav mõte: lõpetada EKIs keelekorraldus ja asendada see digikorilusega. Pisikese planeerimisveana aga unustati ära kaks asja. Esiteks, eesti keel pole mitte tänaval vedelev mänguasi, vaid kujutab endast identiteedina üht kõrgeimat väärtust üldse. Teiseks, eesti keel ei asu kaitstud alal ega suletud süsteemis, vaid võitleb oma olemasolu eest keeltega, mille taga on palju võimsamad kultuurid ja riigid. Põhiseaduse preambulit parafraseerides: päris varsti saab aeg läbi, usk lööb kõikuma ja tahe vankuma. Mina oleksin Paabeli kala asemel eelistanud kvaliteetset õnge. EKI kuhtumine on probleem, millega tegelemiseks on eestlastele jäetud üsna vähe aega. Digiajastul on vaja jõulist keelekorraldust: see sarnanegu pigem küberkaitse, tarbijakaitse, autorikaitse, tervisekaitse ja keskkonnakaitsega. Digikorilusega saab vabalt hakkama ka kirjandusmuuseumi osakond.

1 Kadri Vider, Sõna vabadusest, andmepõhiselt, – Sirp 16. VI 2022, https://www.sirp.ee/s1-artiklid/varamu/sona-vabadusest-andmepohiselt/

2 https://eur-lex.europa.eu/legal-content/ET/TXT/PDF/?uri=CELEX:52020PC0842&from=en

3 https://github.com/facebookresearch/fairseq/tree/nllb

4 https://research.facebook.com/publications/no-language-left-behind

5 Eestlaste kaks esimest võõrkeelt on vene ja inglise, vt https://novaator.err.ee/925381/analuus-mitme-voorkeele-oskamine-tagab-korgema-palga-nii-eestis-kui-ka-valismaal.

6 https://www.statista.com/chart/26884/languages-on-the-internet/

7 https://digipro.geenius.ee/rubriik/uudis/meta-vaidab-et-nende-uus-ai-oskab-eesti-keelt/

8 https://tehnika.postimees.ee/7559065/paabeli-kala-nuud-olemas-zuckerberg-esitles-facebooki-uut-enneolematut-200-keele-tolkemasinat

9 https://github.com/facebookresearch/flores/tree/main/toxicity

10 https://ai.facebook.com/blog/nllb-200-high-quality-machine-translation/

11 https://github.com/facebookresearch/flores/tree/main/flores200

12 https://portaal.eki.ee/yldinfo/35-eesmaergid/78-missioon.html

13 https://arxiv.org/abs/2001.04935; https://deepai.org/publication/putting-words-into-the-system-s-mouth-a-targeted-attack-on-neural-machine-translation-using-monolingual-data-poisoning