Morfoloogiliselt rikaste keelte tõlketulevik
Eesti keele tarbeks pole seni pädevat arvutusmudelit.
Euroopa digitaalarengu tegevuskava jõuab kohe arengufaasi, kus paljude keelte olemasolu takistab üha edenevat majandusintegratsiooni. Täiesti arusaadavatel põhjustel ei riski inimene osta veebipoest, mille keel jääb talle (kohati) arusaamatuks – see takistav asjaolu ongi juba kinnitust leidnud ka küsitlustes. Euroopa ühendamise rahastuga (Connecting Europe Facilities) ning selle automaattõlke alamprojektiga, Euroopa Liidu liikmesriike hõlmava automaattõlkesüsteemide virtuaaltaristuga CEF.AT on sihiks seatud keelebarjääri mahavõtmine majandusarengu eest just nimelt automaattõlke vahenditega. Asja arutati hiljuti ka Tallinnas 11. veebruaril Euroopa keeleressursside koordineerimise seminaril Euroopa Liidu Majas.
Keelte automaattõlkel kui suundumusel on vanust üle poole sajandi, esimeste eksperimentidega alustati juba 1950. aastatel. Võis eeldada, et seoses arvutite võimsuse plahvatusliku kasvuga õnnestub keelemurest igaveseks lahti saada, kuid tegelik edulugu on pisut kesisem. Parimad tõlkealased saavutused on ette näidata indoeuroopa keelkonnas omavahel tõlkimisest, näiteks vene keele ingliseks või saksa rootsiks ümberpanekul.
Kuniks tõlkimine jääb kalliks ning kõrget kvalifikatsiooni nõudvaks käsitööks, peibutab eelarvestajat automatiseerimise tagant paistev kohene kokkuhoid. Nimelt kulub Euroopa Liidu eelarvest tervenisti 1% tõlketööle.
Euroopa Liidu tõlkidele väljastatigi paar aastat tagasi IT-vahend, mis pidanuks nende tööviljakust märgatavalt kergitama. Mõne keele tõlgid said õnnelikuks: tulemus polnud ilma inimkäe lihvita küll otsekasutatav, kuid ilmnes arvestatav ajasääst. Eesti keele tõlgid ülevoolavat õnne ei täheldanud: IT-vahendiga on küll kergem tõlketermineid leida, kuid see ei saa jagu lauseehitusest. Olen sel kurval teemal varemgi kirjutanud.1
Endiselt näib, et eesti keele tarbeks pole pädevat arvutusmudelit seni suudetud kokku panna. Matemaatiliselt on ära kirjeldatud nii foneetika-, morfoloogia- kui ka süntaksikiht, ent need atomaarsed osakesed ei koosergastu miskipärast kvaliteediks, mis võimaldaks eesti keele osalusel automaattõlke akte sooritada.
Franz Josef Och, selmet pruukida matemaatiliselt täiuslikke keelemudeleid, ehitas Google’i tõlkuri üles statistikale – Thomas Bayesi (statistika)valemite abiga. Statistilise tõlke aluseks on „vääramatu“ eeldus, et mingist hulgast sõnadest moodustatud keeleline ehituskivi jääb lauses kokku. Eestikeelne verbifraas sellele nõudele siiski ei allu, vaid lõhustub ja rekombineerib end muude lauseosakeste vahele nagu viirus.
Eesti keele süntaks teatavasti hargneb peamiselt vasakule (left branching), tõlget vajame aga enamjaolt keeltele, kus süntaks hargneb pigem paremale. Olukorda komplitseerib läbiv omastav („välisministeeriumi dokumentide kadumise asjaolude uurimise komisjoni istungi protokolli kolmas koopia“) ja sugude puudumine. On teada ugri üldisemad keele- ja kultuuririskid: metateksti kitsidus, lauseliikmete vahelejätt, lisaks ka vajadus tõsta tõlgitav lause helikopterivaatest detailvaatesse ümber.2 Sestap meeldib mulle endiselt mõelda, et eesti keele masinaga tõlkimisel statistika ei päde, ning unistada vabavaralisest süntaktilisest alusmudelist.
Google’i tõlkuri siseelu uurides selgub, et näiteks soome keele puhul kasutatakse Wordneti (üks vabavaraline leksikoloogiline andmebaas) ressursse, eesti keele puhul aga keelemudelit all pole.3 Tõlkuri sisestusvormis üksikuid lauseosi ja sõnu varieerides näeb testija küllalt hästi ära, milliste tarindite edasiandmisega statistiline tõlkur hätta jääb.
Seminaril tunnistati mõningaid tõlkemuresid seoses mitte-indoeuroopa keeltega. Saila Rinne Euroopa Komisjonist (EC DG CONNECT) kirjeldas värvikalt raskusi, millega tuli Soomel põrkuda ELiga ühinemise eel õigusakte tõlkides – oli ju tegu esimese mitte-indoeuroopa töökeelega ses liidus üldse.
Keeled, mis tõlkimisele hästi ei allu (s.o mitte-indoeuroopa keeled), kannavad Euroopa Liidu ametlikus kõnekoodis „morfoloogiliselt rikaste“ keelte tiitlit. Sääraste keelte rääkijaid on liidus 3% kandis, põhiosa Ungaris ja Soomes. Eesti ja Malta panus jääb pisemaks ning baski keelel polegi ametlikku staatust.
Tegelik probleem on kombinatoorika tõttu veelgi pikantsem: kui moodustada Euroopa 24 ametlikust töökeelest 552 keelepaari (24*(24–1)), sisaldab omakorda üle saja paari mõnd eksootilist keelt kas siht- või lähtekeelena.
CEF.AT projekti huvides avaldati üleskutse korjata kokku kõigi sel väljal tegutsejate tõlkemälud. Selleks et korpusi koguneks ohtramini, ollakse Euroopa Liidus valmis tõlkijate intellektuaalsele omandile tagama erilist konfidentsiaalsusrežiimi, peaasi et saaks tõlkemälud küla pealt kätte ja automaattõlke kvaliteedi seeläbi kuidagigi paremaks. Mõne pisema tõlkekontori ärihuvid võivad selles küsimuses suure liidu üldhuviga mõnevõrra vastuollu sattuda küll.
Hoopis olulisem on siiski rahvusliku enesetunde küsimus. Kui me teame, et praegune automaattõlge ei kannata niikuinii kriitikat ega too ajavõitu, siis milleks varjudega mängida?! Tegingi seminaril ettepaneku kehtestada mõni minimaalne kvaliteedistandard, millest allapoole jääva keelepaari puhul automaattõlget lihtsalt ei rakendataks.
See teema ei lähe meist mööda sugugi nii kaugelt, kui tahaksime. Euroopa Liidu eIDAS-määrus avab varsti meie teenuseportaalide uksed kõigi liikmesriikide kodanikele, kes hakkavad oma ID-kaardi või mõne muu kvalifitseeruva asjanduse abil meie riigi veebiväratitesse sisse logima. Seetõttu võiksime (varakult) ära otsustada, mis keelset ja millise kvaliteediga teenindust soovime oma riigi- ja müügiportaalides demonstreerida. Praegu ei saa lõplikult välistada uuelaadset nišiturismi, kus meie morfoloogiliselt rikas keel ja pisuke surve CEF.AT projekti suunalt transformeerivad siinsed asjalikud veebisaidid e-klingoni mälestusmärkideks.
Ideaalses maailmas tuleks pista igale e-teenusele esitluskihti programmijupats, mis tõlgiks keelevalikust olenevalt abitekstid ja täidetavate väljade nimetused ülejäänud 23 keelde. Ikkagi pole päris kindel, kas muutunud maailmas portaalivaldajad ikka soovivad oma seniseid tõlketöid (ehk siis paralleelkorpusi ja tõlkemälu) üle anda Euroopa Liidu nimel toimetavatele tõlkearendusfirmadele. Seda võiks vahest tehagi, kui Brüssel annaks ennetavalt usutava kvaliteedigarantii.
1 Anto Veldre, Infoühiskonnast hereetiliselt III. http://www.sirp.ee/s1-artiklid/c9-sotsiaalia/infouehiskonnast-hereetiliselt-iii/
2 Vt http://www.helsinki.fi/lehdet/uh/499l.html
3 Vt https://en.wikipedia.org/wiki/Google_Translate#Open-source_licenses_and_components