Tehisaru teaduskeele kujundajana – täppismeel või tehiskeel?

Kas ja kuidas õpetada tehisarule juba olemas termineid? Või tuleb leppida, et eesti terminid hakkavad tehisaru pakutava tõttu muutuma?

Tehisaru teaduskeele kujundajana – täppismeel või tehiskeel?

Suurte korporatsioonide peamiselt inglise keeles arendatud keelemudelid, masintõlke süsteemid ja tekstirobotid mõjutavad eetika- ja andmekaitseküsimuste kõrval kahtlemata meie emakeelt, ka siis, kui rakenduse või veebiplatvormi nn töökeelte hulgas on eesti keel. Kindlasti on paljud sattunud veebilehtedele, mis on justkui eestikeelsed.

Teatavasti ei saa tõlkides ühe keele sõnu lihtsalt teise keelde ümber panna, kuid pahatihti tehisaru nii teeb. Kuigi see õpib keelemustreid ja -struktuure kiiresti ning on suuteline looma teksti, mida sageli inimese kirjutatust ei erista1, see vaid genereerib keelt, ei mõtle kaasa ega pruugi aru saada kõnekäändudest, väljenditest, alltekstist, isegi kui tabab konteksti.

Eesti emakeelega teadlased kasutavad arvatavasti üha enam tehisaru abi ka teadusartikleid inglise keeles koostades ja sellesse keelde tõlkides. Eesti keelt levinud abivahendite seas, nagu näiteks Consensus ja Scopus, veel ei ole. Tehisaru, sh suured keelemudelid ja tekstirobotid (nt Google Translate, ChatGPT, DeepL, Copilot, AI-Writer jpt), on teadustöös kasutusel artiklite ja muude publikatsioonide kirjutamisel, tõlkimisel, retsenseerimisel, illustreerimisel ja andmetöötlusel. See hoiab aega kokku, on abiks arvutusvigade vältimisel, aga ka intellektuaalselt nõudlike ülesannete täitmisel, nagu kirjandusallikate analüüs ja kokkuvõtted, prognoosid, inimsilmale nähtamatute mustrite, tendentside kirjeldamine (nt meditsiinis) jne.

Probleemid tekivad siis, kui inimene usaldab päringu vastust sel määral, et unustab kriitilise mõtlemise sootuks ja lepib toortõlkega. Hiljuti sõelus info­turbeekspert Anto Veldre välja TÜ arvutustehnika instituudis sel aastal kaitstud magistritööd, mille vildakatest eestikeelsetest pealkirjadest on nii mõnigi Google Translate’i pakutu.2

Tehisaru kujutlus keeleloomest. Eestikeelses tõlkes eelistab tehisaru omasõnadele võõrsõnu.
 DeepAI

Tehisaru toob kaasa muutusi kõigil haridusastmetel õppimis- ja õpetamisviisides, ülesannete koostamisel ja lahendamisel, info töötlemisel jne. Võib vaid arvata, mil määral hakkab tehiskeel eksitama üldhariduskoolide õpilasi. Kuna tehisaru töötab kiiresti ja vastab küsimusele hetkega, on õppijal kiusatus oma peaga mõtlemise asemel anda käsklus, et kodutöö tempokalt valmis saada. Nutiajastul suuresti inglise keele mõjuruumis õppijatele tuleb tingimata meelde tuletada seoste loomise ja järelduste tegemise oskust, aga ka kõrgtasemel eesti keele omandamise, valdamise ja hoidmise tähtsust.3

Uus-Meremaa Otago ülikooli kõrghariduse arenduskeskuse teadurid Butson ja Spronken-Smith väidavad4, et tehisaru mõistab tõenäoliselt peagi konteksti, semantikat ja keelenüansse määral, mida seni on suutnud vaid inimaju. Tekstirobotid panevad seega teadlase oma tekstiga hoopis uuel moel suhestuma, et selle sidusust parandada, sügavamalt argumenteerida, loogikavastuolusid vältida ja tagada teksti terviklikkus.

Kas praeguses arendusstaadiumis tehisaru ikka aitab teadlast täpse teaduskeele loomisel või loob omamoodi tehislikku keelt? Kui palju tasub usaldada tehisaru (teadus)tekstiloomes? Teatavasti eeldab teadustöö intensiivset mõttetööd ning selle kirjapanekut asjatundlikus erialakeeles.

Kui näiteks ärisuhtluse programmi Microsoft Teams integreeritud ja tehisarul põhinev vestluse transkribeerimise funktsioon kuvab hoiatuse „tehisintellekti genereeritud sisu võib olla vale“, siis paljud masintõlke või tekstirobotite keskkonnad kasutajat ei hoiata. Tehis­aruga eesti keelest inglise keelde ja vastupidi tõlkimisel võib seega ette tulla probleeme.

Ebaühtlased või vigased (teadus)terminid. Sünonüümid ei rikasta teadusteksti, sest kaob täpsus. Näiteks võib saada artikli piires sõna uuring vasteks survey asemel ka study, research, inspection, poll, inquiry, analysis, search. Sõna riigieelarve võib olla kord state budget, kord national budget, aga ka government budget. Ebakorrapärasust on keeruline korrigeerida, sest tõlgitud tekstis võivad olla segamini eri vasted. Metsanduse termin rinnasdiameeter on juurdunud oskussõna puistu tagavara hindamiseks. DeepL tehisaru tõlgib selle aga inglise keelde chest diameter, kuigi termin on breast height diameter. Vastupidises keelesuunas annab DeepL vasteks rinnakõrguse läbimõõt/diameeter, mis ei ole eesti teaduskeele termin. Samas terminipesas on veel näiteks rinnaspindala ja rinnasümbermõõt.

Anglitsismid, võõrapärasus ja ülemäärased võõrsõnad. Näiteks saab tehisaruga ingliskeelsest by someone/something eesti keeles sageli kellegi/millegi poolt. Näeb mas– ja des-tarindi liigset kasutust ja isikustamist. Omasõnade asemel eelistab tehisaru võõrsõnu ja nii saavad näiteks sõnadest epistemic, dynamic ja recalibrate peaaegu alati episteemiline, dünaamiline ja rekalibreerima, kuigi mõttekam oleks tarvitada asja­kohaseid omasõnu, mis annavad lugejale mõtte edasi selgelt ja nõtkelt.

Kohmakus ja hägusus. Ka grammatiliselt korrektne tehisaru genereeritud tekst võib olla võõrmõjulise sõna­kasutuse ja lausestusega. Eesti keeletoimetajate liidu sügisseminaril tõdeti, et sõnade väike ja suur ning madal ja kõrge üsna reeglipärane kasutus eesti keeles on inglise keele survel muutunud, nt julge­olekuvaldkonna high readiness/preparedness ei ole kõrge valmisolek, vaid peaks olema suur valmisolek/valmidus (piisab ka täiendita põhisõnast).

Asendused või väljajätmised. Tehisaru ei teata tõlkides, et ei leia vastet, vaid lihtsalt asendab sõna levinuimaga või genereerib suvalise vaste. Näiteks võib temast saada ühes ja samas tekstis kord he, kord she. Projektijuhtimise valdkonnas sai success criteria tehisarule omase otsetõlke asemel ChatGPT-lt aga vasteks liitsõna eduskeem, mis on harv, segane ja tehisliku kõlaga. Termineid võrreldes on see aga veendunud, et võrgustikugraafik on levinud eesti oskussõna (Google’i otsing seda veel ei leia).

Küsisime ChatGPT-lt tehisaru ja teadustöö seoste kohta ning saime vastuse: „Tehisintellekti areng võib tõepoolest muuta, kuidas mõisted kujunevad ja kuidas neid teadusartiklites kasutatakse. Kui tehisintellekt hakkab ise teadusartikleid genereerima, siis on võimalik, et see hakkab looma uusi mõisteid ja neid kontekstualiseerima viisil, mis on eelnenud teaduse mõistete arengust erinev.“ ChatGPT sõnavara on üksikasjalikult käsitlenud arvutiteadlane ja tehisaru uurija Emmanuel Maggiori, kes rõhutab tähenduspõhist keelearendust vastuste täpsuse tagamiseks. Olgugi et ChatGPT on statistiline generaator ehk generative pretrained transformator, mitte mõtlev (tehis)isik, on huvitav jälgida selle arengu- ja arendussuundi ning mõju keelele ja kultuurile.

Tehisaru on praeguses arengujärgus pädeva, kriitiliselt mõtleva, täppismeelega teadlase või erialaspetsialisti abivahend, millega teksti loomisel või tõlkimisel tuleb arvestada toimetamise vajadusega. Tehisarule lootma jäämine võib pärssida eesti teaduskeele terminiloomet ning inglise keele eeskuju võib takistada uue eestikeelse termini sobitumist olemasolevasse loogilisse süsteemi. Ülikoolide töörühmad ja tehisaru kasutamise suunised on üliõpilastele ja õppejõududele abiks, kuid kõrgkoolid saavad eesti teaduskeele heaks palju ära teha ennekõike õppematerjali loomisega. Seni vaid trükistena ilmunud kõrgkooliõpikud on omamoodi teaduskeele tüvitekstid, mida tehisaru ei saagi tunda. Tehisaru keskkonnad, nagu kõik veebiplatvormid, vajavad kasutamiseks aega ning süvenemist, sest õppe- ja teadustöös ei saa olla pealiskaudne. Kui kauaaegne inglise keele õppejõud, TÜ emeriitdotsent Enn Veldi on 2000ndate algul osutanud, et keelenorme nihutavad paljud meediumid, siis nüüdisajal kasvab plahvatuslikult just tehisaru mõju.

1 Keeletehnoloog Helen Kaljumäe suurtest keelemudelitest ja veel suuremast tehisintellekti maailmast. – Digigeenius 16. X 2024.

2 Anto Veldre, Kas kellelgi peaks väga häbi olema? – Sirp 27. IX 2024.

3 Vt 5. ja 6. XII 2024 peetud X mitmeteadusliku konverentsi „Eesti täppiskeelne teadus“ ettekandeid. https://teaduskeelekeskus.weebly.com/5122024-salvestised.html

4 Russell Butson, Rachel Spronken-Smith, AI and its implications for research in higher education: a critical dialogue. – Higher Education Research and Development 2024, nr 43(3).

Sirp