„Kui Arno isaga koolimajja jõudis, olid koolilapsed juba rõõmsalt hoovil mängimas.“

Juturobotid ja keeled

KURMO KONSA

Ilmselt on väga paljud nõus väitega, et eesti keele ja kultuuriga kursis olija peaks oskama lõpetada lauset: „Kui Arno isaga koolimajja jõudis…“ Viimati kirjutas sellest Aimar Altosaar Postimehes.1 Selle artikli juhatab sisse ChatGPT pakutud vastus selle kuulsa lause lõpetamiseks. Mida võib siit järeldada?

Juba sellise lühikese ajaga, mis on möödunud juturobotite kasutuselevõtust, on saanud selgeks nende ülisuur mõju paljudele inimtegevuse valdkondadele. Kuna tegemist on keelemudelitel põhineva tehisaruga, siis on sellel ilmselgelt ka mõju keelele ja kogu kommunikatsioonile. Eriti ilmne on edasiminek inimese suhtluses masinatega. Mida enam on tarku masinaid, seda tähtsam on otsida lihtsaid ja inimesele intuitiivselt arusaadavaid viise nendega suhtlemiseks. Inimese kõige loomuomasemaks suhtlemisviisiks on kahtlemata keel. See, et masinad on lõpuks õppinud inimkeelest „aru saama“, on suur samm edasi inimeste ja masinate ühise kultuuri tekkeks.

Milline on aga vestlusrobotite mõju keeltele, eriti väikestele, näiteks eesti keelele? Kas tehisaru ohustab eesti keelt või pakub meie keelele hoopis uusi võimalusi?

Mis keeles räägib juturobot?

OpenAI loodud ChatGPT põhineb GPT mudelil, mida on terve seeria, viimane neist kannab tähistust GPT-4. Lisaks sellele tugineb ChatGPT teisele mudelile, mida kutsutakse InstructGTP. Selle mudeli häälestamisel kasutati inimesi, kes kirjutasid soovitavaid vastuseid viibetele. Seejärel hindasid inimesed omakorda mudeli vastuseid. Seega treenitakse InstructGTP-d andma just inimestele sobivaid vastuseid. Mudeli treenimisel osales 40 inglise keele kõnelejat. Nii et mudel on juba oma olemuselt kallutatud inglise keele väärtuste poole. Seda tunnistavad ka mudeli loojad ise. Milliste andmetega on GPT mudeleid treenitud? Nendeks andmehulkadeks on Common Crawl, WebText2, Books 1 ja Books 2 ning Wikipedia. Common Crawl2 kujutab endast hiiglaslikku veebist kogutud teabekogu. See sisaldab teavet enam kui 40 keeles, kuid üle 50% kogutud teabest pärineb USAs asuvatelt veebilehtedelt.3 Küllaltki suure osa moodustavad ühest keelest teise masintõlgitud tekstid, eriti patendiinfo. Selle tekstikorpuse puhul on kasutatud „ebasobivate või ebasündsate“ sõnade filtrit, mis eemaldab näiteks seksuaalse sisuga sõnad. WebText2 on tekstikorpus, mis koosneb Redditi4 postitustest, millele on antud kolm või enam poolthäält. See peaks tagama nende kvaliteedi, kuid tuleb arvestada, et Redditi kasutajaskond on piiratud ega esinda kogu inimkonda. Raamatute korpusi kirjeldab OpenAI kui „veebis baseeruvaid raamatukorpusi“, midagi täpsemat pole nende kohta öeldud. Arvatakse, et tegemist võib olla näiteks avaliku Gutenbergi raamatukoguga.5 GTP-1 treenimiseks kasutati ka BookCorpuse nimelist raamatukogu, mis sisaldas autorite endi üleselaetud tekste. Ka see tekstikorpus sisaldas kallutatud ja problemaatilist sisu.6 Wikipedia puhul kasutati ingliskeelseid lehekülgi.

2023. aasta veebruaris pani ajakiri Time esikaanele ekraanipildi vestlusest ChatGPTga.

 Avalik omand / Wikimedia Commons

ChatGPT on ju iseenesest mitmekeelne. Sisestage eestikeelne käsk ja ta täidab selle. Kuid tuleb arvestada, et see on eesti kultuuri kohta omandanud teadmisi peamiselt inglise keele vahendusel. ChatGPT on kujundatud selgelt USA seaduste, väärtuste ja kultuuri järgi. Enamikul juhtudest langevad need kokku euroopalike väärtustega, aga mitte alati. Selline ühtlustamine põlistab senist ja loob uut ebavõrdsust väikeste ja suurte keelte vahel.

Keel kui suhtlusvahend ja tõlkimine

Kindlasti aitavad tõlkeprogrammid ja juturobotid omavahel suhelda eri keeltes rääkivatel rahvastel. Enamikule on võõrkeelte omandamine küllatki raske ja hea on, kui osatakse emakeele kõrval veel üht-kaht keelt. Samal ajal on selge, et keeltevaheline tõlkimine toimub peamiselt ühes suunas, nimelt tõlgitakse väiksematest keeltest suurematesse. Kui Eesti loodusturismiga tegelev talu tahab jõuda suuremale turule, peab ta oma veebilehe ja muud infomaterjalid tõlkima kas inglise või saksa keelde. Kui keskendutakse lähinaabritele, siis peaks tõlkima läti, soome ja rootsi keelde. Ilmselt on aga väga vähe ingliskeelseid inimesi, kes vaevuksid tõlkima eesti keelest inglise keelde. Enamasti puudub neil selleks otsene vajadus, kõikvõimalik teave on ingliskeelsena nagunii olemas. Inglise keele domineerimine üle maailma on ilmne. Mulle tuttavamas valdkonnas, nimelt teaduses, on seos veelgi selgem, minu kui teadlase edukus sõltub ainult ingliskeelsete artiklite publitseerimisest.

Juturobotite ja suurtel keelemudelitel põhinevate tehisaru süsteemide, mis kõik põhinevad inglise keelel, levik suurendab veelgi vahet inglise keele ja teiste keelte vahel. Uuringud on näidanud, et ChatGPT tõlgib hästi teisi keeli inglise keelde, kuid vastupidised tõlked on märksa halvema kvaliteediga. Eriti suuri probleeme esineb tõlkimisel keeltesse, mis ei kasuta ladina tähestikku.7

Teistes keeltes teeb ChatGPT rohkem faktivigu ja samuti pole see ka nii osav võõrkeelsete tekstidest kokkuvõtete tegemisel.8 Ja siinkohal ei ole juttu väikestest keeltest, vaid muret tunnevad näiteks hispaania keele kõnelejad, keda on maailmas 548 miljonit. ChatGPT loojad tunnistavad ka ise, et mudel põhineb inglise keelel ning on valdavalt USA-keskne. Pärast algset treenimist ingliskeelsete tekstidega on mudelit õpetatud ka väiksemamahuliste tekstikorpustega teistes keeltes, nt hispaania, saksa, prantsuse, itaalia, hiina, jaapani, korea keeles.

Paratamatult jäävad mudeli teadmised teiste keelte kohta pinnapealseks. Tõsi on see, et keelemudelite loojad püüavad seda olukorda parandada, näiteks Google’i keelemudeli PaLM 2 treenimiseks kasutati üle 100 keele.9

Mis juhtub, kui kaob keel?

Maailmas kõneldakse praegu üle 7000 keele, kusjuures enam kui 90% puhul jääb keele kasutajaskond alla 100 000 inimese. Keelte arv väheneb pidevalt ligikaudse kiirusega üheksa keelt aastas.10 Kuidas seda protsessi mõjutab ChatGPT? Siinkohal lähevad uurijate arvamused lahku. Mõnede arvates kutsub juturobotite levik esile keelte massilise väljasuremise, teiste arvates aitavad need kaduvaid keeli hoopiski säilitada.

Mis juhtub, kui kaob üks keel või mitu keelt? Miks on see üldse tähtis? Keelte väljasuremist võib ju käsitleda ka soovitavana, kuna selline areng võib viia ühtse maailmakeele kujunemisele. Selline idee pärineb selgelt piiblist, kõik teavad ju legendi Paabeli tornist, kuidas rikka ja võimsa Paabeli riigi asukad otsustasid rajada samanimelisse pealinna taevani ulatuva torni. Jumalale see ehitusprojekt ei meeldinud ja koostöö takistamiseks andis ta inimestele eri keeled. See tegi üksteisemõistmise võimatuks ja nii jäigi torni ehitamine katki. Enne olid kõik inimesed rääkinud ühes keeles ja seega saanud vabalt suhelda. Algse olukorra taastamiseks peaks kaotama kõik keeled ja lootma, et inimkonnast kujuneb üht keelt kasutades jällegi ühtne sõbralik pere. Selle idee naiivsus on nii ilmne, et ei vaja pikemat selgitust. Küll aga võivad mõned suurema levikuga keeled kujuneda ülemaailmseteks keelteks. Seda protsessi näemegi praegusajal toimumas ja suured keelemudelid kiirendavad seda kohe kindlasti.

Nagu märgitud, on juturobotite treenimiseks vajalik, et veebis oleks kättesaadav võimalikult suur hulk antud keeles tekste. Lisaks inglise keelele on veebis suurte andmekogumitega esindatud ka mandariini, vene, saksa ja jaapani keel ning veel mõned. Keelemudeleid saab seega edukalt nendes keeltes treenida ja hiljem loovad juturobotid just nendes keeltes tekste juurde, suurendades nende nähtavust ja tähtsust. Tekib omalaadne ennastvõimendav protsess ja need keeled, milles on mudelite koolitamiseks vähem saadaolevat materjali, tõrjutakse kõrvale. Üheks lahenduseks on luua avatud keelemudelid, mis haaraksid võimalikult paljusid keeli. Turu ülikooli juhitavas projektis püütakse ehitada soome keelel baseeruvat mudelit Finnish ChatGPT. Ei tasu unustada, et selliste keelemudelite loomine ja vajaliku riist- ning tarkvara hankimine ei ole odav lõbu. Veelgi enam vahendeid kulub aga nende käigushoidmiseks ja pidevaks arendamiseks. Nii on hinnatud, et Open­AI kulutab ChatGPT käigushoidmiseks vähemalt 700 000 dollarit päevas.11 Teine võimalus on suurendada keele digitaalset nähtavust veebis. Väikseim samm, mis praegu kohe tuleks astuda, on digiteerida ja teha veebis vabalt kasutatavaks kõik eesti keeles kirjutatud tekstid, ennekõike raamatud ja ajakirjad. Kuna jutu­robotid õpivad kasutamise käigus, siis on vajalik nendega eesti keeles suhtlemine ja kindlasti ka tagasiside andmine. Sellega muudame juturoboti osavamaks eesti keele valdajaks ja õpetame talle ka meile omaseid väärtusi ja norme. Igaüks meist saab olla õpetajaks globaalsele digiinfosüsteemile.

Kas keel loob kultuuri või kultuur keelt?

Keel kuulub kahtlemata kultuuri juurde. Organisatsioonikultuuri uurija E. H. Schein on kasutanud kolmetasandilist kultuurimudelit.12 Artefaktid ehk tehiskeskkonna moodustab kõik see, mida me kultuuris näeme, kuuleme ning tajume. Tegemist on selle kultuuri füüsiliste, käitumuslike ja verbaalsete ilmingutega, mille näiteks võib tuua arhitektuuri, keele, esemed, tehnika, kunstiteosed, riietuse, käitumise, käitumistavad, emotsioo­nide väljendamise, müüdid, lood, kangelased, rituaalid, tsere­mooniad, religiooni, sotsiaalse struktuuri, sümbolid, poliitika jne. Väärtused ja uskumused, mis moodustavad kultuuri teise tasandi, on aluseks käitumis- ja mõtteviiside õigustamisel ja käitumisviisi valikul. Tegemist on teadvus­tatud ja sõnastatud ideaalide ja normidega, millest inimesed lähtuvad. Väärtused pole vahetult vaadeldavad ega jälgitavad, need on seotud moraaliga ja väljendavad inimeste etteku­jutust soovitavast. Sügavamad arusaamad on alateadlikud, enesestmõis­tetavad, sõnades väljendamata veendumused maailma ja inimese kohta. Need moodustavad väärtuste ja uskumuste aluse.

Selle käsitluse kohaselt moodustab keel osa kultuuri artefaktidest, olles küll tähtis, aga siiski ainult üks paljudest kultuuri osistest. Seega teine keele kadumise väide, nagu kaoks koos keelega tingimata ka kultuur, ei ole tõsi. Keele kadumisega ei kao teadmised maailma kohta, need ei sisaldu ju keeles endas. Teadmisi kannavad ikka inimesed ise, mitte keel. Keel moodustab osa teadmistest, aga ei ole nende aluseks. Maailm, kus inimesed elavad, koosneb ikkagi kultuurist, inimestest ja kogu keskkonnast. Kultuuri kadumise või muutumisega kaasneb küll teadmiste ja maailmatajumise viiside kadu, kuid keelevahetus üksinda ei pruugi veel kultuurile hävitavalt mõjuda, see võib osutuda määravaks osaks üldises kultuurivahetuses. Viimane Mani saarel mänksi keelt emakeelena kõnelnud inimene suri 1974. aastal ja 1990. aastatel kuulutas UNESCO selle keele hävinuks. Praeguseks on aga välja kujunenud märkimisväärne arv – kuni 1800 inimest – mänksi keele kasutajaid ja toimub selle keele taassünd. Tegemist on hea näitega sellest, et keelevahetus ei hävitanud mänksi kultuuri ja kui keele taastamist peetakse tähtsaks, siis on seda võimalik teha. Keel aitab paljudel juhtudel hoida alles kultuuri ja sellisel juhul on keele säilitamine ka selle kultuuri seisukohalt tähtis.

Enamik keelte kadumist käsitlevatest autoritest seob keele, kultuuri ja rahva identiteedi lahutamatult kokku. Kindlasti on keel, kultuur ja identiteet seotud, kuid keskkonniti eri määral. Kui keel oleks rahva identiteediga nabanööriga seotud, siis kuidas saaksid rahvad üldse keelt vahetada, aga see on ju toimunud kogu aeg ja toimub edasi. Enamikul juhtudest tähendab keele surm seda, et ajapikku on kasutusele võetud mõni teine keel. Probleemiks ei ole mitte keelevahetus, vaid selle põhjuseks olnud kultuurimuutused. Kultuuri muutumine põhjustab paratamatult eriomaste teadmiste kaotsimineku. Kuid on ka selge, et kultuurid muutuvadki pidevalt. Keelevahetus võib takistada kultuurile omase teabe edastamist vanematelt ja vanavanematelt lastele. Kui lapsed ei mõista enam hästi vanavanemate keelt, ei saa nad üle võtta ka selles keeles esitatavaid teadmisi. Keelevahetus aga toimubki sageli just lapseeas. Käsitledes keelte saatust jäetakse sageli inimesed ja nende kultuur tagaplaanile. Keel ei eksisteeri isoleeritult, vaid on alati seotud teiste keelte, allkeelte, murrete ja muuga. Me supleme kogu aeg eri keeltes, monolingvistiline keskkond on äärmine haruldus. Keelte vahelduv kasutamine on omane suuremale osale inimkonnast. See, millist keelt mõni rahvas või kogukond kasutab, sõltub hulgast teguritest.

Juturobotite kultuuriline kallutatus inglise keele ja kitsamalt USA suunas on ilmne probleem. Kuna juturoboti kasutamine on vajalik ja kasulik väga paljudes tegevusvaldkondades ning kui inglise või mõnes muus levinumas keeles vastab see täpsemalt, siis tekib inimestel surve kasutada just inglise keelt. Tegemist on veel ühe argumendiga suurkeelte kasutamise kasuks, mille tagajärjel võib väiksem keel kaotada koha suhtluses tehissüsteemidega. Kui juturobotid õpivad suhtlema ka väikekeeltes, võib tekkida kultuurilise omastamise probleem. Selle tulemusena kasutatakse küll väikekeeltes loodud kultuuritekste, kuid ilma vajaliku kultuurilise konteksti mõistmise ja austamiseta.

Juturobotite kiiduväärt mõjuna võib välja tuua selle, et nüüd on ka teistes keeltes võimalik luua tekste, mis tõlgitakse automaatselt inglise keelde ja mis saavad veebis ülemaailmselt kättesaadavaks. Iseasi, milline mõju on neil ingliskeelses tekstiookeanis.

Keele kadumisega kaob ka võimalus seda keelt teaduslikult uurida ja see on kindlasti tõsine teadmiste kadu. Jällegi ei pruugi kultuuris osalejad ise seda sellisel viisil tajuda. Küll aga teevad seda keeleteadlased. ChatGPT ja teised juturobotid aitavad ohustatud keeli säilitada. Teadlastel on nende abil võimalik koguda ja analüüsida andmeid ohustatud keelte kohta.

Kas keel on tehnika?

Tehnika on tavatähenduses midagi sellist, mida inimene teeb ja kasutab. Keele kasutamine inimese poolt on ilmne, selle tegemine aga küsitav. Loomulikult loob inimene keelt, kuid enamjaolt mitte teadlikult ja eesmärgistatult. Ametliku keelekorralduse võib siinkohal kõrvale jätta, kuna keel areneb suuresti sellest sõltumatult. Koos juturobotite ja tehisaru tulekuga on aga keele tehnilisus märksa arusaadavam. Võib-olla oleks hoopis kasulikum ja loovam käsitleda eesti keelt ja kultuuri tehnikana, mida tuleb võimalikult efektiivselt kasutada tänapäeva ja tuleviku ühiskondade lokaalsete ja globaalsete probleemide lahendamisel.

Keele ja kultuuri käsitlemine loodava tehnikana võimaldab ära hoida kultuuri võimalikku kasutamist natsionalismi, separatismi, rõhumise põhjendamiseks ja toetamiseks. Keel ja kultuur ei ole seotud rahvuste ja inimgruppide põhiolemuse ega ajaloosündmustega. Inimgrupid on pidevalt segunenud, vahetanud kultuure ja keeli.

Keele ja kultuuri kaudu luuakse tähendusi ja esitatakse väärtusi kogukondadele ja ühiskonnale. See on meie kõigi võimalus ja kohustus. Selles vallas pakuvad uued tehnoloogiad võimalusi, aga esitavad ka puremiseks parajaid pähkleid.

1 Aimar Altosaar, Kas Välis-Eestit ootab ees kadumine? – Postimees 6. X 2023.

2 Common Crawl 

3 Jesse Dodge, Maarten Sap, Ana Marasović, William Agnew, Gabriel Ilharco, Dirk Groeneveld, Margaret Mitchell, Matt Gardner, Documenting Large Webtext Corpora: A Case Study on the Colossal Clean Crawled Corpus. EMNLP 2021, lk 1286–1305.

4 Reddit on veebileht meelelahutuse, uudiste ja sotsiaalse võrgustikuga. Sellele loovad sisu registreeritud kasutajad, kes teevad postitusi ning hääletavad nende postituste poolt või vastu.

5 Project Gutenberg 

6 Jack Bandy, Nicholas Vincent, Addressing “Documentation Debt” in Machine Learning Research: A Retrospective Datasheet for BookCorpus. NeurIPS Datasets and Benchmarks 2021.

7 Vt nt: Wenhao Zhu et al., Multilingual Machine Translation with Large Language Models: Empirical Results and Analysis. – arXiv 10. IV 2023; Yejin Bang et al., A Multitask, Multilingual, Multimodal Evaluation of ChatGPT on Reasoning, Hallucination, and Interactivity. – arXiv 28. II 2023.

8 Viet Dac Lai et al., ChatGPT Beyond English: Towards a Comprehensive Evaluation of Large Language Models in Multilingual Learning. – arXiv 12. IV 2023.

9 PaLM 2 Technical Report. Google.

10 The Most Spoken Languages 2023. Gary F. Simons, Two centuries of spreading language loss. – Proceedings of the Linguistic Society of America 209, 4.

11 Frank Landimore, Just running ChatGPT is costing OpenAI a staggering sum every single day. The company is burning through cash. – Byte Iv 2023.

12 Edgar Schein, Organizational culture and leadership. 3rd ed. Jossey-Bass, San Francisco 2015.

Kui sulle meeldis see postitus jaga seda oma sõpradega

[LoginRadius_Share]
 

Leia veel huvitavat lugemist

Värske Rõhk
Hea laps
LR
Keel ja kirjandus
Akadeemia
Kunstel
Muusika
Õpetajate leht
Täheke
TeaterMuusikaKino
Vikerkaar
Looming
Müürileht