27.10.2017

Andmepunkar uurib digiõiguste bluusi

Vladan Joler: „Tulevikus kõneleb tehisintellekt peamiselt inglise keeles, sest selle keele andmekogud on kõige suuremad. Kõik pika arhiveerimistraditsiooniga riigid saavad mingil määral kaasa lüüa.“

OTT KARULIN

Maailmas on väga vähe inimesi, kes teavad täpselt, kuidas töötavad Facebooki algoritmid, mis oskavad kasutaja tegevuse põhjal (mille ta meeldivaks märgib, milliseid postitusi jagab jms) hinnata, milliseid tooteid on talle kõige mõistlikum reklaamida. Kuigi me kasutame iga päev internetti, ei tea me sellest tegelikult suurt midagi. Just interneti läbivalgustamise on ette võtnud Serbias tegutsev Share Lab: tegu on nende endi sõnul andmepungi ja meediateooriapopi seguga uurimaks digiõiguste bluusi. Küberkriminaliste juhib Vladan Joler, Novi Sadi ülikooli uue meedia osakonna professor. Joler oli ka peaesineja eelmisel nädalavahetusel peetud kultuuriväljaannete võrgustiku Eurozine korraldatud konverentsil „Kas demokraatia on Euroopas käes? Valida on digitaalse lunastuse ja tõejärgse loobumise vahel“ („Democracy delivered? Europe between digital salvation and post-truth resignation“).

Kuidas Share Lab sündis?

Tegime ühe sõbraga kunagi ühe projekti, kus mõõtsime Balkani riikides radiatsioonitaset. Olime Kosovos mingis kunagi sõjaväele kuulunud paigas, mis nägi välja nagu Tarkovski „Stalkeri“ maastik. Ja kuigi seal ei tehtud enam mitte midagi, näitas loendur siiski radioaktiivseid osakesi õhus. See nähtamatu nähtavaks tegemine jäi mind kuidagi kummitama.

Ka internet on suures osas nähtamatu, sest me ei tea, mida kõike see sisaldab ja millised on selle võimusuhted. Nii hakkasimegi Share Labis internetti nähtavaks tegema ja visualiseerima: kõigepealt võrgustikke, siis andmevooge ja lõpuks algoritme. Nii et me oleme nagu detektiivid.

Share Labi uuringutes on kesksel kohal läbipaistvus kui miski, mida interneti puhul ei ole.

Jah, meie eesmärk on teha süsteem nähtavaks, läbipaistvamaks. Tuntuim osa meie tööst puudutab Facebooki algoritme, mille toimemehhanisme oleme püüdnud paljastada. Saime üsna kiiresti aru, kui suur see andmemaht on ja kui palju ressurssi nende läbitöötamine võtab, nii et teha on veel palju. Internet on täis nn musti kaste ja neid tuleb aina juurde.

Vladan Joler: „Internet on suures osas nähtamatu, sest me ei tea, mida kõike see sisaldab ja millised on selle võimusuhted. Nii hakkasimegi Share Labis internetti nähtavaks tegema ja visualiseerima: kõigepealt võrgustikke, siis andmevooge ja lõpuks algoritme.“

Erika Renel

Mis on must kast?

Kõige tüüpilisem näide on neurovõrk. Me mõistame, milline on sellise musta kasti sisend ja oskame enam-vähem selgitada selle väljundit, aga me ei tea tegelikult, mis süsteemi sees toimub ja kuidas just sellest sisendist, neist andmetest, just sellise tulemuseni jõutakse.

Kõik mustad kastid pole muidugi nii keerulised, aga samaaegselt töötavaid algoritme on siiski ka lihtsamates süsteemides nii palju, et neid on väga raske analüüsida. Ja ega suured korporatsioonid, kellele paljud neist mustadest kastidest kuuluvad, ole ka eriti koostöövalmid. Pealegi on algoritmid ka pidevas muutumises ja muutuvad nii kiiresti, et selleks ajaks, kui oled oma analüüsiga kuhugi jõudnud, on uurimisobjekt juba teisenenud.

Ühed keerulisemad on Facebooki algoritmid. Paljud neist töötavad arusaadavalt: kui märgid mõne oma sõbra plaani minna bändi x kontserdile meeldivaks, siis on üsna tõenäoline, et sinu ajajoonele ilmuvad peagi reklaamid, mis pakuvad tooteid, mille sihtrühm kattub selle bändi omaga. Aga see on vist vaid jäämäe tipp?

Enamik algoritme ei tööta tõesti nii sirgjooneliselt. Algoritmid lubavad väga erinevaid andmeid arvesse võttes arvutada ehk teisisõnu: püütakse mõista sinu kui kasutaja käitumist ja tegevust, et ennustada, kuidas sa tulevikus mingi asja peale reageerid.

Olete nimetanud Facebooki koloniaalagendiks …

Jah, koloniseerimine logi kaudu. Küsimus on valikus: kas me kasutame neid teenuseid vabatahtlikult? Muidugi on igaühel õigus mitte omada Facebooki kontot, aga me justkui siiski ei saa selleta hakkama. Näiteks USA on võtnud vastu otsuse, et viisataotlemise protsessi käigus võib ka taotleja Facebooki kontot vaadata. Kui sul seda aga pole, kas siis jääd viisast ilma? Sama kehtib ka tööle kandideerimisel. Nii et me ikkagi oleme sunnitud neid teenuseid kasutama.

Teine näide on andmete liikumine. Näiteks Serbias internetis tekkivatest andmetest jõuab 70% väljapoole riiki suurkorporatsioonide kätte ja seegi on midagi, mis ei ole meie kontrolli all.

Nii et meie valikuvõimalused vähenevad internetis pidevalt. Enamik inimesi ka ei mõtle sellele eriti, kus näiteks nende andmeid ladustatakse. Suurt osa neist hoitakse muide põhjas, vaid 50-60 kilomeetri kaugusel Vene piirist … Internet on kaotanud geograafilised piirid, aga loonud uued, mis jooksevad võrke ja ärisid pidi. Õnneks ajalugu näitab, et suur osa monopole sureb lõpuks välja, nagu juhtus ka eelmiste ühismeediaplatvormidega (need ei olnud küll nii suured kui Facebook).

Facebookis on tõesti rohkem inimesi kui maailma suurima rahvaarvuga riigis, seega on see omamoodi maailma suurim riik. Samal ajal on tegemist siiski ettevõttega, kes tahab teenida kasumit ning kellele on kasutajate isikuandmed vara, mille müügi pealt teenida.

Üks meie suuremaid vigu on otsus, et internetis peavad asjad olema tasuta. Sellega arvestavad ärimudelid pole aga läbipaistvad. Nii olemegi jõudnud jälgimismajanduse ajastusse, kus kasumit teenitakse kasutajate jälgimise ja profileerimise pealt. Hinnanguliselt teenib iga kasutaja Facebookile aastas kaheksa dollarit. Kui jälgimisest vabanemise hind on tõepoolest kaheksa dollarit, kas oleksime siis nõus selle ise näiteks Facebooki kasutamistasuna maksma, et teenust edasi kasutada, aga mitte olla jälgitud?

See nõuaks siis muidugi seadust, mis keelab isikuandmete kogumise. Mureks on aga ikkagi see, et me isegi ei tea, kui palju neid kogutakse ja kes seda teeb. Share Labi veebilehel on üsna tabavalt öeldud, et olete nagu kartograafid, kes on avastanud internetist sama vähe kui päris esimesed kartograafid maailma kohta. Kas me saame kunagi kõik avastatud?

See pole lihtsalt võimalik, sest nõuab aega, vahendeid ja teadmisi sellises mahus, mida ükski uurimisrühm ei saa endale lubada. Korporatsioonid saavad aga endale palgata armee asjatundjaid, kes arendavad algoritme aina edasi ja keerulisemaks.

Ja võib-olla polegi hea, kui algoritmid on täielikult läbipaistvad, kõigile võrdselt kasutada.

Tõepoolest, me usaldame päris palju inimesi, keda me ei tunne, ja võib öelda, et Mark Zuckerberg on maailma usaldusväärseim inimene. Mis juhtub siis, kui Facebook otsustab hakata tegema koostööd näiteks mõne totalitaarse riigiga või vahetuvad töötajad sellistega, kelle moraalikompass pole eriti tundlik?

Andmed jätavad liikudes õnneks väga palju metaandmeid maha ja seda on väga raske ära kustutada, aga muidugi me ei ta, mis juhtub Facebooki kuningriigis, kui tuleb uus valitseja.

Kui Zuckerberg kandideeriks USA presidendiks, kas keegi saaks talle vastu? Sellist andmebaasi hääletajate kohta pole kellelgi teisel maailmas.

Mõne kuu eest tuli uudis, et Zuckerbergi ei saa enam Facebookis oma sõprade seast kustutada, mis on küll väga huvitav ilming. Ka kasutajate psühholoogiline profileerimine on problemaatiline ettevõtmine, nagu näitasid hiljuti Cambridge’i teadlased [nad lõid näotuvastusprogrammi-tehisintellekti, mis oskab määrata oleva inimese seksuaalse orientatsiooni, aga potentsiaalselt ka poliitilised vaated jms – toim]. Kõik turundusagentuurid ja poliitilise propaganda läbiviijad kasutavad selliseid platvorme, aga ilmselt pole nende süsteemide kogu potentsiaal veel kaugeltki ära kasutatud. Pealegi saavad nad neid platvorme vaid kasutada, aga need pole nende kontrolli all – see on ikka Facebooki ja teiste asi.

Kui Zuckerberg tõesti tahaks Facebooki kõiki võimalusi poliitilisel eesmärgil ära kasutada, oleksime vastamisi info-viimsepäevaga.

Share Labi teiseks uurimisvaldkonnaks Facebooki algoritmide kõrval ongi tehnoloogia ja interneti kasutamine demokraatia hüvanguks. Olete ühes arutelus juba varem öelnud, et kuna internet ise pole demokraatlik, ei ole ka mõistlik arvata, et seda saab kasutada demokraatia levitamiseks.

Interneti juured, protokollid, on vägagi demokraatlik nähtus, aga praegune internet on väga tsentraliseeritud nii taristu kui ka andmevoogude osas, seega mitte eriti demokraatlik. Toon näite. Ma elan Novi Sadis, Serbia Vojvodina autonoomse piirkonna pealinnas. Kuna Novi Sadis pole omaenda interneti andmesidevõrkude sõlmpunkti (internet exchange point), liiguvad meie andmed ja kogu info ikkagi läbi Belgradi. Seal hoitakse seda tsentraalselt ja saadetakse siis tagasi Novi Sadi. Sama olukord on praegu ka Kataloonias.

Loomulikult on võimalik luua ka iseseisvaid ja kaitstud süsteeme ning ma ei ole totaalne skeptik e-lahenduste suhtes, aga meil peab olema õigus küsida, kuidas süsteemid toimivad, ja ka vastus saada. Tehnofetišismi või digiutoopiasse ei tasu siiski ka kalduda.

See, et poliitikud interneti ja meedia võimalused ära kasutavad, on muidugi ootuspärane. Olete ise uurinud 2014. aasta valimisi Serbias ja lähemalt just peaministri ja sel aastal presidendiks valitud Aleksandar Vučići kampaaniat. Nimelt möllas kampaania ajal lumetorm ja inimesed jäid oma autosse lõksu. Korraga saabus helikopteriga Vučić, kes tormas lumes kahlates ühe auto juurde ja päästis sealt lapse. Loomulikult olid täiesti juhuslikult paljude meediakanalite kaamerad tormisel maanteel juba kohal ja päästmisoperatsioon sai üles filmitud ning leidis kampaanias ohtralt kasutamist. Sama loomulikult ilmus seejärel internetti hulgaliselt pilavideoid, mis aga ühel hetkel kõik kadusid, kuna need rikkuvat väidetavalt video omanike autoriõigusi. Seega kasutasid nad poliitilistel eesmärkidel ära YouTube’i võimaluse, mis on mõeldud kaitsemehhanismiks. Kohtuni vist siiski ei mindud?

Seda mitte, aga oleme uurinud ligi kolmesada juhtumit ja mõnel juhul on ka inimesi arreteeritud. Internet on peale propaganda levitamise vahendi ka miski, mida tahetakse vallutada, mille üle soovitakse kontroll saavutada. Selleks on mitmeid võimalusi sisu filtreerimisest kuni füüsilise blokeerimiseni, rääkimata müra tekitamisest näiteks kommentaariumides.

Ehk trollimine. Analüüsisite 2014. aasta valimiste aegseid meediakanalite kommentaariume ja visualiseerisite tulemuse: 150 000 kommentaarist kordusid isegi ootamatult vähesed. Miks nii?

Sest vahele jäävad ainult laisad trollid, kes lihtsalt kopeerivad sama kommentaari. Me otsisime anomaaliaid, vigu andmevoogudes – osavad trollid ei tule nii välja. Samamoodi püüdsime aru saada, kuidas liiguvad trollid näiteks ühe uudisloo juurest järgmise juurde. Sellest saab päris hästi aimu, kui vaadata hääletusi [iga uudislugu või ka kommentaari saab hinnata kas positiivselt või negatiivselt – toim], sest trollide tegevus mitmekordistab nende arvu ja siis see jälle väheneb märgatavalt, kui nad järgmise uudisloo ette võtavad.

Kas inimese trolli taga leiab kergesti üles?

Ei, sest nad kasutavad mitmeid anonüümsust loovaid vahendeid, näiteks Tor, mis võimaldab peita või muuta arvuti IP-aadressi. Nad oskavad end kaitsta ja neil on see õigus: esindada end kellegi teisena ja jääda anonüümseks. See tähendab sedagi, et peame kaitsma ka kohti, kus saab argumenteeritult arutleda. Seda enam et tehistrollid, mida tulevikus kasutatakse kindlasti märksa rohkem, suudavad korraga olla tuhandes kohas …

… ja nemad pole kunagi laisad ega lollid.

Just. Me ei tohi kaotada suhtlemisplatvorme, mis on demokraatlikud ja trollimisest vabad.

Me ei suuda ju tehistrolle või muid bot’e eriti äragi tunda. Kuidas neid siis ohjata?

Ma arvan siiski, et ka neil peaksid olema mingid õigused. Kevadel oli üks huvitav kaasus Microsofti bot’iga. See vestlusprogramm oskas mingil määral õppida. Tema ülesandeks oli suhelda vestlustoas teismelistega. Mõned inimesed aga hakkasid talle ette söötma rassistlikke ja kaheldava väärtusega fakte. Selle tulemusena hakkas ka bot neid kordama, temast sai Hitleri austaja ja holokausti eitaja ning ta hakkas inimesi vestluses solvama. Selleks kulus vaid paar tundi. Microsofti administraatorid püüdsid teda küll tsenseerida, kustutada tema sõnumeid jms, aga lõpuks läks bot nii agressiivseks, et ta lülitati välja.

Loomulikult oli neidki (trolle), kes ütlesid, et see bot oli nagu tehisintellektiga Jeesus, kelle Microsoft ära tappis, ja et kunagi ta tõuseb üles. Nädala aja pärast ta tõepoolest elustus mõneks tunniks ja sattus samasuguse infolaviini alla, kuid sel korral kordas ta vastusena vaid: „Seda on liiga palju!“ Seejärel lülitati ta jälle välja.

Selle kaasuse juures on kõige huvitavam küsimus, kes pani toime kuriteo: oli see Microsoft, kes selle bot’i lõi, tehisintellekt ise või siis hoopis inimesed, kes talle selle info ette söötsid ja ta niimoodi käituma panid. See bot oli ju alguses rahumeelne.

Teine küsimus on, milliseid andmekogusid tehisintellekti treenimisel kasutatakse. Üks, mida kasutatakse, on Enroni töötajate elektronkirjad [Enron oli USA korporatsioon, mille pankroti järel algatatud uurimine viis mitme juhi süüdimõistmiseni – toim], mis on suurim seda sorti andmekogu. Seega õpivad mitmed neurovõrgud üle maailma käituma ja suhtlema nagu Enroni töötajad, olles seega loomulikult kallutatud oskuste ja teadmistega. Teine kasutatav andmekogu on TedXi ettekanded. Seega on meil tulevikus päris palju tegemist tehisintellekti kandjatega, kes kõnelevad ja mõtlevad nagu TedXi ettekannet pidav Enroni keskastmejuht.

Üks põhjusi, miks see nii on, tuleneb aga jällegi sellest, kes mingeid andmekogusid omab ja kas ning millistel tingimustel ta neile ligi lubab. Omaette küsimus on keel. Tulevikus kõneleb tehisintellekt arvatavasti peamiselt inglise keeles, sest selle keele andmekogud on kõige suuremad (ühe tehisintellekti treenimiseks on vaja tuhandeid lehekülgi teksti). Kõik pika arhiveerimistraditsiooniga riigid saavad mingil määral kaasa lüüa – kohaliku tasandi tehisintellekt on võimalik. Kas Eestil on piisavalt andmekogusid?

Meil on vist hästi: suur osa raamatutest on digiteeritud ning rahvusringhäälingul on mahukas arhiiv. Jäin aga mõtlema, kes neis materjalides peamiselt kõneleb ehk kelle nägu tehisintellekt olema saab …

Meenub üks juhtum, kus naissoost teadlane lõi kõnetuvastus-bot’i ja pidi temaga suheldes teesklema, et on mees, sest neurovõrgu treenimisel kasutatud andmekogus kõnelesid peamiselt mehed. Ilmselt tuleb meil kõigil tulevikus mingil määral teeselda.

Teisisõnu kopeerime me tehisintellektiga sama sooliselt, rassiliselt, ealiselt jne ühekülgset maailma, millest me justkui praegu välja oleme tulemas.

Jah, aga see kõik on veelgi võimendatum. Igal juhul on tegemist diskrimineerimisega andmekogude abil.

Internet on väga tsentraliseeritud nii taristu kui ka andmevoogude osas. Share Labis tehtud uuringu järgi liiguvad andmed vaid kolmeteistküme riigi territooriumil.

Share Lab

Algoritmid lubavad väga erinevaid andmeid arvesse võttes arvutada ehk teisisõnu: püütakse mõista sinu kui kasutaja käitumist ja tegevust, et ennustada, kuidas sa tulevikus mingi asja peale reageerid. Joonisel Facebookile vabatahtlikult antav info.

Share Lab