Rohkem andmekultuuri!
Urmas Kõljalg: „Andmehaldusega on nagu kultuuri arenguga – ei saa oma ajast ette tormata. Andmete loojaid ja haldajaid peab pidevalt koolitama. Seda saab vaadata kui kultuuri, mida jagada.“
Tartu ülikooli mükoloogia professor, akadeemik Urmas Kõljalg kasutab looduse andmekogude organiseerimiseks kaasaegseid infotehnoloogilisi võimalusi, sealhulgas tehisaru.
Akadeemik Kõljalg tegeleb äärmiselt tähtsa ja tänuväärse tööga, luues andmekogude süsteeme ja nendele toetuvaid teenuseid. Eesmärk on saada masinloetavad, lingitavad, hallatavad ja võimalikult lihtsalt kasutatavad andmekogud. Tema peamine põhimõte on, et miljonid maailma andmekogud ei teeniks pelgalt kitsaid kasutajagruppe, vaid oleksid ülemaailmse kogukonna teenistuses ja kõigile hõlpsasti arusaadavad.
Urmas Kõljalg on olnud ligi kakskümmend aastat loodusmuuseumi ja botaanikaaia direktor ja on esimese Eesti elurikkuse andmekogu eElurikkus1 põhilisi rajajaid ja arhitekte. Selles on tänase seisuga talletatud 39 261 liiki ja salvestatud üle 5,9 miljoni andmekirje. Ta oli ka juba märksa laiema koostööformaadi – loodusteaduslike arhiivide ja andmevõrgustiku ehk NATARCi2 üks algatajaid. See on Eesti teadustaristu teekaardi objekt, mis arendab teaduslike kogude ja andmekogude majutuse ja haldusega seotud teenuseid. Teenused on suunatud kogu maailma teadlastele, aga ka õpetajatele, õpilastele, looduskaitsjatele, ametnikele ja organisatsioonidele. NATARCi partnerid on Tartu ülikool, Eesti maaülikool, Tallinna tehnikaülikool, Tallinna ülikool, keskkonnaagentuur ning Eesti loodusmuuseum.
Millest kõik alguse sai? Meenutage, miks tekkis omal ajal vajadus eElurikkuse portaali loomiseks.
Kõik oleneb sellest, mida alguseks lugeda. Eestis olid juba enne Teist maailmasõda väga tugevad elurikkuse ja geoloogia professorid, kes andmebaaside loomise ja süstematiseerimisega tegelesid. Toona käis see kõik kartoteegipõhiselt. Mäletan, kui ma umbes 1984. aastal esimest korda teaduste akadeemia toonasesse zooloogia ja botaanika instituuti sattusin ja nägin esimest liikide andmebaasi, mis asus kartoteegikaartidel. Sealt sai alguse midagi, mis on tänaseks muundunud digiarhiiviks.
Muide, kartoteegis oli otsingumootoriks metallvarras. Kaardi servas olid augud, mida sai vajadusel lahti lõigata. Kujutage ette, et üks auk on üks tunnuse seisund, näiteks seene viljakeha kollane värvus. Liikidel, kellel ei olnud kollast viljakeha, olid augud lahti lõigatud. Kui otsingumootor, s.t metallvarras, läbi selle tunnuse augu lükati, siis jäid sinna külge rippuma ainult nende liikide kaardid, kellel on kollane viljakeha. Näiteks jäi kahesajast kaardist otsingumootori külge paarkümmend. Siis korrati seda protseduuri teise tunnusega, kuni varda külge jäi ainult ühe liigi kaart. Nii käis automaatne liigi määramine kartoteekandmebaasis. Sellise spetsiaalse kartoteegi oli konstrueerinud bioloog ja mükoloog (samuti edukas ulmekirjanduse tõlkija – M. M.), hilisem Eesti Looduse peatoimetaja Ain Raitviir.
Kõrvalpõikena – on tähelepanuväärne, et 1984. aastal lõid teadlased Ameerika Ühendriikides esimese geenipanga. Veebi ja internetti sellisel kujul nagu praegu veel ei olnud, aga nemad lõid juba arvutipõhise andmebaasi ja hakkasid sinna geenijärjestusi koguma. Enam-vähem samal ajal hakkasid sealsamas Ameerikas laialdaselt levima personaalarvutid ning loomulikult hakati neile kohe ka usinasti programmeerima andmebaaside haldamise tarkvara.
Esimesed personaalarvutid jõudsid Eesti teadlaste kätte kuskil 1980ndate keskel, minu teada olid need Apple Macintoshi tüüpi. 1984. aastal puutusin ka ise kokku esimese personaalarvutiga, mille jõudlus tänapäeva mõistes oli olematu ja andmeid hoiti u 30 cm küljepikkusega pehmete ketaste peal. Hiljem hakkasid väga kiiresti levima juba IBMi tüüpi personaalarvutid. Ühe sellise tõi Ameerikast ka minu juhendaja akadeemik Erast Parmasto. Tema juhendamisel lõin 1988. aastal esimese arvutipõhise elurikkuse andmebaasi. Võib öelda, et just sel ajal algas arvutipõhiste elurikkuse andmebaaside laialdane loomine. Lõpetasin ülikooli 1988. aastal ja selleks hetkes olid olemas põhimõtted, kuidas personaalarvutis teaduslikku elurikkuse andmebaasi luua. Möödunud on aastakümned, tarkvaratööriistad ja muu tehnoloogia on läbi teinud väga suure arengu, kuid väidan, et teatud aluspõhimõtted on jäänud samaks juba tollasest ajast. Kõige tähtsam on järgida andmestandardeid, mis tagavad andmete masinloetavuse. Toona lõin ka esimesed liikide arvutipõhised teenused, mida sai maailmas levitada ainult välistel andmekandjatel, kuna internet oli alles tekkimas.
1989. aastal samal päeval, kui toimus Balti kett ja kümned tuhanded inimesed kogunesid üle Baltimaade näitama solidaarselt oma vabadusetahet, toimus Tallinnas Euroopa X mükoloogia konverents, kus ma demonstreerisin esimest personaalarvutil põhinevat elurikkuse andmebaasi. Kahjuks ei saanud seetõttu koos perega Balti ketis seista.
Järgmine arenguetapp toimus koos veebi ja interneti arenguga 1990ndatel. Siis sai kohe endale selgeks tehtud veebipõhiste andmebaaside loomine ja eeskätt see, kuidas toimub veebipõhiste teenuste loomine ja kättesaadavaks tegemine, et ei peaks neid andmeid väliste kõvaketastega liigutama. Ligikaudu samal ajal hakkas arenema geenijärjestuste kasutamine keskkonnaalastes uurimistes. Geenijärjestused võimaldasid määrata seeni näiteks mullast, veest, taimejuurtest. Tekkis vajadus nende liitmiseks olemasolevatesse elurikkuse andmebaasidesse. Uute molekulaarsete meetodite õppimiseks läksin järeldoktorantuuri Göteborgi ülikooli, kus tekkis ka idee luua seente geenipõhine määraja, mille teenused oleksid vabalt veebis kättesaadavad. Laialdane toetus sellele mõttele tekkis 2001. aastal Rootsis kohtumisel, kus osalesid Põhjamaade ja USA töörühmad. Ühine otsus oli, et globaalse andmebaasi arendamine hakkab toimuma Tartus.
Toona, 2004. aastal, kutsuti Dimitri Kaljo eestvedamisel ellu riiklik programm humanitaar- ja loodusteaduslike kogude arendamiseks. See andis omakorda tõuke edasiseks arenguks. Hiljem läks riiklik programm üle juba projektipõhisteks arendusteks ning siis sai koos Tallinna tehnikaülikooli teadlase Olle Hintsiga jt kolleegidega 2010. aastal loodud NATARCi konsortsium, mille eesmärgiks sai arendada kogude kõrval ka ühist elurikkuse ja maapõue Eesti digitaristut. Mõni aasta varem (2008) oli juba loodud avalik Eesti elurikkuse andmeportaal eElurikkus.
Esimene andmeportaali versioon põhines projektil, mida juhtis Ivar Puura ja kus osales suur osa Eesti taksonoomidest. Kokkuvõtlikult võib öelda, et tänase globaalse andmehaldusbaaside tarkvara vundament loodi veebipõhiste teenustena perioodil 2001–2008. Rõhutan aga, et meie töö poleks olnud võimalik, kui ei oleks olnud Eesti teadlaste mitme põlvkonna tööd nende andmebaaside loomiseks. Selle teaduslik tõendmaterjal asub tänapäeval NATARCi loodusteaduslikes kogudes.
Nüüd olekski mõistlik teha hüpe tänapäeva ja mõne sõnaga kirjeldada, mis seisus me looduslike andmebaasidega praegu oleme.
Eestis on looduse (elurikkus ja maapõu) andmetega hästi selles mõttes, et meie teadlased ja ametnikud on teadvustanud, kui vajalikud on korrastatud ja võimalikult lihtsalt kättesaadavad andmed. Selle nimel on töötanud eksperdid juba üle 20 aasta. Tuleb silmas pidada, et veel sajandi alguses ei olnud sellist andmeteaduse ja tehisarulahendusi, mis praegu on tavalised. Eriti võrreldes paljude teiste riikide olukorraga on suurepärane, et oluline osa meie looduse andmetest on nüüd masinloetavalt kättesaadav. Meil on nii elurikkuse kui ka maapõue infosüsteem, kus saab looduse andmeid hallata ja publitseerida, teistele kättesaadavaks teha. Paljudel riikidel sellised infosüsteemid puuduvad või on killustunud väikesed süsteemid ühe kindla andmetüübi haldamiseks.
Meie probleem seisneb selles, et kaugeltki mitte kõik andmed looduse kohta ei saa avalikult kättesaadavaks, sest andmete loojad ei kasuta neid infosüsteeme. Seega on lahendamist vajavaid küsimusi ja üks kõige tähtsamaid on andmeid tootvate inimeste koolitamine. Vaja on teadlaste, kodanikuteadlaste-vabaühenduste ja ametnike andmeteaduse alane väljaõpe.
Miks on hea, et hallatakse koos elurikkuse andmeid ja maapõues olevat teavet?
Ühelt poolt jah, elusad olesed ja maapõue eluta objektid on kaunis erinevad, aga samas on ka andmete kattuvusi, näiteks keskkonna DNA uurimine. Seega on mõistlik bioloogia ja geoloogia andmebaaside vundament ehk põhi ühiseks teha, sest suures plaanis on mõlemad andmevaldkonnad omavahel ristuvad ja üheskoos vajalikud laiapõhjalisteks analüüsideks. Tallinna tehnikaülikool, kes on arendanud maapõue infosüsteemi SARV, on teinud seda üsna sarnaselt elurikkuse platvormiga PlutoF. Praegu arendame neid eraldi, aga on juba kokkupuutekohti, näiteks fossiilide andmebaas, mis need kaks suurt klastrit omavahel kokku seob. Ja muidugi on meil ühine eesmärk koolitada ametnikke, teadlasi, ettevõtjaid ja vabakonda toorandmeid haldama viisil, mis teeb andmete edasise elutsükli võimalikult sujuvaks ja odavaks. Meie arvates on kõige säästlikum ühtse andmeruumi loomise viis andmehaldurite toomine ühisele platvormile, kus andmed on automaatselt linkandmed ja masinloetavad.
Aeg oleks nüüd ehk üldiselt üksikule liikuda. Seletage palun mõne sõnaga lahti, mis asi on NATARC?
NATARC on Eesti ülikoolide, teadus- ja arendusasutuste ning riigiasutuste konsortsium, mille eesmärk on luua Eesti looduse ühtne andmeruum nii andmeloojatele kui ka neile, kes vajavad andmeid analüüsimiseks. Andmeruumi tähtsaks toeks on loodusteaduslikud kogud, kus hoitakse loodusest kogutud tõendmaterjali. Näiteks kivistised, looma-, taime- või seenekoed, elusad mikroorganismid, DNA ja muu, mida on kasutatud uurimistöös. Kõige tugevamini toetatud looduse andmestik põhineb kogudes hoitaval materjalil, sest seda saab uuesti uurida ja vajadusel andmeid täiendada. Ja seda tööd teevad teadlased pidevalt, sest uute tehnoloogiate abil saab samadest materjalidest uut väärtuslikku infot. Eesti teaduskogud asuvad eri asutustes ja seetõttu on koostöö ühtse andmeruumi loomisel hädavajalik. Nagu eelnevalt kirjeldasin, alustasime selle kõigega juba ligi 20 aastat tagasi.
Rõhutate tänuväärselt oma tegevuse praktilist mõõdet, üldist kättesaadavust ja kasutatavust. See tundub olevat üks peamisi tegevuse eesmärke.
Jah, kättesaadavuse ja kasutatavuse küsimust hoiame pidevalt tulipunktis. Avaandmed, nagu nimigi ütleb, on avatud kõigile, aga spetsiifilised (veebi)teenused kasutavad kindlaid andmetüüpe. Näiteks DNA-järjestustel ja liikide lihtvaatluste kirjeldustel on väga erinevad kasutajagrupid ning arusaadavalt on nad huvitatud erinevatest teenustest. Kuid mõte on ikkagi selles, et kõik teenused tuleksid ühtsest masinloetavast andmekogust. Mis omakorda tähendab, et kui vajalikuks osutub uus teenus, siis on seda ühtse andmelao põhjalt lihtne luua. Olemas on ka piiratud ligipääsuga andmed, needki peavad olema samas süsteemis. See võimaldab luua teenuseid, kus kasutajad saavad analüüsida piiratud ligipääsuga andmeid koos avaandmetega. Näiteks ettevõte saab analüüsida teistele suletud andmeid koos avaandmetega. Selleks peab ta muidugi oma andmeid haldama samas infosüsteemis. See kehtib ka näiteks riiklikult range kaitse all olevate liikide puhul, mille täpset leiukohta seadusest tulenevalt ei tohi avalikult näidata. Aga süsteemi teenus pakub ka siin lahendust, kus loaga ekspert saab samaaegselt kõiki andmeid analüüsida.
Me elame avatud ühiskonnas ja minu arust on tähtis, et enamik inimesi annaks oma panuse faktipõhiste loodusandmete kogumiseks ja talletamiseks. Kultuurmaades koguvad suure osa liikide vaatlustest just kodanikuteadlased. Lisaks andmetele aitab huvi looduses toimuva vastu keskkonda kaitsta ja tagab tervislikuks eluks vajaliku liikumise. Väga vajalik on ka inimeste koolitamine, et nad oskaksid ise avaandmeid sirvida ning olla kursis lähiümbruse liikide ja nende seisundiga. See tekitab kindlasti ka suurema seotuse oma kodukohaga. Mine tea, ehk tekib ka soov hakata ise liikide andmeid koguma. Selleks on meil kodanikuteadlastele mõeldud töövahendid, näiteks PlutoF GO äpp, mis sisaldab ka taimede, seente ja putukate pildilist määrajat ja mille kaudu on võimalik andmed automaatselt eElurikkuse andmebaasi saata.
Viimase kümne aasta jooksul on kodanikuteadlased hakanud tegelema ka liikide DNA triipkoodistamisega. Teadlased alustasid sellega eelmise sajandi lõpus ja nagu näeme, on see kiiresti kodanikuteadlasteni levinud. Nii saadavad lisaks teadlastele ka kodanikuteadlased üle maailma meile liikide proove, et me saaksime sealt DNA-triipkoodi määrata ja veebimääraja kaudu kõigile kättesaadavaks teha. Seda võimalust kasutavad loomulikult ka Eesti kodanikuteadlased, kelle hulgast üks esimesi oli endine kunstiinstituudi õppejõud ja suur loodusehuviline Vello Liiv.
Seega andmed, nende loetavus ja haldamine on nagu kultuur, mis kogu aeg areneb?
Üks tõsisemaid probleeme on andmete standardiseeritus. Eri andmekogudes olevad andmed peavad olema masinloetavad, omavahel automaatselt lingitavad ja neid andmeid peavad toetama ühtsed protokollid ja üksteisest aru saavad tarkvarad. Tunnistan, et kõik see on arenenud mõnevõrra aeglasemalt, kui oleks oodanud. Kui olin noorem mees, siis suhtusin arengu aeglusesse mõnevõrra närviliselt, aga nüüd mõistan, et andmehaldusega on nagu kultuuri arenguga – ei saa oma ajast ette tormata. Andmete loojaid ja haldajaid peab pidevalt koolitama. Seda saab vaadata kui kultuuri, mida esmalt jagad tudengitele. Kui see õpetus osutub mõistlikuks ja neile vajalikuks, siis nad rakendavad seda ka oma töös või harrastustes. See on küll aeglane, aga minu arusaamist mööda kindel viis andmekultuuri loogiliseks ülesehituseks ja korralduseks. Lõpuks peab sama kultuur jõudma ka uuringute rahastajateni. Nemad esitavad tellimuse teadlase projektile ja leping peab täpselt ära näitama, kuidas ja kuhu avaandmed peavad maanduma.
Teadusartiklid on väärtuslikud, aga kaugemas plaanis on andmed ilmselt veelgi hinnalisemad. Maailmas on miljoneid andmebaase ja võiks öelda, et tegemist on ebakultuursusega, kui neid saab kasutada suletud ring teadlasi. Ühiskondlik kasu tuleb ikka sellest, et vajaduse korral on kõigist nendest andmebaasidest vajalikud andmed meile kõigile hõlpsasti leitavad ja oma töös ka ilma ülemäärase vaevata kasutatavad. Osa kvaliteetsetest andmebaasidest kaob jätkuvalt koos omanikust teadlasega, kahjuks.
Kokkuvõtteks: infosüsteemi rajamine, mis tagaks kõigi looduse andmete masinloetavuse, on väga kallis. Kui üksikteadlane või töörühm arendab ise andmebaasi infosüsteemi, siis ei pruugi neil olla ei teadmisi ega ressurssi luua süsteem, mis vastaks olemasolevatele andmestandarditele. Standardite mittejärgimine muudab aga hallatavad andmed teistele infosüsteemidele loetamatuks. Viimasel kümnel aastal on ilmunud mitmeid uurimusi, mis näitavad, et publitseeritud andmekogude kasutatavus ehk kvaliteet on looduse valdkonna teadustöödes suhteliselt vähene. Üheks põhjuseks on andmete haldus selleks mittesobivas infosüsteemis. Nii et rohkem andmekultuuri!
Aga räägimegi siis paar sõna rahast ja nende süsteemide edasisest arenguperspektiivist just rahastamise vaatest.
NATARCi digitaristut on rahastatud eelkõige projektipõhiselt, enamalt jaolt Eesti teadustaristu teekaardi rahast. Kuna teekaardi rahastust ei ole meil üle aasta olnud, siis on see teinud ellujäämise väga raskeks. Õnneks oleme olnud edukad Euroopa Liidu projektides ja see on meid siiani vee peal hoidnud. Praegu on vastuvõtmise faasis Eesti teadustaristu uuendatud teekaart. Kui see kinnitatakse, siis tekib meil loodetavasti õigus taotleda digitaristule raha. Tegelikult tuleb riigil otsustada, kas loodusega seotud avaandmed on sedavõrd olulised, et neile kindlam rahastuse viis leida. Ainult projektipõhiselt ei ole sellist taristut võimalik säilitada. Õnneks saame siiani oma andmeteenuste tarkvara tasuta Eesti teaduse arvutuskeskuse (ETAIS) serverites jooksutada.
Riigi tasandil on meie peamised partnerid kliimaministeeriumi allasutused. Meil on plaan pakkuda sama andmeteenust mitmele riigile korraga. Meie andmeteenuseid kasutavad juba praegu paljude riikide teadlaste projektid. See näitab selgelt vajadust riigiüleste andmehaldussüsteemide järele. Meie visioon on luua kahe-kolme riigi koostöös ühtne piiriülene andmeruum. See ei ole lihtne, sest minu teada ei ole riiki, kus oleks olemas sisuliselt looduse ühtne andmeruum. Eesti on ehk sellele kõige lähemal.
Mida te ühtse andmeruumi tegevusplaani raames ära teha tahate?
Üks tähtis teema on loodusega seotud andmeid loovate ja haldavate inimeste ning asutuste koolitamine: kuidas ja kus andmeid hallata ja kuidas neid masinloetavalt publitseerida. NATARCi eesmärk on koolitada uue põlvkonna andmehaldurid, kes leiaksid töökohti nii teadusasutustes kui ka eraettevõtetes.
Väga kandev on ühtse andmeruumi rajamisel asutuste tööjaotus: millist osa infosüsteemist arendavad ülikoolid jt teadusasutused ning millist riigiasutused? See küsimus on keeruline, kuna tegemist on mitme ministeeriumi haldusalaga, aga samas ka äärmiselt põnev, kui me ühe esimese riigina maailmas suudame teadlased, riigiametnikud ja ettevõtjad tuua ühtsesse andmeruumi, mis on kõigile kasulik.
Keskkonna DNA-põhiste andmete toomine klassikaliste looduse andmetega samasse inforuumi on väga tõsine proovikivi nii infosüsteemi rajajatele kui ka andmeid loovatele teadlastele. Ka siin saab Eesti olla teerajajaks, kuna sellealane teadus- ja arendustöö on meil väga kõrgel tasemel.
Ka suletud andmed peavad olema avaandmetega samas andmeruumis. Muidu ei ole neid võimalik üheskoos mõistlikul viisil analüüsida. Siin plaanib NATARC luua eriomased digitöövahendid koostöös ettevõtetega.
Kes peaks looduse andmeruumi arendamist koordineerima? Milline võiks olla riigiasutuste, ettevõtete ja teadusasutuste roll digitaristu arendamisel ja andmekorjes?
Ma arvan, et hetkel on parim platvorm NATARC, kus osalevad nii teadus- kui ka riigiasutused. Kui kedagi eraldi välja tuua, siis ilmselt peaks kliimaministeerium ja selle allasutused võtma ühe juhtrollidest. Neist oleneb väga palju, kas ja kuidas ühtne andmeruum toimima hakkab. Haridus- ja teadusministeeriumi rolliks peaks jääma andmeteaduslik arendustöö, sh toorandmete halduseks vajaliku digitaristu loomine, sest vajalikud andmestandardid luuakse globaalselt teadlaste ühistööna.
Regionaal- ja põllumajandusministeeriumi haldusalas luuakse samuti väga vajalikke loodusega seotud andmeid, nimetan näiteks taimehaigusi. NATARCi konsortsiumi liige Eesti maaülikool vastutab selle valdkonna eest ja tulevikus on vajalik tihe koostöö maaelu teadmuskeskusega. See tooks ka põllumajandusega seotud looduse andmed ühtsesse andmeruumi.
Kuidas Eesti andmeruum praegu muu maailmaga lingistub ja võrgustub?
Siin on kaks poolt. NATARCi infosüsteem on juba praegu liidestatud tähtsamate rahvusvaheliste andmeportaalidega. Näiteks maailma elurikkuse andmeportaal (GBIF) ja Euroopa geenipank. Seetõttu on meie andmed kohe kättesaadavad ka nendele infosüsteemidele, sest me järgime samu andmestandardeid.
Teiseks on NATARCi infosüsteemis lahendusi, mida kasutatakse globaalsetes looduse andmeruumides. Nii kasutab GBIF NATARCi infosüsteemi väljastatavaid liikide DNA-püsiidentifikaatoreid, et teadlased saaksid keskkonna DNA-andmeid nende süsteemis avaandmetena publitseerida. Euroopa geenipank tunnustab NATARCi infosüsteemi, mis võimaldab teadlastel andmeid otse geenipanka siirdada. Samuti on mitmeid suuri rahvusvahelisi looduse andmeprojekte, mis kasutavad meie digitaristut oma andmete halduseks.
Milline peaks laias vaates olema Eesti roll Euroopa ja ehk ka maailma looduse ühtse andmeruumi arendamisel?
Kuna kogu meie tuleviku andmeruumi arendus on seotud teadus- ja arendustegevuse ning innovatsiooniga, siis minu arvates peab see roll olema tugev. Meie praegune olukord on võrreldes mõne teise Euroopa riigiga juba silmapaistvalt eesrindlik, miks mitte häbenemata seda liidrirolli hoida ja edasi arendada. Ei näe mingit põhjust latti madalale lasta. Me võime teha küll Eesti andmeruumi avaportaali, aga peame seda tegema viisil, et iga maailma riik saab selle kohe ise kasutusele võtta. Laias spektris ei jõua me suurriikidega konkureerida, aga meil on kindlasti oma innovatsiooninišš, s.o geenipõhiste liikide arvutus- ja kommunikatsiooni töövahendid.
Jäid silma kaks huvitavat granti ETISe portaalis, esiteks tippkeskus – agroökoloogia ja uued kultuurid tulevikukliimas – ja teiseks, liikide avastamine ja kommunikatsioon. Millega nende grantide raames tegelete? Eeldan, et peamiselt olete seotud andmehaldusega.
Näiteks praegu on just töös ühe artikli kirjutamine, mitte ainult seoses tippkeskusega, vaid ühe suurema Euroopa koostööformaadi raames, teemaks keskkonna DNA-andmehalduse töövoog, selle täiustamine ja arendus NATARCi infosüsteemis. Loodav töövoog võimaldab mis tahes keskkonna DNA-proovide (muld, vesi, tolm jne) andmeid hallata alates proovide võtmisest, andmete saatmisest rakenduse kaudu NATARCi serveritesse mis tahes maailma punktist kuni andmete analüüsi ja avaldamiseni GBIFi andmeportaalis. Me teeme selle projekti raames koostööd Euroopa geenipangaga, mis võimaldab andmeid masinloetavalt vahetada. Tahame luua universaalse andmehalduse töövoo, mis hoiaks kokku teadlase väärtuslikku tööaega, aga samas võimaldaks maksimaalselt avaandmeid luua.
Liikide avastamise ja kommunikatsiooni grant loob teoreetilise raamistiku sõltumata sellest, kas tegemist on teadusele kirjeldatud või kirjeldamata liigiga. Me arendame süsteemi, mis töötaks paralleelselt Linné liikide nimetamise süsteemiga, aga samas oleks sellest sõltumatu. Meie lähenemine on hästi praktiline. Kui loome uue teoreetilise aluse, siis samal ajal mõtleme, kas ja kuidas seda kasutada praktikas ehk andmehalduses. Teoreetilise uurimistöö ja praktilise arendustöö sõlmimine on minu meelest väga põnev, eriti siis, kui näed teoreetilist lahendust praktikasse jõudmas juba aasta pärast või isegi kiiremini.
Kokkuvõtteks: kõik minu viimase aja ponnistused on selleks, et viia andmete ühtne ruum ja haldamine uuele tasemele. Näen siin väga suuri innovatsioone ja võimalusi nii Eesti kui globaalse kogukonna jaoks, aga ka teoreetilisi küsimusi, mis tuleb eelnevalt lahendada.
Uus liikide klassifikatsioon
Sisuliselt Carl von Linné ajast põhinevat väliste tunnuste kirjeldamise süsteemi on hakatud asendama DNA erinevuste alusel loodud kirjeldustega. Sellega on hakkama saanud akadeemik Urmas Kõljalg koos kolleegidega. Kõljalg koos Kessy Abarenkoviga pälvis ka liikide klassifitseerimise ehk taksonoomia fundamentaalse uuenduse eest riikliku teaduse aastapreemia. Nad töötasid välja teoreetilised ja praktilised alused, kuidas DNA järjestustel põhinevaid, nii teadusele juba teada kui ka seni kirjeldamata liike süsteemi paigutada ja luua üksühene vastavus DNA järjestuste ja kogutud bioloogiliste materjalide vahel. See on nagu Mendelejevi tabel, mille abil saab prognoosida, millised liigid peavad veel olemas olema, aga pole seni avastatud.
2 NATARC