Digitaalne eesti keel kogutakse kokku
Eesti keeletehnoloogide koostöös luuakse Eesti Keeleressursside Keskus (EKRK), riikliku tähtsusega teadustaristu, kuhu kogutakse kokku praegu teadus- ja arendusasutustes laiali digitaalne keelevara. Eestikeelseid digitaalseid keeleressursse (sõnastikud, teksti- ja kõnekorpused, keeleandmebaasid) ja -tehnoloogiat on süsteemsemalt arendatud keeletehnoloogia riiklike programmide kaudu 2006. aastast peale ja riigi raha eest saadud tulemused peavad nii teadlastele kui keeletehnoloogia arendajatele võimalikult väikse vaevaga kättesaadavad olema. Keskuse käivitamise plaanid said alguse juba 2008. aastal, mil praeguse IT-kolledži rektori Tiit Roosmaa juhitud projekt osales nii riiklikus programmis „Eesti keele keeletehnoloogiline tugi 2006–2010“ kui ka 7RP konsortsiumprojektis CLARIN (Common Language Resources and Technology Infrastructure). Plaan ise aga kõlab järgmiselt: EKRK keskseid teenuseid pakkuvad serverid hakkavad asuma Tartu ülikooli arvutiteaduse instituudi juures. Keeleressursside loojad ja omanikud saavad seal oma digivara arhiveerida ja majutada, iga repositooriumisse paigutatud ressurssi jaoks lepitakse kokku eraldi kasutuslitsentside tingimused – eelistatakse teadlasi, kuid igapäevasedki keelehuvilised ja tehnoloogia-arendajad saavad esitada päringuid või osalt alla laadida ressursse endid. Eriti soositakse teadlaste kui tavakasutaja võimalusi keeleressursse kasutada ja kombineerida loomaks uusi ressursse ja töötlusvahendeid. Keskuse töötajad omakorda vaevad ressursi dokumenteeritust, kvaliteeti ja vastavust standarditele, et oskaksid teisi kasutajaid ühe või teise ressursi osas nõustada ja harida. Konsortsiumipartnerid Tartu ülikoolist, Küberneetika Instituudist ja Eesti Keele Instituudist aga saavad jooksutada oma suuremat arvutusvõimsust nõudvaid keeletehnoloogilisi ülesandeid otse keskuse serverites. Tartu ülikool on juhtiv asutus korpuste, keeletarkvara ning suhtluse modelleerimise vallas ning neid ressursse töötlevad eeskätt TÜ arvutilingvistika uurimisrühma keeleteadlased ning -tehnoloogid. TTÜ Küberneetika Instituut on juhtiv asutus kõnetehnoloogia alal ja vastavad ressursid töödeldakse sealses foneetika ja kõnetehnoloogia laboratooriumis. Sõnastike ja sõnavaraga seotud ressursid töödeldakse aga valdkonna juhtivas asutuses EKIs.
1. märtsil toimus Tartus keskuse avaüritus, kus keskuse partnerid arutasid omavahel tööplaane, nõukogu pidas oma istungi ja hiljem tutvustati teaduskorraldajatele ja keeletehnoloogiahuvilistele tegevust alustava keskuse eesmärke, tegevussuundi ja teenuseid.
Üritusele andis kaalu ka eelmisel päeval tehtud Euroopa Komisjoni otsus, millega loodi ametlikult kaheksa Euroopa Liidu riigi vahel konsortsiumi kujul ühine keeleressursside ja –tehnoloogia infrastruktuur (CLARIN ERIC, www.clarin.eu). Eestit hakkab selles üle-euroopalises konsortsiumis esindama EKRK .
Koondatud keeleressurssidele pääseb tulevikus ligi portaali www.keeleressursid.ee kaudu. Keskus loodetakse täisvõimsuses käima saada 2015. aasta lõpuks. EKRK tegevust rahastatakse Euroopa Liidu Regionaalarengu Fondi alameetmest „Riikliku tähtsusega teaduse infrastruktuuri kaasajastamine” ja riiklikust programmist „Eesti keeletehnoloogia 2011–2017”.