Keeletegu: nutitelefon tuvastab kõne

Marek Strandberg

Kõnekeel on vahel üsna lohisev ja rõhudki kipuvad triivima. Kas automaatne kõnetuvastus eeldab korrektset kõnelemist või saab tarkvara aru igaühest? Tanel Alumäe: Praegune eesti keele kõnetuvastaja töötab rahuldavalt vaid korrektse kõne puhul. Eesmärk on tuvastada ka kõnekeelt, kuid spontaanse kõne tuvastus ei toimi praegu ka suuremate keelte puhul kuigi hästi. Põhjuseks on asjaolu, et spontaanne kõne on väga varieeruv ja mitmetähenduslik, pealegi spontaanse kõne korpuste loomine (mille põhjal masina spontaanset kõnet tuvastama „õpetada” saaks) on kallis, aeganõudev ning seotud eetiliste probleemidega. Spontaanse kõne tuvastusega on seotud ka see nüanss, et kõnekeel kõlab kirjapanduna tavaliselt umbes nagu maadevahetuse kohtuasjaga seoses avaldatud Reiljani-Annuse telefonikõned (s.t üsna labaselt, kõnelejatest sõltumata). See ei tähenda sugugi, et kõnekeele tuvastus mõttetu oleks. Näiteks heal tasemel kõnekeele tuvastus hõlbustaks koosolekute ja muude suhtlussituatsioonide salvestustest huvitavate kohtade leidmist. Kõne- ja keeletehnoloogia üks tulevikurakendus on automaatne koosolekuprotokollide koostamine. Selleks on vaja hästi toimivat kõnekeele tuvastust, kõnekeele kirjakeeleks teisendajat, automaatset sisukokkuvõtete genereerijat ja palju muid komponente.

Mida siis kõnes tuvastatakse ja kuidas see toimub, et sellest tekst saaks?

Alumäe: Kõnetuvastuses kasutatakse statistilisi mudeleid, mille parameetrid leitakse automaatselt suurte kõneandmebaaside põhjal. Kõneandmebaasis on paljude inimeste häälenäiteid koos lausetele vastava transkriptsiooniga. Keeruliste algoritmide abil saab häälenäited tekstis olevate sõnadega hääliku tasemel ajaliselt joondada. Sellise joonduse põhjal saab koostada mudeli, mis iseloomustab iga hääliku akustilisi iseärasusi. Lisaks sellele kasutatakse kõnetuvastuses keelemudelit, mis määrab selle, millised on keeles esinevad sõnad ja kuidas neid omavahel kombineeritakse. Keelemudeli „õpetamiseks” on vaja suuri tekstikorpusi (näit ajalehetekstid). Keelemudeli abil saab tuvastaja näiteks öelda, et häälikujada /kassaoledvalmis/ vastab lausele „Kas sa oled valmis?”, mitte „Kassa oled valmis?”. Kõnetuvastus toimib nii, et sisendiks olevale lausesalvestusele leitakse kõikvõimalike sõnakombinatsioonide seast selline lause, mis sobib akustiliselt ja keeleliselt sisendiga võimalikult hästi, s.t mille tõenäosus on kõige suurem. Tuvastusvead tekivad seetõttu, et me ei oska hääliku- ja keelemudelit veel piisavalt hästi „õpetada”.

Kas eesti kõnet on lihtsam tekstiks tuvastada kui näiteks inglise keelt, kus häälduse ja kirjapildi vahe suurem?

Alumäe: Häälduse ja kirjapildi sarnasus ei tee kõnetuvastust oluliselt lihtsamaks. Kõnetuvastus opereerib sõnadega. Eesti keele puhul on hääldus tuletatav kirjapildist, inglise keele puhul kasutatakse lihtsalt hääldussõnastikku. Pigem on eesti keele tuvastus keerulisem: eesti keel on grammatiliselt keerukam, lisaks sellele on inglise keele puhul kõneandmebaaside maht, mille abil mudeleid treenida, sadu kordi suurem.

Kui kaugel on see lahendus, et nutitelefoni saab hoida võõrkeelse rääkija suunas ja kuulata tema teksti emakeelset tõlget kõrvaklappides? On selliseid lahendusi juba loodud?

Kaarel Kaljurand: Selliseid lahendusi juba on, nt nutitelefonirakendus Google Translate (eesti keeles on selle rakenduse nimi „Tõlkimine”) võimaldab muu hulgas kõnest kõnesse tõlkimist 14 keele piires. Selline rakendus sisaldab palju keerulisi komponente (kõnetuvastus, masintõlge, kõnesüntees), millest ükski ei tööta praegu 100% täpsusega ning vead kipuvad komponentides kogu süsteemi mõttes võimenduma. Areng ideaali suunas toimub, aga ideaalile lähenedes see aeglustub, seega on raske hinnata, millal on süsteem piisavalt usaldusväärne, et kasutada seda nt suhtluses arsti, äripartneri või piirivalvuriga.

Mitme aasta kaugusel võib olla selline arvutikasutus, nagu nähtud Kubricku „Kosmoseodüsseias”, kus HALi-nimelise arvutiga inimkeeli suheldi?

Kaljurand: Jällegi, tooted nagu Apple’i Siri on juba turul, see tähendab, et suured firmad leiavad juba, et sellised tooted on võimalikud ning kasulikud (ja ostetavad). Areng HALi suunas toimub järk-järgult, aga võimalik, et päris HALini ei jõutagi, polegi ehk vaja jõuda. Näiteks selleks, et rääkida oma autoga läbi parim viis sõitmaks Narvast Kuressaarde, pole vaja teab mis suurt lingvistilist ja teadmiste pagasit. Selline vestlus võib kõlada masinlikult (inimene ütleb soovitud aadressi, masin loeb ette võimalikud teed, inimene kinnitab ühe esitatud variandi, öeldes selle järjekorranumbri), kuid sarnaneb ikkagi inimkeelse dialoogiga palju rohkem kui senised arvutikasutamise viisid (sõrmega nuppudele vajutamine).

Kas rääkivate ja kõnet mõistvate masinatega maailm on inimesele parem paik?

Meie töö eesmärgiks on kindlasti inimesele parema paiga loomine, mitte vastupidi, ja me usume, et kõnelevate masinatega maailm on parem maailmast, kus masinad keelt ei oska, samamoodi kui iseliikuva trepiga maailm on parem maailmast, kus inimene peab oma jõuga üles ronima. Kui inimesed hakkavad masinatega inimkeeles suhtlema, siis muutub keelekasutus ilmselt selgemaks ja ühemõttelisemaks. Kõnest kõnesse tõlkivate masinate tõttu väheneb inimeste vajadus võõrkeelte õppimise järele, kuid suureneb võimalus võrdsel pinnal välismaalastega suhtlemiseks, samal ajal oma keelt ja kultuuri säilitades. Seda loetelu saab hinnata erinevast vaatevinklist. Küllap hindavad tulevikuinimesed, kes kõnelevaid masinaid tegelikult kasutama ja usaldama hakkavad, seda veel omamoodi.

Kui sulle meeldis see postitus jaga seda oma sõpradega

[LoginRadius_Share]
 

Leia veel huvitavat lugemist

Värske Rõhk
Hea laps
LR
Keel ja kirjandus
Akadeemia
Kunstel
Muusika
Õpetajate leht
Täheke
TeaterMuusikaKino
Vikerkaar
Looming