Balso atpažinimo technologija

Kai kompiuteris išmoksta klausytis

Prisimenu, kaip prieš kokius dešimt metų bandžiau diktuoti tekstą kompiuteriui – rezultatas buvo tiesiog katastrofiškas. Programa suprato gal pusę žodžių, o sakiniai atrodė kaip kokio roboto kosmaras. Dabar gi galiu pasakyti telefonui „paskambink mamai” ir jis tiesiog tai padaro. Kas pasikeitė? Viskas.

Balso atpažinimo technologija – tai ne koks naujas išradimas. Bandymai sukurti mašinas, kurios suprastų žmogaus kalbą, prasidėjo dar praėjusio amžiaus viduryje. Tačiau tik pastarąjį dešimtmetį ši technologija tapo tikrai naudinga paprastam žmogui. Šiandien ji yra mūsų telefonuose, namuose, automobiliuose ir net šaldytuvuose. Bet kaip tai iš tikrųjų veikia?

Nuo garso bangų iki suprantamų žodžių

Kai jūs kalbate į mikrofoną, vyksta tikra technologinė magija. Pirmiausiai jūsų balso bangos paverčiamos elektriniais signalais – tai daro pats mikrofonas. Bet čia prasideda įdomiausia dalis.

Sistema turi atlikti kelis sudėtingus žingsnius. Pirmiausia ji išfiltruoja foninį triukšmą – automobilio garsus, vėjo ūžesį, šuniuko lojimą fone. Tai nėra paprasta, nes programa turi atskirti, kas yra jūsų balsas, o kas – aplinkos garsai. Modernios sistemos tai daro stebėtinai gerai, naudodamos specialius algoritmus, kurie „išmoko” atpažinti žmogaus balso charakteristikas.

Toliau sistema skaido jūsų kalbą į mažesnius gabalėlius – fonemas. Fonema – tai mažiausias garso vienetas kalboje. Lietuvių kalboje jų yra apie 50, anglų – apie 44. Pavyzdžiui, žodis „katė” susideda iš fonemų k-a-t-ė. Sistema analizuoja kiekvieną iš šių garsų atskirai.

Dirbtinis intelektas įsijungia į darbą

Senesnės balso atpažinimo sistemos veikė pagal griežtas taisykles – jos turėjo užprogramuotus šablonus, kaip skamba kiekvienas žodis. Problema buvo ta, kad žmonės kalba labai skirtingai. Skirtingi akcentai, intonacijos, kalbėjimo greitis – visa tai darė atpažinimą beveik neįmanomą.

Viskas pasikeitė, kai į žaidimą atėjo mašininis mokymasis ir dirbtiniai neuroniniai tinklai. Dabar sistemos nebemėgina sekti griežtomis taisyklėmis – jos mokosi iš milijonų valandų įrašytos žmogių kalbos. Įsivaizduokite, kad sistema „klausėsi” milijonų žmonių kalbančių skirtingomis kalbomis, skirtingais akcentais, skirtingose situacijose. Ji pamažu išmoksta atpažinti šablonus ir suprasti, kaip žodžiai skamba realiame gyvenime.

Šiuolaikinės sistemos naudoja taip vadinamus „giliuosius neuroninius tinklus” (deep neural networks). Tai daugiasluoksnės struktūros, kurios apdoroja informaciją panašiai kaip žmogaus smegenys. Pirmieji sluoksniai atpažįsta paprasčiausius garsus, viduriniuojantys – fonemas ir skiemenis, o paskutiniai – visus žodžius ir net kontekstą.

Kodėl jūsų telefonas supranta jus geriau nei prieš penkerius metus

Jei naudojate Siri, Google Assistant ar Alexa, tikriausiai pastebėjote, kad šie asistentai nuolat tobulėja. Tai vyksta dėl kelių priežasčių.

Pirma, jūsų duomenys (anonimizuoti, bent jau teoriškai) padeda sistemai mokytis. Kiekvieną kartą, kai naudojate balso komandą, sistema gauna grįžtamąjį ryšį – ar ji teisingai suprato, ar ne. Jei pasakėte „skambink Petrui” ir pasirinkote Petrą iš kontaktų sąrašo, sistema supranta, kad teisingai atpažino. Jei iš karto ištaisėte – ji mokosi iš klaidos.

Antra, procesoriai tapo galingesni. Jūsų telefone dabar yra specialūs AI čipai, skirti būtent tokioms užduotims atlikti. Tai reiškia, kad daug apdorojimo gali vykti tiesiog jūsų kišenėje, o ne tik debesyse.

Trečia, sistemos tapo kontekstualios. Jei paklausite „Koks oras Vilniuje?”, o po to „O kaip ten rytoj?”, sistema supranta, kad „ten” reiškia Vilnių. Ankstesnės sistemos būtų visiškai pasimetusios.

Iššūkiai, kurie vis dar egzistuoja

Nors technologija padarė milžinišką šuolį, ji vis dar nėra tobula. Yra keletas dalykų, su kuriais sistemos vis dar kovoja.

Akcentai ir dialektai lieka problema. Jei kalbate su stipriu regioniniu akcentu ar mišinate kelias kalbas viename sakinyje (kas Lietuvoje labai įprasta – pusė sakinio lietuviškai, pusė angliškai), sistema gali sutrinkti. Tai ypač aktualu mažesnėms kalboms kaip lietuvių – mokymo duomenų tiesiog yra mažiau nei, pavyzdžiui, anglų kalbai.

Triukšminga aplinka vis dar kelia problemų. Nors sistemos gerai filtruoja foninį triukšmą, labai triukšmingoje vietoje – pavyzdžiui, koncerte ar statybvietėje – atpažinimas vis dar gali būti prastas.

Homonimų problema – žodžiai, kurie skamba vienodai, bet rašomi skirtingai. Sistema turi suprasti kontekstą, kad žinotų, ar kalbate apie „pilį” (pastatą) ar „pili” (veiksmą). Dažniausiai tai pavyksta, bet ne visada.

Kur visa tai naudojama šiandien

Balso atpažinimas jau seniai peržengė paprastų komandų telefone ribas. Medicinos srityje gydytojai diktuoja diagnoses ir receptus – tai sutaupo daugybę laiko. Teisėsaugoje stenografai naudoja pažangias sistemas teismo posėdžių užrašymui. Automobilių pramonėje balso valdymas tampa saugumo standartu – galite keisti muziką ar skambinti nenuimdami rankų nuo vairo.

Labai įdomus panaudojimas yra kalbų mokymasis. Programos gali analizuoti jūsų tarimą ir pasakyti, kur darote klaidas. Tai kaip turėti asmeninį mokytoją, kuris niekada nenuvargsta ir neerzinasi.

Prieinamumo srityje ši technologija keičia žmonių gyvenimus. Žmonės su regos negalia gali valdyti įrenginius balsu. Žmonės su judėjimo sutrikimais gali diktuoti tekstus vietoj rašymo. Tai ne tik patogu – tai suteikia nepriklausomybę.

Privatumas ir kas klausosi jūsų pokalbių

Čia prasideda šiek tiek nejauki tema. Kai jūsų namų asistentas nuolat „klauso”, laukdamas aktyvavimo žodžio („Ok Google”, „Alexa” ir pan.), kas tiksliai vyksta su tais duomenimis?

Techninė pusė tokia: įrenginys nuolat analizuoja garsus, bet iš tikrųjų „klauso” tik aktyvavimo žodžio. Visa kita turėtų būti ignoruojama ir neįrašoma. Tačiau yra buvę atvejų, kai sistemos klaidingai aktyvuodavosi ir įrašinėdavo privačius pokalbius.

Didžiosios technologijų kompanijos teigia, kad duomenys yra šifruojami ir anonimizuojami. Bet realybė yra sudėtingesnė. Kai kurie įrašai vis dar peržiūrimi žmonių – taip sistemos mokosi ir tobulėja. Nors teoriškai tai turėtų būti anonimizuota, visada yra rizika.

Praktinis patarimas: daugelis įrenginių turi fizinį mikrofono išjungimo mygtuką. Jei kalbatės apie jautrias temas, tiesiog jį išjunkite. Taip pat reguliariai peržiūrėkite ir trinkite savo balso įrašų istoriją – dauguma platformų leidžia tai padaryti.

Ateitis jau čia, bet dar neatėjo iki galo

Balso atpažinimo technologija per pastarąjį dešimtmetį nušoko nuo „beveik nenaudojamos” iki „kasdienės realybės”. Bet kelionė dar nebaigta. Artimiausiu metu matysime dar tikslesnius algoritmus, kurie geriau supras kontekstą, emocijas ir net sarkazmą (kas yra itin sudėtinga).

Realaus laiko vertimas jau dabar veikia gana gerai, bet ateityje galėsite kalbėti lietuviškai, o jūsų pašnekovas Japonijoje girdės japoniškai – beveik be vėlavimo. Tai skamba kaip mokslinė fantastika, bet technologija jau yra – tik reikia ją patobulinti.

Emocijų atpažinimas – sistema galės suprasti ne tik ką sakote, bet ir kaip sakote. Ar esate piktas, liūdnas, ironiškas? Tai atvers naujas galimybes klientų aptarnavime, psichologinėje pagalboje ir daugelyje kitų sričių.

Svarbiausia suprasti, kad ši technologija nėra kažkas atskirta nuo mūsų. Ji mokosi iš mūsų, tobulėja kartu su mumis ir tampa vis labiau integruota į kasdienį gyvenimą. Ar tai gerai, ar blogai – priklauso nuo to, kaip mes ją naudojame ir kontroliuojame. Viena aišku – atgal kelio nėra. Balso sąsaja tampa tokia pat natūralia kaip lietimui jautrus ekranas ar pelė. Galbūt ateityje vaikai stebėsis, kaip mes galėjome gyventi be galimybės tiesiog pasakyti įrenginiui, ko norime.