Przejdź do treści
Strona główna " IT ir technologijos " Išmaniųjų garso asistentų veikimas

Išmaniųjų garso asistentų veikimas

Kai balsas tampa komanda

Prisimenu, kaip prieš keletą metų draugas parodė, kaip jo namuose muzika įsijungia vien jam paprašius. Atrodė kaip mažas stebuklas – tiesiog pasakai „paleisk džiazą”, ir štai jau kambaryje skamba Miles Davis. Dabar tokia technologija tapo kasdienybe milijonams žmonių visame pasaulyje. Išmanieji garso asistentai įsikūrė mūsų namuose, telefonuose ir net automobiliuose, tačiau kaip iš tikrųjų veikia ši technologija, kuri atrodo beveik magiškai?

Išmanusis garso asistentas – tai programinė įranga, kuri gali atpažinti žmogaus kalbą, suprasti jos prasmę ir atlikti įvairias užduotis pagal balso komandas. Tai ne vienas įrenginys ar programa, o sudėtinga sistema, kurioje dirba kartu kelios technologijos: kalbos atpažinimas, dirbtinis intelektas, internetiniai servisai ir garsiakalbiai. Populiariausi tokie asistentai – Amazon Alexa, Google Assistant, Apple Siri ir Microsoft Cortana – nors skiriasi detalėmis, veikia panašiais principais.

Nuo garso bangų iki skaitmeninių duomenų

Viskas prasideda nuo mikrofonų. Išmaniajame garsiakalblyje ar telefone įmontuoti labai jautrūs mikrofonai nuolat „klausosi” aplinkos. Bet nesijaudinkite – jie ne visada įrašinėja viską, ką sakote. Įrenginys laukia specialaus „pažadinimo žodžio” – tai gali būti „OK Google”, „Alexa” arba „Hey Siri”. Ši pirmoji atpažinimo dalis vyksta pačiame įrenginyje, nenaudojant interneto ryšio, todėl jūsų privatūs pokalbiai nekeliauja į debesis.

Kai mikrofonai pagauna garsą, jis yra analoginis signalas – tiesiog oro virpesiai. Įrenginys tuos virpesius paverčia skaitmeniniais duomenimis, kuriuos galima apdoroti. Šis procesas vyksta labai greitai, tūkstančius kartų per sekundę matuojant garso bangos amplitudę. Gautieji duomenys suformuoja savotišką garso „nuotrauką”, kurią galima analizuoti.

Įdomu tai, kad prieš siunčiant duomenis tolesniam apdorojimui, įrenginys atlieka pirmąjį filtravimą. Jis bando atskirti žmogaus balsą nuo fono triukšmo – veikiančios skalbimo mašinos, televizoriaus ar gatvės garsų. Modernūs garsiakalbiai turi kelis mikrofonus, išdėstytus skirtingose vietose, ir naudoja vadinamąją „beamforming” technologiją, kuri leidžia „sutelkti dėmesį” į garsą, ateinantį iš konkrečios krypties.

Kai mašina išmoksta suprasti žmogų

Po to, kai įrenginys išgirsta pažadinimo žodį, prasideda tikrasis darbas. Jūsų balso įrašas keliauja į gamintojo serverius – galingus kompiuterius, kuriuose veikia sudėtingos kalbos atpažinimo sistemos. Kodėl ne pačiame įrenginyje? Nes tokiam apdorojimui reikia milžiniškos skaičiavimo galios ir prieigos prie didžiulių duomenų bazių.

Serveriuose dirba neuroninio tinklo modeliai – tai dirbtinio intelekto atmaina, kuri buvo „išmokyta” klausantis milijonų valandų žmonių kalbos įrašų. Šie modeliai gali atpažinti ne tik žodžius, bet ir akcentus, tarimo ypatumus, net emocijas balse. Jie veikia panašiai kaip mūsų smegenys – atpažįsta šablonus ir dėsningumus, nors tikslus mechanizmas gerokai skiriasi.

Kalbos atpažinimo sistema neieško tiesiog atitikmenų žodynuose. Ji naudoja statistinius modelius, kurie apskaičiuoja tikimybę, kad tam tikra garsų seka atitinka konkretų žodį. Pavyzdžiui, jei sistema išgirsta garsus, panašius į „pa-lei-sti”, ji apskaičiuoja, ar tai greičiausiai „paleisti”, „palaisti” ar gal koks kitas žodis, atsižvelgdama į kontekstą. Jei prieš tai buvo paminėta muzika, tikimybė, kad tai „paleisti”, yra daug didesnė.

Nuo žodžių iki prasmės

Atpažinti žodžius – tai tik pusė darbo. Dabar sistema turi suprasti, ko iš jos norima. Čia įsijungia natūralios kalbos apdorojimo (NLP) technologijos. Jos analizuoja sakinio struktūrą, ieško raktinių žodžių ir bando nustatyti jūsų ketinimą.

Pavyzdžiui, sakydami „Koks oras bus rytoj Vilniuje?”, jūs iš tikrųjų duodate kelias informacijas: norite sužinoti orų prognozę (ketinimas), jus domina rytojaus diena (laikas) ir Vilniaus miestas (vieta). Sistema išskaido jūsų užklausą į šiuos komponentus ir supranta, kad reikia kreiptis į orų prognozės servisą su konkrečiais parametrais.

Modernūs asistentai taip pat moka palaikyti kontekstą. Jei po pirmosios užklausos paklausite „O porit?”, sistema supranta, kad kalbate apie tą patį miestą ir vis dar domitės oru. Tai pasiekiama saugant trumpalaikę pokalbio istoriją ir analizuojant ją kartu su nauja užklausa.

Kai asistentas pradeda veikti

Supratusi, ko norite, sistema turi atlikti veiksmą. Čia įsijungia įvairūs integruoti servisai ir API (programavimo sąsajos). Jei prašote paleisti muziką, asistentas jungiasi prie Spotify, YouTube Music ar kito muzikos serviso. Jei norite užsisakyti taksi – prie Uber ar Bolt. Jei valdyti šviesas namuose – prie išmaniųjų lemputių sistemos.

Kiekvienas toks veiksmas vyksta per iš anksto sukurtus ryšius tarp asistento ir išorinių servisų. Pavyzdžiui, Google Assistant gali turėti prieigą prie jūsų Google Calendar, todėl gali pridėti įvykius ar priminti apie susitikimus. Amazon Alexa turi tūkstančius „įgūdžių” (skills) – tai kaip programėlės, kurias galite įjungti, kad asistentas galėtų bendrauti su konkrečiais servisais.

Kai kurie veiksmai vyksta vietiškai – pavyzdžiui, garsumo reguliavimas ar muzikos pauzė. Bet dauguma sudėtingesnių užduočių reikalauja interneto ryšio. Todėl, jei dingsta internetas, jūsų išmanusis asistentas staiga tampa gerokai kvailesnis – gali atlikti tik paprasčiausias komandas.

Kaip jie mokosi ir tobulėja

Vienas įdomiausių dalykų apie išmaniuosius asistentus – jie nuolat mokosi. Kiekvieną kartą, kai naudojatės asistentu, jūsų sąveikos duomenys (dažniausiai anonimizuoti) gali būti naudojami sistemos tobulinimui. Jei sistema neteisingai supranta tam tikrą žodį ar frazę, ir tai pasikartoja daug kartų su skirtingais vartotojais, inžinieriai gali pataisyti modelius.

Kai kurie gamintojai leidžia pasiklausyti ir įvertinti, kaip asistentas atsakė į jūsų užklausas. Galite pažymėti, kad atsakymas buvo neteisingas ar nepatenkino jūsų lūkesčių. Ši grįžtamoji informacija labai vertinga – ji padeda moksleiviams ir inžinieriams suprasti, kur sistema klysta ir kaip ją patobulinti.

Be to, asistentai mokosi iš jūsų įpročių. Jei kiekvieną rytą 7 valandą klausiate orų prognozės, sistema gali pradėti siūlyti šią informaciją automatiškai. Jei dažnai klausotės tam tikro muzikos stiliaus, asistentas geriau supras, ką turite omenyje sakydami „paleisk kažką gero”. Šis personalizavimas vyksta naudojant mašininio mokymosi algoritmus, kurie analizuoja jūsų elgesio šablonus.

Privatumas ir saugumo klausimai

Negaliu nepaminėti vienos svarbiausių temų, kuri daugelį žmonių jaudina – ar išmanieji asistentai mus šnipinėja? Atsakymas yra sudėtingesnis nei paprastas „taip” ar „ne”.

Techniškai, įrenginys nuolat „klausosi”, bet ne įrašinėja. Jis laukia pažadinimo žodžio, ir tik tada pradeda siųsti duomenis į serverius. Tačiau būna klaidų – kartais sistema gali suprasti, kad išgirdo pažadinimo žodį, nors jo nebuvo. Tada ji gali įrašyti ir išsiųsti fragmentą jūsų pokalbio. Visi pagrindiniai gamintojai dabar leidžia peržiūrėti ir ištrinti tokius įrašus.

Jei jus jaudina privatumas, galite imtis kelių žingsnių. Pirma, daugelis įrenginių turi fizinį mikrofono išjungimo mygtuką – kai jis paspaustas, niekas negali klausytis, net jei programinė įranga būtų nulaužta. Antra, galite reguliariai tikrinti ir trinti savo balso įrašų istoriją gamintojo programėlėje ar svetainėje. Trečia, galite apriboti, kokią informaciją asistentas gali pasiekti – pavyzdžiui, neleisti jam matyti jūsų kontaktų ar buvimo vietos istorijos.

Svarbu suprasti, kad duomenų rinkimas nėra vien blogis. Būtent dėl to, kad sistemos gali mokytis iš realių vartotojų sąveikų, jos tapo tokios tikslios ir naudingos. Bet kiekvienas turime teisę nuspręsti, kiek privatumo esame pasirengę paaukoti dėl patogumo.

Ką ateitis žada balso technologijoms

Išmanieji asistentai jau dabar įspūdingi, bet tai tik pradžia. Artimiausiais metais matysime dar didesnį šuolį. Naujos kartos modeliai, tokie kaip didelės kalbos modeliai (LLM), leidžia asistentams vesti daug natūralesnius pokalbius. Jie gali suprasti sudėtingesnius klausimus, prisiminti ilgesnes pokalbių istorijas ir net šiek tiek „samprotauti”.

Jau dabar galime matyti, kaip balso asistentai integruojasi į vis daugiau įrenginių. Automobiliai, šaldytuvai, veidrodžiai, net akiniai gali turėti įmontuotus asistentus. Ateityje galbūt nereikės net sakyti pažadinimo žodžio – sistema supras iš konteksto, kada kreipiatės į ją, o kada tiesiog kalbatės su šeimos nariais.

Kitas didelis žingsnis – daugiakalbystė ir realaus laiko vertimas. Įsivaizduokite, kad galite kalbėti lietuviškai, o jūsų asistentas automatiškai verčia į anglų kalbą skambinant užsienio draugui. Arba keliaujate Japonijoje ir galite normaliai bendrauti su vietiniais, nors nemokate nė žodžio japoniškai – asistentas verčia abiem kryptimis realiu laiku.

Taip pat matome judėjimą link didesnio privatumo. Nauji įrenginiai turi galingesnius procesorius, kurie gali atlikti vis daugiau kalbos apdorojimo vietiškai, nesiųsdami duomenų į debesis. Tai reiškia greitesnius atsakymus ir mažesnę riziką jūsų privatumui.

Kai technologija tampa kasdieniu bendražygiu

Išmanieji garso asistentai – tai ne tik patogus būdas valdyti įrenginius ar gauti informaciją. Jie keičia tai, kaip sąveikaujame su technologijomis. Vietoj to, kad mokytumės sudėtingas sąsajas, mygtukus ir meniu, tiesiog kalbame natūralia kalba. Tai ypač svarbu vyresnio amžiaus žmonėms ar žmonėms su negalia, kuriems tradicinės sąsajos gali būti sudėtingos.

Žinoma, technologija dar nėra tobula. Asistentai kartais nesugeba suprasti akcentų, painiojasi su homofonais (žodžiais, kurie skamba vienodai, bet rašomi skirtingai), arba tiesiog neturi pakankamai konteksto, kad suprastų, ko iš tikrųjų norite. Bet kiekvienais metais jie tampa protingesni, greitesni ir naudingesni.

Jei dar nenaudojate išmaniojo asistento, rekomenduoju išbandyti – daugelyje telefonų jie jau įdiegti iš gamyklos. Pradėkite nuo paprastų dalykų: paprašykite nustatyti laikmatį, kai gaminate, arba paleisti mėgstamą dainą. Pamažu atrasite vis daugiau būdų, kaip asistentas gali palengvinti kasdienį gyvenimą. O supratę, kaip ši technologija veikia, galėsite ją naudoti sąmoningiau ir saugiau.