Kai balso asistentas atsirado mūsų kišenėse
Prisimenu, kaip 2011-aisiais draugas parodė savo naująjį iPhone 4S ir paklausė telefono „Koks oras bus rytoj?”. Telefonas atsakė! Ne kokia nors robotine sintezuota kalba, o gana natūraliai. Tada tai atrodė kaip mokslinės fantastikos filmas. Dabar Siri yra milijonų žmonių kišenėse, laikrodžiuose, kompiuteriuose ir garsiakalbių sistemose. Bet kaip iš tikrųjų veikia ši technologija, kuri atrodo tokia paprasta, kai ją naudoji?
Siri – tai ne vienas daiktas ar programa. Tai sudėtinga kelių technologijų sistema, kuri dirba kartu, kad suprastų, ką sakote, nustatytų, ko norite, ir pateiktų atsakymą ar atliktų veiksmą. Visas procesas vyksta per kelias sekundes, o už kulisų įvyksta tikras technologinis stebuklas.
Kaip jūsų balsas keliauja į serverius ir atgal
Kai pasakote „Hey Siri” arba ilgai palaikote namų mygtuką (senesnėse iOS versijose), jūsų įrenginys pradeda klausytis. Bet štai įdomybė – pats „Hey Siri” atpažinimas vyksta vietoje, jūsų telefone, nenaudojant interneto ryšio. Apple įdiegė specialų mažo galingumo procesorių, kuris nuolat klausosi šių dviejų žodžių. Tai padaryta taip, kad telefonas nereikštų nuolat siųsti visko, ką girdite, į Apple serverius. Privatumas, žinote.
Kai sistema atpažįsta aktyvavimo frazę, įsijungia pagrindinis mikrofonas ir pradeda įrašinėti jūsų komandą. Šis garso įrašas konvertuojamas į skaitmeninį formatą ir užšifruojamas. Tada jis siunčiamas per internetą į Apple duomenų centrus. Taip, dauguma Siri funkcijų reikalauja interneto ryšio, nors naujausiose iOS versijose kai kurie dalykai (pvz., laikmačio nustatymas ar muzikos paleidimas) gali veikti ir neprisijungus.
Apple serveriuose įvyksta pagrindinis darbas. Galingi kompiuteriai analizuoja jūsų balso įrašą naudodami kalbos atpažinimo algoritmus. Šie algoritmai buvo treniruoti milijardais valandų garso įrašų įvairiomis kalbomis, akcentais ir intonacijomis. Sistema bando suprasti ne tik žodžius, bet ir kontekstą – ar tai klausimas, komanda, ar prašymas.
Dirbtinis intelektas, kuris bando jus suprasti
Kai jūsų žodžiai paverčiami tekstu, prasideda tikrasis iššūkis – suprasti, ko iš tikrųjų norite. Čia į žaidimą įsijungia natūralios kalbos apdorojimo (NLP) technologijos. Tai dirbtinio intelekto šaka, kuri specializuojasi žmogaus kalbos analizėje.
Siri naudoja mašininio mokymosi modelius, kurie analizuoja jūsų sakinį ieškodami raktinių žodžių, veiksmažodžių ir objektų. Pavyzdžiui, jei pasakote „Paskambink mamai”, sistema identifikuoja veiksmą (skambinti), objektą (mama) ir supranta, kad „mama” yra kontaktas jūsų telefono knygoje. Skamba paprasta, bet realybėje žmonės kalba labai nevienareikšmiškai.
Štai kur tampa įdomu – Siri bando suprasti kontekstą iš ankstesnių pokalbių. Jei prieš tai klausėte „Koks oras Paryžiuje?”, o po to pasakote „O kaip ten su restoranais?”, sistema supranta, kad „ten” reiškia Paryžių. Ši kontekstinio suvokimo technologija nuolat tobulinama, nors kartais vis dar pasitaiko juokingų nesusipratimų.
Apple taip pat naudoja tai, ką vadina „on-device learning” – mokymąsi įrenginyje. Jūsų iPhone ar iPad stebi, kaip naudojate programas, kokius kontaktus dažniausiai renkate, kokias vietas lankote. Ši informacija lieka jūsų įrenginyje ir padeda Siri geriau suprasti jūsų įpročius ir poreikius, nesiųsdama šių duomenų į Apple serverius.
Kas vyksta po to, kai sistema jus supranta
Kai Siri nusprendžia, ko norite, ji turi tai įvykdyti. Čia prasideda trečioji proceso dalis – veiksmo atlikimas. Priklausomai nuo užklausos, sistema gali:
Kreiptis į įvairias paslaugas ir duomenų bazes. Orų prognozėms, sporto rezultatams, akcijų kainoms – visa tai ateina iš išorinių šaltinių, su kuriais Apple turi partnerystes. Kai kuriems dalykams naudojamas net Wolfram Alpha – galingas skaičiavimo variklis, galintis atsakyti į sudėtingus matematinius ir mokslinius klausimus.
Valdyti jūsų įrenginį tiesiogiai. Siri gali atidaryti programas, keisti nustatymus, siųsti žinutes, kurti priminimus. Tai įgyvendinama per specialias programavimo sąsajas (API), kurias Apple suteikė trečiųjų šalių programų kūrėjams. Dabar galite pasakyti Siri užsakyti taksi per Uber ar siųsti žinutę per WhatsApp.
Generuoti atsakymą. Jei klausiate bendro pobūdžio klausimo, Siri turi suformuluoti atsakymą. Ankstesnėse versijose atsakymai buvo iš anksto parašyti šablonai. Dabar sistema gali generuoti kintamus atsakymus, naudodama natūralios kalbos generavimo technologijas.
Balsas, kuris skamba beveik žmogiškai
Kai atsakymas paruoštas, jį reikia paversti garsu. Čia įsijungia kalbos sintezės technologija. Seniau kompiuteriai kalbėdavo robotiškai, nes tiesiog sujungdavo iš anksto įrašytus garsų fragmentus. Dabar viskas daug sudėtingiau ir įdomiau.
Apple naudoja gilųjį mokymąsi pagrįstą kalbos sintezę. Sistema buvo treniruota su tikrų žmonių balsais, įrašinėjusiais dešimtis tūkstančių sakinių. Dirbtinis intelektas išmoko, kaip žmonės taria skirtingas raides skirtinguose kontekstuose, kaip keičiasi intonacija, kur daromi pauzės, kaip skamba emocijos.
Rezultatas – Siri balsas skamba gana natūraliai, su tinkamomis pauzėmis ir intonacijomis. Galite net pasirinkti skirtingus balso variantus ir akcentus. Naujausiose versijose Apple pristatė „Neural TTS” (Neural Text-to-Speech) – dar pažangesnę sistemą, kuri sukuria dar natūralesnius garsus.
Įdomu tai, kad visas šis kalbos sintezės procesas taip pat vyksta Apple serveriuose, o ne jūsų telefone. Sugeneruotas garso failas siunčiamas atgal į jūsų įrenginį ir paleidžiamas per garsiakalbį. Visa ši kelionė – nuo jūsų žodžių iki Siri atsakymo – paprastai užtrunka 1-3 sekundes.
Privatumo klausimas, kuris daugeliui rūpi
Vienas didžiausių klausimų apie balso asistentus – kas vyksta su mūsų duomenimis? Apple gana daug kalba apie privatumą ir teigia, kad Siri sukurta atsižvelgiant į tai.
Pirma, kaip minėjau, „Hey Siri” atpažinimas vyksta vietoje. Antra, kai jūsų balso įrašas siunčiamas į serverius, jis nėra tiesiogiai susietas su jūsų Apple ID. Vietoj to naudojamas atsitiktinis identifikatorius, kuris keičiamas kas šešis mėnesius. Teoriškai tai reiškia, kad Apple negali sukurti jūsų balso užklausų profilio.
Trečia, Apple teigia, kad nedaug Siri įrašų saugo ilgesniam laikui. Dauguma jų ištrinami iškart po apdorojimo. Tik maža dalis (anoniminė) gali būti saugoma sistemų tobulinimui. Ir galite išjungti šį dalyvavimą tobulinime nustatymuose.
Bet reikia būti sąžiningiems – jei naudojate balso asistentą, tam tikru mastu pasitikite kompanija. Jūsų balsas vis tiek keliauja į jų serverius. Apple reputacija privatumo srityje yra geresnė nei kai kurių konkurentų, bet jokia sistema nėra tobula. 2019-aisiais kilo skandalas, kai paaiškėjo, kad Apple rangovai klausėsi kai kurių Siri įrašų kokybės tikrinimui. Po to Apple pakeitė politiką ir padarė šį procesą tik pasirenkamą.
Kodėl kartais Siri nesupanta ir ką su tuo daryti
Nors technologija įspūdinga, Siri tikrai ne tobula. Kartais ji nesupanta net paprastų dalykų, o kartais daro tokių klaidų, kad tik galvą kraipai. Kodėl taip nutinka?
Pirmiausia, kalbos atpažinimas vis dar turi ribų. Jei kalbate su akcentu, triukšmingoje aplinkoje, ar tiesiog greitai ir neaiškiai – sistema gali neteisingai atpažinti žodžius. Lietuvių kalba Siri palaikoma tik nuo 2020-ųjų, ir palyginti su anglų kalba, kuri tobulinama jau dešimtmetį, mūsų kalbos atpažinimas dar turi daug kur tobulėti.
Antra, konteksto supratimas vis dar ribotas. Siri gali prisiminti vieną-du ankstesnius pokalbius, bet sudėtingesnė kontekstinė kalba ją glumina. Jei pokalbis tampa per daug niuansuotas, sistema paprasčiausiai nebesusigaudo.
Trečia, Siri funkcionalumas priklauso nuo integracijos su kitomis sistemomis. Jei kažkokia paslauga neturi API arba Apple su ja nėra sudarę partnerystės, Siri tiesiog negalės su ja dirbti. Tai ne technologijos problema, o verslo sprendimų pasekmė.
Ką galite padaryti, kad Siri geriau veiktų? Keletas praktinių patarimų:
Kalbėkite aiškiai ir normaliu tempu. Nereikia šaukti ar kalbėti robotiškai, bet ir mumzėti sau po nosimi nepadės.
Formuluokite užklausas paprastai ir tiesiogiai. Vietoj „Gal galėtum man pasakyti, kiek dabar laiko Niujorke?”, geriau tiesiog „Kiek valandų Niujorke?”.
Naudokite Siri dažniau. Sistema mokosi iš jūsų įpročių, tad kuo daugiau naudojate, tuo geriau ji prisitaiko.
Patikrinkite nustatymus. Įsitikinkite, kad Siri įjungta jūsų kalbai, kad mikrofonas veikia gerai, ir kad suteikėte reikiamus leidimus.
Kaip Siri keičia mūsų santykį su technologijomis
Žvelgiant į ateitį, balso sąsajos tampa vis svarbesniu būdu bendrauti su technologijomis. Jau dabar daugelis žmonių greičiau paklaus Siri nei ieškos Google. Vairuojant, gaminant maistą, ar tiesiog kai rankos užimtos – balsas yra natūralus ir patogus būdas valdyti įrenginius.
Apple nuolat tobulina Siri. Naujausiose iOS versijose matome geresnius atsakymus, greitesnį apdorojimą, daugiau funkcijų veikiančių be interneto. Integracijos su HomeKit leidžia valdyti išmanųjį namą balsu. Siri Shortcuts suteikia galimybę sukurti sudėtingas automatizacijas, kurias galima paleisti viena fraze.
Bet galbūt svarbiausia – Siri ir panašūs asistentai keičia mūsų lūkesčius. Pradedame tikėtis, kad technologijos mus supras, prisitaikys prie mūsų, o ne atvirkščiai. Tai stumia visą pramonę link intuityvesnių, žmogui draugiškesnių sąsajų.
Žinoma, yra ir iššūkių. Privatumo klausimai niekur nedingsta. Priklausomybė nuo interneto ryšio gali būti problema. Ir vis dar yra daug situacijų, kai tradicinės sąsajos veikia geriau nei balso komandos.
Technologija, kuri kadaise atrodė kaip fantastika, dabar yra kasdienybė. Siri veikimas – tai sudėtinga kelių technologijų simfonija: kalbos atpažinimas, dirbtinis intelektas, natūralios kalbos apdorojimas, duomenų bazės, kalbos sintezė. Visa tai dirba kartu, kad galėtumėte paprasčiausiai paklausti savo telefono „Kada kitas autobusas?” ir gauti atsakymą. Ir nors sistema dar ne tobula, ji nuolat mokosi ir tobulėja, kaip ir visi geri asistentai turėtų.

