Skip to content
Главная " IT ir technologijos " Audiobook technologija

Audiobook technologija

Kai knygos pradėjo kalbėti

Prisimenu, kaip vaikystėje močiutė skaitydavo man pasakas prieš miegą. Jos balsas, intonacijos, pauzės – visa tai darė istorijas gyvas. Dabar, keliaujant į darbą perpildytame autobuse ar bėgant parke, galiu klausytis sudėtingų romanų ar mokslinių veikalų. Audioknygos tapo tuo tiltu tarp senojo pasakojimo meno ir šiuolaikinių technologijų.

Audioknygų technologija – tai ne tik įrašytas tekstas. Tai sudėtinga sistema, apimanti garso įrašymo technikas, skaitmeninį apdorojimą, suspaudimo algoritmus ir platinimo platformas. Nuo pirmųjų vinilo plokštelių su įrašytais kūriniais iki dabartinių dirbtinio intelekto generuojamų balsų – šis kelias buvo ilgas ir įdomus.

Nuo vinilo iki skaitmeninių srautų

Pirmosios audioknygos atsirado dar XX amžiaus pradžioje, kai Thomas Edison’as įsivaizdavo, kad jo fonografas bus naudojamas ne tik muzikai, bet ir knygoms. Tačiau tikrasis audioknygų amžius prasidėjo 1930-aisiais, kai Amerikos aklųjų fondas pradėjo gaminti “kalbančias knygas” neregių bendruomenei.

Tada naudoti vinilo diskai buvo didžiuliai ir nepatogūs – viena knyga galėjo užimti keliolika plokštelių. Vėliau atsirado kasetės, kurios revoliucionizavo rinką. Staiga audioknygą galėjai klausytis automobilyje, naudojant paprastą kasetinį grotuvą. Tai buvo 1970-1980-ieji, kai audioknygos tapo komerciniu produktu.

CD eroje kokybė pagerėjo, bet vis tiek viena knyga užimdavo kelis diskus. Tikrasis proveržis įvyko, kai atsirado MP3 formatas ir skaitmeninės platformos. Staiga visa biblioteka tilpo į mažytį grotuvą ar telefoną.

Kaip sukuriamas garsas, kurį girdime

Šiuolaikinės audioknygos gamyba – tai tikras menas ir mokslas viename. Procesas prasideda studijoje, kur profesionalus diktorius ar net pats autorius skaito tekstą. Studijos yra specialiai izoliuotos nuo išorinio triukšmo – sienos padengtos garso sugeriančiomis medžiagomis, o mikrofonai kainuoja tūkstančius eurų.

Diktorius dirba su tekstu kaip aktorius su scenarijumi. Jis turi suprasti kiekvieną personažą, jų emocijas, kontekstą. Geras diktorius gali keisti balsą skirtingiems veikėjams, sukurti įtampą ar švelnumą vien intonacija. Įrašymo sesija gali trukti savaites – vidutiniškai 300 puslapių knygai reikia apie 20-30 valandų studijoje.

Po įrašymo prasideda redagavimas. Garso inžinieriai pašalina kvėpavimo garsus, kosėjimus, užsirikimus. Sulyginamas garsumas, kad klausytojas nenustebintų, kai vienas skyrius skamba garsiau už kitą. Pridedamas subtilus fonas ar muzika, jei tai tinka knygos stilistikai.

Suspaudimo magija ir garso kokybė

Čia prasideda tikroji technologinė magija. Neapdorotas audioknygos įrašas gali užimti kelis gigabaitus. Kad jį būtų galima patogiai saugoti ir transliuoti internetu, reikia suspaudimo.

MP3 formatas, kurį visi pažįstame, veikia klastingu principu – jis pašalina tuos garso dažnius, kurių žmogaus ausis paprastai negirdi arba girdi prastai. Tai vadinama “psichoakustiniu” suspaudimu. Pavyzdžiui, jei vienu metu skamba du panašūs dažniai, tylesnysis bus pašalintas, nes mes jo vis tiek neišgirstume.

Audioknygoms dažnai naudojamas AAC (Advanced Audio Coding) formatas, kuris dar efektyvesnis. Jis gali suspausti failą 10-15 kartų, išlaikant labai gerą kokybę. Audible platforma naudoja savo proprietarinį formatą, kuris dar labiau optimizuotas būtent kalbai, o ne muzikai.

Įdomu tai, kad kalbai nereikia tokios aukštos kokybės kaip muzikai. Muzikoje svarbūs aukšti dažniai, subtilūs niuansai, o kalboje – aiškumas ir suprantamumas. Todėl audioknygos gali būti suspaustos labiau be kokybės praradimo.

Dirbtinis intelektas ima mikrofoną

Pastaraisiais metais atsirado nauja technologija, kuri daugeliui kelia ir susižavėjimą, ir nerimą – AI generuojami balsai. Įmonės kaip Amazon, Google ir Microsoft sukūrė sistemas, galinčias “skaityti” tekstą beveik natūraliai skambančiu žmogaus balsu.

Technologija vadinama TTS (Text-to-Speech) ir veikia naudojant giliuosius neuroninius tinklus. Sistema “mokoma” naudojant šimtus valandų tikrų žmonių balso įrašų. Ji išmoksta ne tik tarti žodžius, bet ir suprasti kontekstą, kur reikia pauzės, kur pakelti intonaciją, kur pabrėžti žodį.

Amazon Polly ar Google WaveNet gali generuoti tekstą keliasdešimtyje kalbų ir akcentų. Kai kurie balsai skamba taip natūraliai, kad sunku atskirti nuo tikro žmogaus. Bet vis dar yra skirtumas – ypač emocijose ir subtiliuose niuansuose.

Šios technologijos privalumas – kaina ir greitis. Galima “įrašyti” knygą per kelias minutes, o ne savaites. Tai ypač naudinga savarankiškiems leidėjams ar mokslinėms knygoms, kur biudžetas ribotas. Tačiau literatūrinėms knygoms, kur svarbi atmosfera ir emocijos, žmogaus diktorius vis dar neįveikiamas.

Kaip jūsų telefone atsiranda knyga

Kai paspaudžiate “atsisiųsti” ar “groti” audioknygų programėlėje, įvyksta daugybė dalykų. Jei naudojate srautinį perdavimą (streaming), failas nėra pilnai atsisiunčiamas – jis ateina mažais gabalėliais, vadinamais “chunk’ais”.

Sistema veikia panašiai kaip YouTube ar Spotify. Serveris siunčia pirmuosius kelių minučių duomenis, o kol jūs klausotės, fone jau ruošiami kiti gabalėliai. Tai vadinama “adaptive streaming” – sistema prisitaiko prie jūsų interneto greičio. Jei ryšys prastas, kokybė automatiškai sumažinama, kad nebūtų pertraukimų.

Programėlės kaip Audible, Storytel ar Google Play Books naudoja sudėtingus algoritmus, kad optimizuotų bateriją. Garso dekodavimas vyksta specialiame telefono lustе, kuris sunaudoja mažiau energijos nei pagrindinis procesorius. Todėl galite klausytis valandų valandas neperkraudami telefono.

Įdomus dalykas – sinchronizacija tarp įrenginių. Jei klausotės telefone, o paskui perjungiate į planšetę, sistema prisimena tikslią vietą, kur sustojote. Tai veikia per debesų serverius – jūsų pozicija nuolat siunčiama į serverį ir atnaujinama visuose įrenginiuose.

Greičio valdymas ir kitos gudrybės

Viena iš populiariausių audioknygų funkcijų – greičio keitimas. Daugelis žmonių klauso 1.25x ar net 1.5x greičiu. Bet kaip tai veikia techniškai, kad balsas neskambėtų kaip voverė?

Naudojamas algoritmas vadinamas “time stretching” arba laiko tempimas. Jis keičia garso greitį nekeisdamas aukščio (pitch). Tai sudėtingas matematinis procesas, kuris analizuoja garso bangą ir ištempia ar suspaudžia ją išlaikant dažnių proporcijas.

Paprasčiau tariant – sistema “supjausto” garsą į mažytės dalis ir arba praleidi kai kurias (greitinimui), arba dubliuoja (lėtinimui), bet daro tai taip sumaniai, kad ausiai skamba natūraliai. Šiuolaikinius algoritmus, kaip WSOLA (Waveform Similarity Overlap-Add), galima greitinti iki 2x be didelio kokybės praradimo.

Kita naudinga funkcija – miego laikmatis. Techniškai tai paprasta – programėlė tiesiog sustabdo grojimą po nustatyto laiko. Bet protingesnės sistemos stebi jūsų klausymo įpročius ir gali net atsikelti 30 sekundžių atgal, nes dažnai užmiegate ne tiksliai kai laikmatis išsijungia.

Ką ateitis žada mūsų ausims

Audioknygų technologija nesnaudžia. Jau dabar eksperimentuojama su erdviniu garsu (spatial audio), kur skirtingi personažai “skamba” iš skirtingų krypčių. Įsivaizduokite dialogą, kur vienas veikėjas kalba iš kairės, kitas iš dešinės – tai sukuria visiškai naują įsitraukimo lygį.

Dirbtinio intelekto technologijos tobulės dar labiau. Jau kuriamos sistemos, kurios gali ne tik skaityti tekstą, bet ir pritaikyti emocijas pagal kontekstą. Ateityje galbūt galėsime pasirinkti, kokiu balsu norime klausytis knygos – vyriškų, moteriškų, su akcentu ar be jo.

Personalizacija taps dar svarbesnė. Sistemos mokysis jūsų klausymo įpročių ir siūlys knygas ne tik pagal žanrą, bet ir pagal tai, kokiu paros metu, kur ir kaip klausotės. Galbūt net pritaikys tembrą ar greitį pagal jūsų nuotaiką, kurią nustatys per kitus telefono sensorus.

Interaktyvios audioknygos – dar viena kryptis. Ypač vaikų literatūroje jau matome eksperimentus, kur klausytojas gali rinktis siužeto kryptį, atsakyti į klausimus, spręsti mįsles. Techniškai tai sudėtinga, bet visiškai įmanoma su dabartinėmis technologijomis.

Kai technologija tarnauja istorijai

Grįžtant prie esmės – visa ši technologija egzistuoja vienam tikslui: perduoti istorijas. Nesvarbu, ar tai vinilo plokštelė iš 1950-ųjų, ar naujausias AI generuotas balsas – tikslas tas pats, kurį turėjo mano močiutė skaitydama pasakas: įtraukti, sužavėti, perduoti žinias ar emocijas.

Audioknygų technologija demokratizavo literatūrą. Žmonės su regos negalia, disleksija ar tiesiog užsiėmę gyvenimo ritmu dabar gali mėgautis knygomis. Vairuotojai, sportininkai, namų ruošos darbų entuziastai – visi gali “skaityti” daugiau nei bet kada anksčiau.

Technologija nuolat tobulėja, bet svarbiausia išlieka turinys. Geriausi suspaudimo algoritmai nepagelbės prastai parašytai knygai, o tobuliausi AI balsai nepakeis gero pasakojimo. Technologija – tai tik įrankis, kuris padeda mums pasiekti tai, kas tikrai svarbu: istorijas, žinias, emocijas.

Taigi kitą kartą užsidėję ausines ir paspaudę “play”, prisiminkite – už tų kelių megabaitų duomenų slypi šimtmečių technologinė evoliucija, sudėtingi algoritmai ir, svarbiausia, amžinas žmogaus troškimas pasakoti ir klausytis istorijų.