Automatinio vertimo technologija

Kaip mašinos išmoko kalbėti mūsų kalbomis

Prisimenu, kaip prieš kokius dešimt metų bandžiau versti tekstą iš anglų kalbos į lietuvių per Google Translate. Rezultatas buvo tiesiog juokingas – sakiniai neturėjo prasmės, žodžiai buvo sumaišyti, o gramatika atrodė tarsi ją būtų sugalvojęs keturmetis. Šiandien ta pati technologija gali išversti sudėtingą techninį tekstą taip, kad beveik nepastebi skirtumo nuo žmogaus darbo. Kas pasikeitė? Atsakymas glūdi automatinio vertimo technologijos evoliucijoje, kuri per pastaruosius dešimtmečius patyrė tikrą revoliuciją.

Automatinis vertimas – tai ne viena konkreti technologija, o visas spektras metodų ir algoritmų, kurie leidžia kompiuteriams automatiškai versti tekstą ar kalbą iš vienos kalbos į kitą. Nuo pirmųjų primityvių žodynais pagrįstų sistemų iki šiuolaikinių dirbtinio intelekto sprendimų – šis kelias buvo ilgas ir vingiuotas.

Nuo žodynų iki neuronų tinklų

Pirmieji bandymai automatizuoti vertimą prasidėjo dar Šaltojo karo metais, kai JAV vyriausybė norėjo greitai versti rusų mokslinius tekstus. 1954 metais Georgetown universitetas ir IBM pristatė pirmąją automatinio vertimo sistemą, kuri galėjo išversti 60 rusų kalbos sakinių į anglų kalbą. Žmonės buvo sužavėti ir tikėjo, kad per kelerius metus problema bus visiškai išspręsta. Realybė pasirodė daug sudėtingesnė.

Pirmosios sistemos veikė labai paprastai – jos turėjo žodyną ir kelias gramatikos taisykles. Sistema tiesiog ieškodavo kiekvieno žodžio žodyne ir keisdavo jį atitinkamu žodžiu kitoje kalboje. Problema akivaizdi – kalbos nėra paprasti žodžių rinkiniai. Žodžių tvarka, kontekstas, idiomatinės frazės, daugialypės reikšmės – visa tai darė tokį vertimą beveik nenaudojamu.

Tada atėjo statistinio mašininio vertimo era. Devintojo dešimtmečio pabaigoje mokslininkai suprato, kad vietoj bandymo įprogramuoti visas kalbos taisykles, galima leisti kompiuteriui mokytis iš pavyzdžių. Sistema analizuodavo milijonus jau išverstų tekstų ir ieškodavo dėsningumų. Pavyzdžiui, jei angliškame tekste dažnai matydavo frazę “good morning”, o lietuviškame vertimo variante – “labas rytas”, sistema išmokdavo šį atitikmenį.

Kaip dirba šiuolaikinis neuroninis vertimas

Tikrasis proveržis įvyko apie 2016 metus, kai Google ir kiti technologijų gigantai pradėjo naudoti neuroninį mašininį vertimą (NMT – Neural Machine Translation). Tai visiškai kitoks požiūris, paremtas dirbtiniais neuroniniais tinklais, kurie veikia panašiai kaip žmogaus smegenys.

Įsivaizduokite sistemą, kuri neskaido sakinio į atskirus žodžius, o bando suprasti jo bendrą prasmę. Neuroninis tinklas susideda iš dviejų pagrindinių dalių: koduotojo ir dekoduotojo. Koduotojas “perskaito” visą sakinį pradinėje kalboje ir sukuria jo vidinį reprezentavimą – tarsi abstrakčią prasmės esenciją, kuri nebeturi konkretaus kalbinio pavidalo. Tada dekoduotojas paima šią abstrakčią prasmę ir “perrašo” ją tikslinėje kalboje.

Kas iš tikrųjų vyksta giliau? Sistema naudoja dėmesio mechanizmą (attention mechanism), kuris leidžia jai sutelkti dėmesį į skirtingas sakinio dalis verčiant kiekvieną žodį. Pavyzdžiui, verčiant sakinį “The cat sat on the mat” į lietuvių kalbą, sistema supranta, kad “cat” yra veikėjas, todėl reikia naudoti vardininko linksnį, o “mat” yra vietos nurodymas, todėl reikalingas vietininkas. Ji nemato tik atskirų žodžių – ji mato santykius tarp jų.

Transformeriai keičia žaidimo taisykles

2017 metais pasirodė straipsnis “Attention is All You Need”, kuris pristatė transformerių architektūrą. Tai skamba kaip mokslinės fantastikos filmas, bet iš tikrųjų tai buvo revoliucija vertimo technologijoje. Transformeriai leidžia sistemai apdoroti visus sakinio žodžius vienu metu, o ne nuosekliai, kaip darė ankstesnės sistemos.

Praktiškai tai reiškia, kad sistema gali geriau suprasti ilgus sakinius ir sudėtingą kontekstą. Ji gali “atsiminti” informaciją iš sakinio pradžios net verčiant pabaigą. Tai ypač svarbu tokioms kalboms kaip vokiečių, kur veiksmažodis dažnai būna sakinio gale, bet jo forma priklauso nuo to, kas pasakyta pradžioje.

Šiuolaikinės sistemos, tokios kaip GPT ar BERT, yra paremtos būtent transformerių architektūra. Jos mokosi iš milžiniškų tekstų kiekių – kartais kelių šimtų milijardų žodžių. Tokio mokymo procesas gali užtrukti savaites ar net mėnesius net naudojant galingiausius kompiuterius, bet rezultatas yra įspūdingas.

Kodėl kai kurios kalbos verčiamos geriau nei kitos

Jei bandėte versti tekstus tarp skirtingų kalbų porų, tikriausiai pastebėjote, kad rezultatų kokybė labai skiriasi. Anglų-ispanų vertimas paprastai būna puikus, o lietuvių-vietnamiečių – ne toks tikslus. Kodėl taip yra?

Pirmiausia, tai mokymosi duomenų klausimas. Sistema mokosi iš esamų vertimų, o tokių kalbų kaip anglų ir ispanų yra milijonai išverstų dokumentų – nuo oficialių ES dokumentų iki filmų subtitrų. Lietuvių kalba turi mažiau tokių išteklių, o kai kurios egzotiškesnės kalbos – dar mažiau. Tai tarsi bandymas išmokti groti gitara, kai turite tik vieną pamoką, palyginti su tuo, kai turite šimtus.

Antra, kalbų struktūrinis panašumas turi didelę reikšmę. Ispanų ir italų kalbos yra panašios – abi romanų kalbų grupės, su panaše gramatika ir žodžių tvarka. Versti tarp jų lengviau nei tarp, pavyzdžiui, anglų ir japonų, kur skiriasi ne tik žodžiai, bet ir visa sakinio struktūra, rašymo sistema, net kultūriniai kontekstai.

Trečia, kai kurios kalbos yra morfologiškai sudėtingesnės. Lietuvių kalba turi septynis linksnius, tris gimines, daug veiksmažodžių formų. Sistema turi išmokti visus šiuos niuansus, o tai reikalauja daugiau duomenų ir sudėtingesnių modelių.

Realaus laiko vertimas ir jo iššūkiai

Vienas įdomiausių automatinio vertimo pritaikymų yra realaus laiko kalbos vertimas. Įsivaizduokite, kad kalbate telefonu su žmogumi iš kitos šalies, ir kiekvienas girdite vienas kitą savo gimtąja kalba. Tai skamba kaip Star Trek universalusis vertėjas, bet tokia technologija jau egzistuoja.

Realaus laiko vertimas turi spręsti papildomas problemas, kurių nėra verčiant tekstą. Pirma, reikia atpažinti kalbą – paversti garso bangas į tekstą. Tai jau savaime sudėtinga užduotis, ypač kai žmonės kalba su akcentu, yra fono triukšmas ar kelios kalbos vienu metu. Antra, reikia versti greitai – žmonės neturi kantrybės laukti. Trečia, reikia sintetinti kalbą – paversti išverstą tekstą atgal į garsą.

Kiekvienas šių etapų gali pridėti klaidų. Jei kalbos atpažinimas suklysta ir “vėjas” tampa “vėžiu”, vertimas bus neteisingas, net jei pati vertimo sistema veikia puikiai. Todėl šiuolaikinės sistemos bando integruoti visus šiuos komponentus, kad jie galėtų “bendradarbiauti” ir taisyti vienas kito klaidas.

Praktiniai patarimai naudojant automatinį vertimą

Jei naudojate automatinį vertimą darbe ar asmeniniams tikslams, štai keletas patarimų, kaip gauti geriausius rezultatus:

Pirma, rašykite aiškiai ir paprastai. Sudėtingi sakiniai su daugybe šalutinių sakinių dažniau klaidina sistemą. Jei galite išreikšti mintį dviem trumpais sakiniais vietoj vieno ilgo – darykite tai. Sistema geriau susitvarkys su “Vakar buvau parduotuvėje. Ten nusipirkau duonos” nei su “Vakar, kai grįžau iš darbo ir turėjau šiek tiek laiko, nusprendžiau užsukti į parduotuvę, kur nusipirkau duonos”.

Antra, vengkite idiomų ir posakių, jei tekstas skirtas vertimui. “Lieti iš kibiro” angliškai taps “to pour from a bucket”, kas neturi prasmės. Geriau parašyti “labai stipriai lyti”. Taip, tai mažiau spalvinga, bet vertimas bus suprantamas.

Trečia, visada peržiūrėkite automatiškai išverstą tekstą, jei jis svarbus. Automatinis vertimas yra puikus kaip pirmas juodraštis ar greitam supratimui, bet ne galutiniam rezultatui. Ypač atidžiai tikrinkite skaičius, datas, vardus ir techninius terminus – čia klaidos dažniausios.

Ketvirta, naudokite kontekstą. Kai kurios modernios sistemos leidžia nurodyti temą ar sritį (medicinos, teisės, technologijos). Tai padeda sistemai pasirinkti tinkamus terminus. Žodis “cell” medicinos kontekste bus “ląstelė”, o technologijų – “elementas” ar “kortelė”.

Ką ateitis žada vertimo technologijoms

Automatinio vertimo ateitis atrodo dar įdomesnė nei dabartis. Mokslininkai jau dirba prie kelių krypčių, kurios gali vėl pakeisti žaidimo taisykles.

Viena iš jų – daugiakalbiai modeliai, kurie gali versti tarp bet kurios kalbų poros, net jei niekada nematė tiesioginių vertimų tarp jų. Sistema mokosi bendros “kalbos prasmės” reprezentacijos, kuri veikia visoms kalboms. Tai reiškia, kad jei sistema gerai moka versti iš anglų į lietuvių ir iš anglų į vietnamiečių, ji gali išmokti versti iš lietuvių į vietnamiečių, net jei niekada nematė tokių vertimų pavyzdžių.

Kita sritis – konteksto išsaugojimas ilguose tekstuose. Dabartinės sistemos dažniausiai verčia sakinį po sakinio, kartais pamirštamos ankstesnės informacijos. Ateities sistemos galės “atsiminti” visą dokumentą ir naudoti šią informaciją geresniam vertimui. Jei pradžioje minimas “Jonas”, vėliau vartojamas įvardis “jis”, sistema žinos, apie ką kalbama.

Taip pat kuriamos sistemos, kurios gali mokytis iš mažiau duomenų. Tai ypač svarbu retesnėms kalboms ar specifinėms sritims. Vietoj milijonų sakinių, sistema galės išmokti iš tūkstančių ar net šimtų pavyzdžių, naudodama vadinamąjį “transfer learning” – žinių perkėlimą iš kitų kalbų ar sričių.

Kai technologija sutinka žmogų

Nepaisant visų technologinių proveržių, automatinis vertimas vis dar nėra tobulas ir greičiausiai niekada nebus. Kalba yra daugiau nei tik žodžiai ir gramatika – tai kultūra, kontekstas, emocijos, subtilūs niuansai. Kai poetas rašo eilėraštį, jis žaidžia su garsais, ritmu, dviprasmybėmis. Kai diplomatas formuluoja pareiškimą, kiekvienas žodis yra atidžiai parinktas dėl savo konotacijų. Tokius dalykus mašina gali tik apytiksliai atkartoti.

Bet tai nereiškia, kad automatinis vertimas yra nenaudingas. Priešingai – jis demokratizuoja prieigą prie informacijos. Žmogus iš Lietuvos gali skaityti japonų mokslinius straipsnius, brazilų naujienas, norvegų literatūrą. Tai nėra tobulas vertimas, bet tai geriau nei nieko. O profesionaliems vertėjams ši technologija tampa įrankiu, kuris leidžia jiems dirbti greičiau ir efektyviau, sutelkiant dėmesį į tuos aspektus, kur žmogaus sprendimas yra būtinas.

Automatinio vertimo technologija tebevysta, mokydamasi iš milijardų žodžių ir milijonų žmonių sąveikų. Kiekvienas kartas, kai ištaisote klaidą Google Translate ar pasirenkate geresnį vertimo variantą, jūs prisidedate prie šios sistemos tobulinimo. Tai technologija, kuri auga kartu su mumis, mokydamasi iš mūsų kalbos įvairovės ir sudėtingumo. Ir nors ji niekada nepakeis žmogaus vertėjo poezijoje ar diplomatijoje, ji jau dabar keičia tai, kaip milijardai žmonių bendrauja, mokosi ir supranta vienas kitą šiame daugiakalbėje pasaulyje.