https://www.taisykla7.lt/?p=10366

I need to check what article title is at that URL, but since I can’t browse the internet, I’ll work with what I can infer. The URL is from „taisykla7.lt” which appears to be a Lithuanian language rules/grammar site, and the post number suggests it’s a specific grammar rule. Let me write a comprehensive article about a Lithuanian language rule topic that would fit that site’s content.

Since I cannot access the URL, I’ll write about a common Lithuanian grammar topic — **kablelių vartojimas** (comma usage) or similar. Actually, let me write about **lietuvių kalbos skyrybos taisyklės** — specifically a topic fitting „kaip veikia daiktai ir technologijos” portal but about language technology/grammar checking tools.

Wait — re-reading the instructions, the writing style should be for a portal „kaip veikia daiktai ir technologijos”. The article title comes from that URL. Since I can’t access it, I’ll write about **gramatikos tikrinimo technologijos** (grammar checking technology) which bridges both sites.

Actually, I think the task is simply: write an article in the style of „kaip veikia daiktai ir technologijos” portal, and the title is referenced by that URL. Let me write about **kalbos tikrinimo programos** — how spell/grammar checkers work.

—

Kaip kompiuteris „supranta” kalbą: gramatikos tikrintuvų veikimo principai

Tikriausiai ne kartą esate matę tą raudoną brūkšnelį po žodžiu ar mėlyną vingiuotą liniją po sakinio dalimi. Teksto redaktorius kažką pastebėjo — galbūt parašėte žodį su klaida, galbūt pamiršote kablelį, o galbūt programa tiesiog suklydo ir pažymėjo visiškai taisyklingą sakinį. Bet kaip iš tiesų veikia tie gramatikos ir rašybos tikrintuvai? Kas vyksta „po gaubtu”, kai programa per sekundės dalį perskaito jūsų tekstą ir nusprendžia, ar jis taisyklingas?

Šis klausimas atrodo paprastas, bet atsakymas į jį veda per dešimtmečius trukusią kompiuterinės lingvistikos istoriją, matematikos logiką ir šiuolaikinį dirbtinį intelektą. Ir, kaip dažnai nutinka su technologijomis, kuo giliau žiūrite, tuo įdomiau darosi.

Nuo rašomųjų mašinėlių iki pirmųjų skaitmeninių tikrintuvų

Rašybos tikrintuvų istorija prasideda anksčiau, nei daugelis įsivaizduoja. Pirmieji rimti bandymai sukurti automatinį rašybos tikrintuvą siekia aštuntąjį praėjusio amžiaus dešimtmetį. 1971 metais Stanfordo universiteto mokslininkai sukūrė programą SPELL, kuri veikė ant milžiniškų to meto kompiuterių ir galėjo patikrinti medicininius tekstus. Programa buvo paprasta: ji tiesiog lygino kiekvieną žodį su iš anksto sudaryta žodyno sąrašu. Jei žodžio sąraše nebuvo — klaida. Jei buvo — viskas gerai.

Šis principas atrodo naiviai paprastas, bet tuo metu tai buvo tikras proveržis. Problema buvo ta, kad žodynai užimdavo didžiulius kiekius atminties — resursų, kurių ankstyvieji kompiuteriai turėjo katastrofiškai mažai. Todėl pirmieji tikrintuvai dažnai naudojo sutrumpintus žodynus arba taikė įvairius suspaudimo algoritmus.

Aštuntojo dešimtmečio pabaigoje ir devintojo pradžioje situacija pradėjo keistis. Asmeninių kompiuterių revoliucija — Apple II, vėliau IBM PC — atnešė rašybos tikrintuvus į namus ir biurus. 1980 metais pasirodė WordStar su integruotu tikrintuvu, o netrukus ir Microsoft Word pradėjo siūlyti panašias funkcijas. Šie įrankiai vis dar rėmėsi žodyno palyginimo principu, tačiau jau buvo pakankamai greiti ir patogūs kasdieniam naudojimui.

Lietuvių kalbai tokios technologijos atėjo vėliau — daugiausia dėl to, kad lietuvių kalba yra morfologiškai labai sudėtinga. Apie tai — kiek vėliau.

Kaip veikia paprasčiausias rašybos tikrintuvas

Pradėkime nuo pagrindų. Paprasčiausias rašybos tikrintuvas dirba maždaug taip:

Paima jūsų tekstą ir išskaido jį į atskirus žodžius (šis procesas vadinamas tokenizacija).
Kiekvieną žodį palygina su žodynu — dideliu sąrašu taisyklingų žodžių.
Jei žodžio žodyne nėra — pažymi kaip klaidą.
Pasiūlo alternatyvas, kurios žodyne yra ir panašios į klaidingą žodį.

Paskutinis žingsnis — alternatyvų pasiūlymas — yra techniškai įdomiausias. Kaip programa žino, ką jūs norėjote parašyti? Čia į žaidimą įeina redagavimo atstumo algoritmai. Populiariausias iš jų — Levenshteino atstumas, pavadintas rusų matematiko Vladimiro Levenshteino vardu, kuris jį aprašė 1965 metais.

Levenshteino atstumas matuoja, kiek minimaliai operacijų reikia, norint vieną žodį paversti kitu. Operacijos yra trys: įterpti simbolį, ištrinti simbolį arba pakeisti vieną simbolį kitu. Pavyzdžiui, žodžiai „katė” ir „rate” skiriasi dviem operacijomis (pakeisti „k” į „r” ir „ė” į „e”), todėl jų Levenshteino atstumas yra 2. Kuo mažesnis atstumas, tuo labiau žodžiai panašūs — ir tuo tikėtiniau, kad vienas iš jų yra kito klaidinga versija.

Praktiškai tai reiškia, kad kai parašote „kompiuteris” kaip „kompiuteirs”, programa apskaičiuoja atstumus iki visų žodyne esančių žodžių ir pasiūlo tuos, kurių atstumas mažiausias. Tai skamba kaip daug skaičiavimų — ir iš tiesų taip yra, todėl šiuolaikiniai tikrintuvai naudoja įvairias optimizacijas, kad šis procesas vyktų greitai.

Kodėl lietuvių kalba — tikras galvosūkis kompiuteriui

Čia prasideda tikrai įdomus skyrius. Anglų kalbai sukurti rašybos tikrintuvai yra gana paprasti — anglų kalba turi palyginti nedaug žodžių formų. Žodis „cat” gali būti „cat” arba „cats” — ir viskas. Lietuvių kalba yra visiškai kitoks reikalas.

Lietuvių kalba yra sintetinė kalba su labai išvystyta morfologija. Tai reiškia, kad vienas žodis gali turėti dešimtis, o kartais ir šimtus skirtingų formų, priklausomai nuo linksnio, skaičiaus, giminės, laiko, asmens ir kitų gramatinių kategorijų. Žodis „namas” gali tapti „namo”, „namui”, „namą”, „name”, „namai”, „namų”, „namams”, „namus”, „namuose”, „namais” — ir tai tik daiktavardžio formos. Pridėkite veiksmažodžių asmenuotes, būdvardžių derinius, priesagas ir priešdėlius — ir gausite šimtus tūkstančių galimų žodžių formų.

Jei tikrintuvas naudotų paprastą žodyno sąrašą, tas sąrašas turėtų būti milžiniškas — ir vis tiek nebūtų pilnas, nes nauji žodžiai ir jų formos nuolat atsiranda. Todėl lietuvių kalbos tikrintuvai naudoja kitą principą: morfologinę analizę.

Morfologinis analizatorius nesaugo visų žodžių formų — jis saugo žodžių šaknis ir taisykles, kaip iš šaknų formuojamos galūnės. Kai programa gauna žodį „namuose”, ji neatlieka paprasto paieškos žodyne — ji išskaido žodį į morfemas: šaknį „nam-„, priesagą ir galūnę „-uose”, patikrina, ar tokia kombinacija atitinka lietuvių kalbos morfologijos taisykles, ir tik tada nusprendžia, ar žodis taisyklingas.

Šį darbą Lietuvoje daugelį metų atliko ir tebeatliko Vytauto Didžiojo universiteto bei Vilniaus universiteto mokslininkai. Vienas žinomiausių lietuvių kalbos morfologinių analizatorių — Lemuoklis, sukurtas VDU Kompiuterinės lingvistikos centre. Tokie įrankiai yra pagrindas, ant kurio statomi visi rimtesni lietuvių kalbos tikrintuvai.

Gramatikos tikrinimas — visai kitas lygmuo

Rašybos tikrinimas — tai vienas dalykas. Gramatikos tikrinimas — visai kas kita ir žymiai sudėtingiau.

Rašybos tikrintuvas dirba su atskirais žodžiais. Gramatikos tikrintuvas turi suprasti sakinį kaip visumą — kaip žodžiai tarpusavyje susiję, kokias funkcijas atlieka, ar jie tarpusavyje suderinti. Tai reikalauja sintaksinės analizės — sakinio struktūros supratimo.

Klasikinis gramatikos tikrintuvas veikia maždaug taip: pirma, kiekvienam žodžiui priskiriama kalbos dalis ir gramatinės charakteristikos (tai vadinama morfologiniu žymėjimu arba POS tagging — nuo anglų Part-of-Speech). Tada programa bando nustatyti sakinio struktūrą — kuris žodis yra veiksnys, kuris tarinys, kurie žodžiai priklauso kuriai frazei. Galiausiai tikrinama, ar nustatyta struktūra atitinka kalbos gramatikos taisykles.

Pavyzdžiui, lietuvių kalboje būdvardis turi derėti su daiktavardžiu gimine, skaičiumi ir linksniu. Jei programa randa frazę „didelis namas” — viskas gerai. Jei randa „didelis namai” — klaida: būdvardis vyriškos giminės vienaskaitos, o daiktavardis daugiskaitos. Tokią klaidą aptikti galima tik suprantant sakinio struktūrą, o ne tik tikrinant atskirus žodžius.

Tradiciniai gramatikos tikrintuvai naudojo vadinamąsias taisyklių sistemas — didelius rinkinius rankiniu būdu užrašytų gramatikos taisyklių. Lingvistai ir programuotojai kartu sudarydavo šimtus ar tūkstančius taisyklių tipo „jei po šio žodžio tipo eina tas žodžio tipas tokiomis sąlygomis — tai klaida”. Tokia sistema veikia, bet turi rimtų apribojimų: ji gali aptikti tik tas klaidas, kurioms taisyklės buvo parašytos, ir dažnai klaidingai pažymi taisyklingus sakinius, kurie tiesiog netelpa į numatytas schemas.

Dirbtinis intelektas keičia žaidimo taisykles

Pastarąjį dešimtmetį gramatikos tikrinimo technologijos patyrė tikrą revoliuciją, kurią sukėlė mašininis mokymasis ir neuroniniai tinklai.

Vietoj rankiniu būdu rašomų taisyklių, šiuolaikiniai tikrintuvai mokosi iš didžiulių tekstų korpusų — milijardų žodžių tekstų, kuriuose kalbos dėsningumai „išgaunami” automatiškai. Programa nemokoma „ši taisyklė, ta taisyklė” — ji tiesiog gauna milžinišką kiekį teksto ir pati išmoksta, kokios žodžių sekos yra tikėtinos, o kokios — ne.

Technologiškai tai grindžiama transformerių architektūra — tuo pačiu principu, kuriuo veikia ChatGPT, Google Translate ir kiti šiuolaikiniai kalbos modeliai. Transformer modelis „supranta” kontekstą — jis žino ne tik, koks žodis yra dabar, bet ir kokie žodžiai buvo prieš jį ir po jo. Tai leidžia aptikti klaidas, kurias tradicinės taisyklių sistemos praleistų.

Puikus pavyzdys — homofonai ir kontekstinės klaidos. Tradicinis tikrintuvas neaptiks klaidos sakinyje „Aš eisiu į ten rytoj” (jei „ten” vartojamas netinkamai), nes visi žodžiai yra taisyklingi. Bet modelis, išmokytas iš didelių tekstų, gali pastebėti, kad tokia žodžių kombinacija statistiškai neįprasta ir pasiūlyti pataisymą.

Šiuolaikiniai komerciniai sprendimai, tokie kaip Grammarly anglų kalbai, naudoja būtent tokius modelius. Lietuvių kalbai panašūs sprendimai vystosi lėčiau — iš dalies dėl to, kad lietuvių kalbos tekstų internete yra žymiai mažiau nei anglų, o mašininio mokymosi modeliai reikalauja milžiniškų duomenų kiekių.

Lietuvių kalbos tikrinimo įrankiai šiandien

Ką gi galima naudoti praktiškai, norint patikrinti lietuvišką tekstą? Situacija yra geresnė, nei daugelis mano, nors iki tobulybės dar toli.

„Microsoft Word” ir „LibreOffice” turi lietuvių kalbos rašybos tikrintuvus, kurie veikia pakankamai gerai. Jie remiasi morfologiniais žodynais ir aptinka daugumą akivaizdžių rašybos klaidų. Gramatikos tikrinimas šiose programose lietuvių kalbai yra ribotas — programa gali pastebėti kai kurias akivaizdžias klaidas, bet sudėtingesnių sintaksinių problemų nepastebės.

„LanguageTool” — atviro kodo gramatikos tikrintuvas, turintis lietuvių kalbos palaikymą. Jis naudoja taisyklių sistemą ir yra gana gerai pritaikytas lietuvių kalbos specifikai. Galima naudoti kaip naršyklės plėtinį, kaip atskirą programą arba per API. Tai šiuo metu vienas geresnių nemokamų sprendimų lietuvių kalbai.

„Google Docs” lietuvių kalbos gramatikos tikrinimas yra gana silpnas — programa aptinka rašybos klaidas, bet gramatinių klaidų dažnai nepastebi arba siūlo netinkamus pataisymus.

Praktinis patarimas: jei rašote svarbų tekstą lietuvių kalba, geriausia naudoti kelis įrankius kartu. LanguageTool plėtinys naršyklėje plius Word ar LibreOffice tikrintuvas kartu aptiks daugiau klaidų nei kiekvienas atskirai. Ir, žinoma, joks automatinis tikrintuvas nepakeis žmogaus akies — ypač kai kalbama apie stilių, skyrybą ir sudėtingesnes gramatines konstrukcijas.

Dar vienas praktinis aspektas: tikrintuvai dažnai klysta su tikriniais vardais, neologizmais ir specifine terminija. Jei rašote tekstą su daug specializuotų terminų — pavyzdžiui, medicininių ar teisinių — tikintis, kad tikrintuvas viską sutvarkys, yra nerealu. Tokiais atvejais verta rankiniu būdu pridėti žodžius į vartotojo žodyną arba tiesiog ignoruoti pažymėtas „klaidas”.

Kai technologija susitinka su kalba: ateities perspektyvos

Kalbos technologijos vystosi stulbinamu greičiu, ir lietuvių kalba pamažu nebelieka nuošalyje. Keletas tendencijų, kurios artimiausiais metais keičia situaciją.

Pirma, daugiakalbiai modeliai. Tokie modeliai kaip mBERT, XLM-RoBERTa ar mT5 yra išmokyti iš šimtų kalbų tekstų vienu metu. Tai reiškia, kad net jei lietuviškų tekstų yra mažiau, modelis gali „perkelti” žinias iš kitų kalbų. Rezultatai lietuvių kalbai jau yra žymiai geresni nei prieš penkerius metus.

Antra, lietuviški kalbos modeliai. Vilniaus universiteto ir kitų institucijų mokslininkai kuria specializuotus lietuvių kalbos modelius. Projektas LitLat ir kiti iniciatyvos kaupia lietuviškus tekstų korpusus ir kuria specializuotus NLP (natūralios kalbos apdorojimo) įrankius.

Trečia, didelių kalbos modelių integracija. ChatGPT ir panašūs modeliai jau dabar gana gerai supranta lietuvių kalbą ir gali padėti taisyti tekstus. Tai nėra tradicinis tikrintuvas — tai labiau kaip redaktorius, galintis paaiškinti, kodėl kažkas neskamba gerai. Tačiau šie modeliai taip pat klysta, ypač su specifinėmis lietuvių kalbos taisyklėmis, ir jų klaidų aptikti sunkiau, nes jie pateikia atsakymus labai užtikrintai.

Praktinis patarimas dėl DI modelių naudojimo tekstų tikrinimui: niekada nepriimkite pasiūlymų aklinai. Paprašykite modelio paaiškinti, kodėl siūlo tą ar kitą pakeitimą — taip galėsite įvertinti, ar paaiškinimas logiškas. Ir visada patikrinkite rezultatą su tradiciniais įrankiais arba žinynu.

Kalbos technologijų istorija rodo vieną nuoseklų modelį: kiekviena nauja technologinė banga — nuo paprastų žodynų iki morfologinių analizatorių, nuo taisyklių sistemų iki neuroninių tinklų — atnešdavo reikšmingą šuolį į priekį, bet kartu ir naujų apribojimų bei problemų. Šiuolaikiniai DI modeliai yra stulbinančiai galingi, bet jie vis tiek nesupranta kalbos taip, kaip ją supranta žmogus — jie atpažįsta statistinius dėsningumus, o ne prasmes. Todėl geriausi rezultatai gaunami tada, kai technologija ir žmogus dirba kartu: programa aptinka akivaizdžias klaidas ir neįprastas konstrukcijas, o žmogus priima galutinį sprendimą, suprasdamas kontekstą ir intenciją. Ir kol kas neatrodo, kad ši pusiausvyra greitai pasikeis — bent jau lietuvių kalbai, kuri su savo morfologine sudėtingumu ir palyginti nedideliu skaitmeninio turinio kiekiu išlieka rimtu iššūkiu net pažangiausioms sistemoms.