Kaip veikia OCR sistema

Kas ta OCR sistema ir kodėl ji tokia svarbi

Turbūt kiekvienas esame susidūrę su situacija, kai reikia perrašyti tekstą iš nuotraukos ar nuskenuoto dokumento. Anksčiau tai reikėdavo daryti rankomis, spaudinėjant kiekvieną raidę. Dabar turime OCR – optinio simbolių atpažinimo (Optical Character Recognition) technologiją, kuri šį darbą atlieka per kelias sekundes. Bet kaip kompiuteris gali „perskaityti” tekstą iš paveikslėlio?

OCR sistema – tai programinės įrangos ir algoritmai, kurie analizuoja tekstą esantį vaizduose ir paverčia jį į redaguojamą skaitmeninį formatą. Skamba paprasta, bet už šios technologijos slypi sudėtingi procesai, kurie turi atpažinti įvairius šriftus, rašyseną, net ir netobulos kokybės dokumentus. Šiandien OCR naudojamas visur – nuo bankinių programėlių, kurios nuskaito sąskaitas, iki bibliotekų, skaitmeninančių senus dokumentus.

Kaip kompiuteris „mato” tekstą

Pirmiausia turime suprasti, kad kompiuteriui nuotrauka ar nuskenuotas dokumentas yra tik pikselių rinkinys. Jis nemato raidžių ar žodžių – tik šviesius ir tamsesnius taškus. OCR sistema turi išmokti atpažinti šablonus šiame pikselių chaose.

Procesas prasideda nuo vaizdo paruošimo. Sistema pirmiausia patobulina gautą vaizdą – padidina kontrastą, pašalina triukšmą, ištaiso pasvirimus. Jei fotografavote dokumentą telefonu šiek tiek iš šono, sistema bando jį „ištiesinti”. Tai labai svarbus žingsnis, nes kuo geresnis pradinės medžiagos kokybė, tuo tikslesnį rezultatą gausime.

Tada ateina segmentavimo etapas. Sistema skaido vaizdą į atskiras dalis – kur yra tekstas, kur paveiksliukai, kur tuščia vieta. Ji atpažįsta eilutes, tada atskirus žodžius, galiausiai – individualias raides. Tai primena tai, kaip mes skaitome – pirmiausia matome visą puslapį, tada sutelkiame dėmesį į pastraipas, sakinius ir galiausiai žodžius.

Šablonų atpažinimas prieš dirbtinį intelektą

Ankstyvosios OCR sistemos veikė gana primityviai – jos turėjo iš anksto nustatytus raidžių šablonus. Sistema tiesiog lygino, ar pikselių išsidėstymas atitinka raidę „A”, „B” ar „C”. Tai veikė neblogai su standartiniais šriftais, bet bet koks nukrypimas – kitas šriftas, pasvirusi raidė ar nedidelis defektas – sukeldavo problemų.

Šiuolaikinės OCR sistemos naudoja mašininio mokymosi algoritmus. Jos „treniruojamos” su milijonais pavyzdžių – įvairiausiais šriftais, rašysenomis, kokybėmis. Sistema išmoksta atpažinti ne tik tikslų atitikimą, bet ir variacijas. Ji gali suprasti, kad šiek tiek iškreipta raidė vis tiek yra ta pati raidė.

Dirbtiniai neuroniniai tinklai, ypač konvoliuciniai neuroniniai tinklai (CNN), tapo tikru proveržiu OCR srityje. Jie veikia panašiai kaip žmogaus smegenys – atpažįsta savybes skirtinguose lygiuose. Pirmieji sluoksniai mato linijas ir kraštus, vėlesni – sudėtingesnes formas, o galutiniai – visas raides ir žodžius.

Konteksto svarba ir kalbos modeliai

Įsivaizduokite, kad matote neryškų žodį, kuriame viena raidė beveik neįskaitoma. Kaip žmogus, jūs greičiausiai atspėtumėte teisingą raidę pagal kontekstą – ką reiškia visas sakinys, kokie žodžiai dažniausiai eina kartu. OCR sistemos daro tą patį.

Modernios sistemos naudoja kalbos modelius, kurie žino, kokie žodžiai egzistuoja kalboje ir kaip jie paprastai derinami. Jei sistema dvejoja tarp „mašina” ir „mošina”, ji pasirenka pirmąjį variantą, nes žino, kad toks žodis yra dažnesnis lietuvių kalboje. Tai ypač svarbu dirbant su prastos kokybės dokumentais.

Kai kurios pažangios sistemos netgi gali suprasti dokumento struktūrą. Jos atpažįsta, kur yra antraštės, kur pagrindinis tekstas, kur išnašos. Tai leidžia ne tik atpažinti tekstą, bet ir išsaugoti dokumento formatavimą, kas labai praverčia konvertuojant dokumentus.

Rankraščio atpažinimas – ypatingas iššūkis

Jei atspausdinto teksto atpažinimas jau veikia gana patikimai, tai rankraštis vis dar kelia nemažai problemų. Kiekvienas žmogus rašo skirtingai – vieni aiškiai, kiti – tarsi višta snapu. Raidės gali būti sujungtos, persidengti, būti skirtingų dydžių.

Rankraščio OCR sistemos turi būti dar protingesnės. Jos analizuoja ne tik atskiras raides, bet ir rašysenos stilių, raidžių jungimą, net individualius bruožus. Kai kurios sistemos gali „prisitaikyti” prie konkretaus žmogaus rašysenos – kuo daugiau teksto jos mato iš to paties asmens, tuo geriau atpažįsta.

Įdomu tai, kad kartais lengviau atpažinti visą žodį nei atskiras raides. Sistema mato bendrą formą ir gali ją palyginti su žinomais žodžiais. Tai panašu į tai, kaip mes galime perskaityti tekstą, kuriame raidės sumaišytos, kol pirmoji ir paskutinė lieka vietoje – mūsų smegenys atpažįsta bendrą žodžio formą.

Praktinis panaudojimas šiandien

OCR technologija tapo tokia įprasta, kad dažnai jos net nepastebime. Kai nuskenate QR kodą ar vizitinę kortelę telefonu, veikia OCR. Kai Google Photos leidžia ieškoti nuotraukose pagal tekstą – tai irgi OCR. Bankinės programėlės, kurios nuskaito sąskaitų duomenis, naudoja šią technologiją.

Versle OCR tapo neįkainojama priemone. Įmonės skaitmeniną senus archyvus, automatizuoja sąskaitų faktūrų apdorojimą, konvertuoja vizitines korteles į kontaktus. Tai sutaupo neįtikėtiną kiekį laiko ir sumažina žmogiškųjų klaidų riziką. Viena sistema per dieną gali apdoroti tiek dokumentų, kiek žmogus per metus.

Švietimo srityje OCR padeda studentams – galima nuskenuoti paskaitų užrašus ir padaryti juos ieškomus, konvertuoti vadovėlių puslapius į skaitmeninį formatą. Neįgaliesiems ši technologija atveria naujų galimybių – programos gali perskaityti tekstą iš bet kokio vaizdo ir paversti jį garsu.

Kokybės problemos ir kaip jų išvengti

Nors OCR technologija labai pažengė, ji vis dar nėra tobula. Prastos kokybės dokumentai, neįprastūs šriftai, sudėtingas fonas – visa tai gali sukelti klaidų. Esu matęs, kaip sistema „O” raidę painioja su „0”, „l” su „I” ar „1”. Tokie dalykai gali būti problematiški, ypač kai kalbame apie skaičius ar kodus.

Norint gauti geriausius rezultatus, verta laikytis kelių paprastų taisyklių. Pirma, stengtis naudoti kuo geresnės kokybės pradinę medžiagą. Jei fotografuojate dokumentą, pasirūpinkite geru apšvietimu ir laikykite telefoną statmenai. Antra, jei įmanoma, naudokite didesnę raišką – daugiau pikselių reiškia daugiau informacijos sistemai.

Taip pat svarbu pasirinkti tinkamą OCR įrankį konkrečiai užduočiai. Kai kurios sistemos geriau veikia su spausdintais dokumentais, kitos – su rankraščiu. Yra specializuotų sprendimų sąskaitoms, vizitinėms kortelėms ar istoriniams dokumentams. Universalūs sprendimai gali būti patogesni, bet specializuoti dažnai duoda geresnius rezultatus.

Ateitis: kas laukia OCR technologijos

OCR technologija toliau tobulėja įspūdingu greičiu. Dirbtinio intelekto pažanga reiškia, kad sistemos tampa vis tikslesnės ir greitesnės. Jau dabar matome realaus laiko OCR – galite nukreipti telefono kamerą į tekstą ir iškart matyti vertimą ar kitus duomenis.

Viena įdomiausių krypčių – daugiakalbės OCR sistemos, kurios gali automatiškai atpažinti kalbą ir net maišytus tekstus. Tai ypač aktualu mūsų globalizuotame pasaulyje. Kita sritis – istorinių dokumentų atpažinimas, kur sistemos mokosi skaityti senovinius šriftus ir blankius rankraščius.

Augmented reality (papildyta realybė) ir OCR derinys atveria visai naujų galimybių. Įsivaizduokite akinius, kurie realiu laiku verčia visą aplinką – iškabas, meniu, instrukcijas. Arba sistemas, kurios gali „perskaityti” sudėtingus techninius brėžinius ir paversti juos 3D modeliais.

Bet galbūt svarbiausia, kad OCR tampa vis prieinamesnė. Anksčiau tai buvo brangi profesionali programinė įranga, dabar – nemokamos programėlės telefone. Ši demokratizacija reiškia, kad vis daugiau žmonių gali pasinaudoti technologijos teikiamais privalumais, nesvarbu, ar tai būtų studentas, smulkaus verslo savininkas ar pensininkas.

Kai technologija tampa nematomu pagalbininku

OCR sistema puikiai iliustruoja, kaip sudėtinga technologija gali tapti tokia įprasta, kad mes jos beveik nepastebime. Tai nėra kažkas, apie ką kasdien galvojame, bet ji veikia fone, palengvindama mūsų gyvenimą daugybe būdų. Nuo paprasčiausio dokumento skenavimo iki sudėtingų verslo procesų automatizavimo – OCR tapo neatsiejama šiuolaikinio skaitmeninio pasaulio dalimi.

Suprasdami, kaip veikia ši technologija, galime geriau ja naudotis ir įvertinti jos galimybes bei apribojimus. Taip pat matome, kaip dirbtinio intelekto ir mašininio mokymosi pažanga keičia net tokias, atrodytų, paprastas užduotis kaip teksto skaitymas. Tai, kas dar prieš dešimtmetį atrodė kaip mokslinė fantastika, dabar yra kiekvieno telefone.

Ateityje OCR tik toliau integruosis į mūsų kasdienybę, tampant dar neregimesnė, bet kartu galingesnė. Ir tai puiku – geriausia technologija yra ta, kuri tiesiog veikia, nereikalaudama mūsų dėmesio ar pastangų.