Vaizdo atpažinimo technologija

Kaip mašinos išmoko matyti pasaulį

Prisimenu, kai prieš kokius dešimt metų bandžiau nufotografuoti savo šunį, o fotoaparatas užuot sutelkęs dėmesį į jo snukį, ryškino foną. Dabar mano telefonas ne tik atpažįsta, kad kadre yra šuo, bet ir gali pasakyti, kokios tai veislės. Šis šuolis nuo paprastos kameros iki “mąstančio” įrenginio – tai vaizdo atpažinimo technologijos evoliucija, kuri per pastaruosius dešimtmečius pakeitė ne tik fotografiją, bet ir visą mūsų kasdienybę.

Vaizdo atpažinimas – tai kompiuterio gebėjimas “suprasti”, kas pavaizduota nuotraukoje ar vaizdo įraše. Skamba paprasta, bet iš tikrųjų tai viena sudėtingiausių užduočių, kurią žmogus gali paprašyti atlikti mašiną. Mes, žmonės, atpažįstame veidus, objektus ir situacijas akimirksniu, net nesusimąstydami. Kompiuteriui tai – sudėtinga matematinė problema, kurią reikia spręsti milijonus kartų per sekundę.

Nuo pikselių iki prasmės: kaip kompiuteris mato

Kai mes žiūrime į nuotrauką, matome veidus, medžius, automobilius. Kompiuteris mato tik skaičius – pikselių reikšmes, kurios nurodo spalvą ir šviesumą. Įsivaizduokite, kad turėtumėte atspėti, kas nupiešta paveikslėlyje, bet jums leistų matyti tik po vieną pikselį. Būtent tokia užduotis stovi prieš kompiuterį.

Ankstyvosios vaizdo atpažinimo sistemos veikė pagal griežtai nustatytas taisykles. Programuotojai rankiniu būdu aprašydavo, kaip atpažinti tam tikrus objektus: “jei yra du apvalūs tamsūs plotai virš vieno didesnio apvalio ploto, tai galbūt veidas”. Problema ta, kad pasaulis per daug įvairus tokiems paprastiems aprašymams. Veidas gali būti pasuktas į šoną, apšviestas skirtingai, užstojamas kitų objektų. Tokių taisyklių reikėtų milijonų, ir net tada sistema neveiktų patikimai.

Perversmas įvyko, kai mokslininkai ėmė taikyti dirbtinių neuroninių tinklų technologiją. Užuot bandę paaiškinti kompiuteriui, kaip atpažinti objektus, jie ėmė mokyti jį pavyzdžiais – rodydami tūkstančius nuotraukų su pažymėtais objektais. Sistema pati išmoksta atpažinti šablonus ir bruožus, kurie būdingi tam tikram objektui.

Gilieji neuroniniai tinklai: technologija, pakeitusi viską

Apie 2012-uosius metais įvyko tai, ką specialistai vadina vaizdo atpažinimo revoliucija. Komanda iš Toronto universiteto panaudojo gilųjį neuroninį tinklą vadinamą “konvoliuciniu neuroniniu tinklu” (CNN) ir pasiekė neįtikėtinų rezultatų ImageNet konkurse – tarptautiniame vaizdo atpažinimo čempionate. Jų sistema klaidų darė beveik perpus mažiau nei ankstesnių metų nugalėtojai.

Konvoliuciniai neuroniniai tinklai veikia panašiai kaip žmogaus regėjimo sistema. Pirmieji sluoksniai atpažįsta paprastus elementus – linijas, kampus, spalvų perėjimus. Gilesni sluoksniai kombinuoja šiuos paprastus elementus į sudėtingesnius – formas, tekstūras. Dar gilesni sluoksniai atpažįsta objektų dalis – akis, ausis, ratus, langus. Galiausiai paskutiniai sluoksniai nusprendžia, kas iš tikrųjų pavaizduota nuotraukoje.

Įdomiausia tai, kad niekas rankiniu būdu neprogramuoja, ką turėtų atpažinti kiekvienas sluoksnis. Sistema pati išmoksta to mokymo proceso metu, analizuodama milijonus pavyzdžių. Tai primena, kaip vaikas išmoksta atpažinti šunis – ne todėl, kad jam kas nors paaiškino šuns anatomiją, o todėl, kad matė daug skirtingų šunų ir išmoko bendrus bruožus.

Kur tai naudojama šiandien

Vaizdo atpažinimas jau tapo tokia įprasta dalimi mūsų gyvenimo, kad dažnai jo net nepastebime. Kai atrakiname telefoną veidu, kai Facebook automatiškai pasiūlo pažymėti draugus nuotraukose, kai Google Photos leidžia ieškoti nuotraukų pagal tai, kas jose pavaizduota – visa tai veikia dėl vaizdo atpažinimo.

Medicinos srityje ši technologija jau dabar padeda gydytojams diagnozuoti ligas. Dirbtinio intelekto sistemos gali aptikti vėžio požymius rentgeno nuotraukose ar tomogramose kartais net tiksliau nei patyrę radiologai. Tai nereiškia, kad gydytojai tampa nereikalingi – greičiau AI tampa papildomu įrankiu, kuris padeda nepralesti svarbių detalių.

Automobilių pramonėje vaizdo atpažinimas – pagrindas autonominiams automobiliams. Tokios sistemos turi atpažinti pėsčiuosius, kitus automobilius, kelio ženklus, šviesoforus ir priimti sprendimus per milisekundes. Tesla, Waymo ir kiti gamintojai investuoja milijardus į šių sistemų tobulinimą.

Mažmeninėje prekyboje jau veikia parduotuvės be kasininkų – Amazon Go koncepcija, kur kameros stebi, ką paimate nuo lentynų, ir automatiškai nuskaito pirkimą. Pramonėje robotai su vaizdo atpažinimu gali rūšiuoti detales, tikrinti kokybę, atlikti sudėtingus surinkimo darbus.

Veido atpažinimas: galimybės ir pavojai

Veido atpažinimas yra viena labiausiai paplitusių ir kartu kontroversiškiausių vaizdo atpažinimo technologijos rūšių. Principas paprastas: sistema išskiria unikalius veido bruožus – atstumą tarp akių, nosies formą, veido kontūrus – ir sukuria skaitmeninį “pirštų atspaudą”. Vėliau šį atspaudą galima palyginti su duomenų baze.

Kinijoje veido atpažinimas naudojamas masinėje stebėjimo sistemoje – kameros viešosiose vietose gali identifikuoti bet kurį žmogų iš milijardinės gyventojų duomenų bazės. Tai leidžia greitai surasti ieškomas asmenis, bet kelia rimtų klausimų apie privatumą ir galimą piktnaudžiavimą.

Vakarų šalyse diskusijos apie veido atpažinimą taip pat įkaušusios. Kai kurie miestai JAV uždraudė policijai naudoti šią technologiją, kol nebus aiškių taisyklių. Problema ne tik privatume – tyrimai rodo, kad daugelis veido atpažinimo sistemų mažiau tiksliai atpažįsta tamsesnės odos žmones ir moteris, nes buvo treniruojamos daugiausia su baltų vyrų nuotraukomis.

Kaip sistema mokoma ir kodėl tai svarbu

Vaizdo atpažinimo sistemos kokybė tiesiogiai priklauso nuo to, kaip jos buvo mokomos. Jei norite, kad sistema atpažintų šunis, jai reikia parodyti tūkstančius įvairių šunų nuotraukų – didelių ir mažų, šviesių ir tamsių, įvairių veislių, skirtingose pozose ir apšvietimo sąlygose.

Čia slypi didžiulė problema: norint sukurti gerą sistemą, reikia milžiniškų duomenų kiekių. ImageNet – viena populiariausių mokymo duomenų bazių – turi per 14 milijonų pažymėtų nuotraukų. Šių nuotraukų žymėjimas – tai darbas, kurį atliko tūkstančiai žmonių per kelerius metus.

Be to, duomenys turi būti įvairūs ir reprezentatyvūs. Jei mokote sistemą atpažinti automobilius, bet visi pavyzdžiai yra iš saulėtų dienų, sistema gali prasčiau veikti lietingą orą. Jei visi pavyzdžiai iš Europos, ji gali nesusigaudyti su Azijos rinkos automobiliais.

Praktinis patarimas tiems, kas nori eksperimentuoti su vaizdo atpažinimu: šiandien galite naudoti jau parengtus modelius, kurie buvo išmokyti milžiniškų duomenų rinkinių. TensorFlow, PyTorch ir kitos platformos siūlo “iš anksto išmokytus” modelius, kuriuos galite pritaikyti savo specifinėms užduotims su santykinai nedideliu papildomų pavyzdžių kiekiu. Tai vadinama “perkėlimu mokymosi” (transfer learning) ir leidžia pasiekti gerų rezultatų be milijoninių investicijų.

Ateities perspektyvos ir iššūkiai

Vaizdo atpažinimo technologija sparčiai tobulėja, bet vis dar turi apribojimų. Sistemos gali būti apgaunamos – pavyzdžiui, nedideli tyčiniai nuotraukos pakeitimai, kuriuos žmogus net nepastebėtų, gali priversti AI sistemą matyti dalmatinietį vietoj leopardo. Tai kelia saugumo klausimų, ypač kai kalbame apie autonominius automobilius ar saugumo sistemas.

Kitas iššūkis – skaičiavimo galia. Šiuolaikinės vaizdo atpažinimo sistemos reikalauja didelių kompiuterinių resursų, ypač mokymo etape. Didžiosios technologijų kompanijos gali sau tai leisti, bet mažesnėms organizacijoms tai tampa barjeru. Tiesa, atsiranda vis efektyvesnių algoritmų, kurie gali veikti net išmaniuosiuose telefonuose.

Etiniai klausimai taip pat tampa vis svarbesni. Kas atsakingas, jei vaizdo atpažinimo sistema priima klaidingą sprendimą? Kaip užtikrinti, kad technologija nebūtų naudojama diskriminacijai? Kaip apsaugoti žmonių privatumą pasaulyje, kur kameros yra visur?

Nepaisant šių iššūkių, technologija vystosi įspūdingai. Naujausi modeliai jau gali ne tik atpažinti objektus, bet ir suprasti scenos kontekstą, spėti, kas vyks toliau vaizdo įraše, net generuoti tekstinius vaizdų aprašymus, kurie skamba natūraliai. GPT-4 ir panašūs modeliai jau gali “matyti” nuotraukas ir apie jas kalbėti beveik kaip žmogus.

Kai technologija tampa kūrybos įrankiu

Įdomu tai, kad vaizdo atpažinimas ne tik analizuoja vaizdus, bet ir padeda juos kurti. Tie patys principai, kurie leidžia kompiuteriui suprasti, kas pavaizduota nuotraukoje, gali būti naudojami atvirkščiai – generuoti naujus vaizdus. DALL-E, Midjourney, Stable Diffusion – visos šios sistemos remiasi giliu vaizdo supratimo principu.

Fotografijoje vaizdo atpažinimas leidžia automatiškai tobulinti nuotraukas – ne tik reguliuoti ryškumą ir kontrastą, bet ir atpažinti, kur nuotraukoje yra dangus (ir padaryti jį mėlynesnį), kur žmogaus oda (ir ją išlyginti), kur fonas (ir jį sulieti). Profesionalūs fotografai, kurie anksčiau valandų valandas praleisdavo Photoshop, dabar gali pasiekti panašių rezultatų vienu mygtuko paspaudimu.

Medicinos vizualizacijoje technologija leidžia ne tik aptikti ligas, bet ir vizualizuoti jas aiškiau, padėti chirurgams operacijų metu, planuoti gydymą. Archeologijoje vaizdo atpažinimas padeda analizuoti senus dokumentus, atstatyti sugadintus artefaktus, net atpažinti užrašus ant beveik neįskaitomų rankraščių.

Šiandien vaizdo atpažinimas – tai ne tik technologija, bet ir įrankis, kuris keičia būdą, kaip mes sąveikaujame su pasauliu. Nuo to, kaip darome nuotraukas, iki to, kaip diagnozuojamos ligos, kaip saugomas viešasis saugumas, kaip kuriamas menas. Technologija, kuri prasidėjo nuo paprastos užduoties – išmokyti kompiuterį atskirti katę nuo šuns – dabar keičia beveik kiekvieną gyvenimo sritį. Ir nors iššūkių dar daug, viena aišku: mašinos jau išmoko matyti, ir jos mato vis geriau.