Kaip veikia duomenų gavyba

Kas iš tiesų yra duomenų gavyba ir kodėl ji tapo tokia svarbi

Duomenų gavyba, arba kaip ją dažnai vadina anglišku terminu „data mining”, skamba kaip kažkas iš fantastinio filmo apie kompiuterių genijus. Tačiau realybėje tai technologija, su kuria susiduriate kiekvieną dieną – kai „Netflix” rekomenduoja jums serialą, kai bankas nusprendžia, ar suteikti jums paskolą, ar kai internetinė parduotuvė siūlo būtent tuos produktus, kurie jus domina.

Esmė paprasta: turime milžinišką kiekį duomenų, kurie patys savaime nieko nereiškia. Įsivaizduokite biblioteką su milijonais knygų, bet be jokios katalogavimo sistemos. Duomenų gavyba – tai procesas, kuris padeda surasti prasmingas schemas, ryšius ir dėsningumus toje informacijos jūroje. Tai tarsi aukso ieškojimas upės dugne – reikia persijoti tonas smėlio, kad rastum vertingų grūdelių.

Šiandien įmonės kaupia neįtikėtiną kiekį informacijos apie viską – nuo oro temperatūros iki to, kokiu laiku žmonės dažniausiai perka kavą. Problema ta, kad žmogaus smegenys fiziškai nepajėgios apdoroti tokio duomenų kiekio. Čia ir ateina į pagalbą duomenų gavybos technologijos, kurios automatiškai analizuoja, klasifikuoja ir prognozuoja.

Kaip visa tai prasidėjo – trumpa ekskursija į istoriją

Duomenų gavybos šaknys siekia 1960-uosius, kai mokslininkai pradėjo eksperimentuoti su statistiniais metodais, bandydami automatizuoti duomenų analizę. Tačiau tikroji revoliucija prasidėjo devintajame dešimtmetyje, kai kompiuteriai tapo pakankamai galingi, kad galėtų apdoroti didesnius duomenų kiekius.

Terminas „data mining” atsirado maždaug 1990-aisiais, kai verslo analitikai suprato, kad tradiciniai statistikos metodai nebepakanka. Įmonės pradėjo kaupti duomenis skaitmeninėse duomenų bazėse, ir staiga atsirado galimybė ieškoti nematytų anksčiau tendencijų. Vienas žymiausių ankstyvųjų pavyzdžių – prekybos centrų analizė, kuri atskleidė, kad vyrai, perkantys sauskelnes kūdikiams, dažnai tuo pačiu metu perka ir alų. Ši informacija leido parduotuvėms strategiškai išdėstyti prekes ir padidinti pardavimus.

Su interneto atėjimu duomenų gavyba įgavo visiškai naują mastą. Staiga tapo įmanoma sekti ne tik tai, ką žmonės perka, bet ir ką jie skaito, kur spragsi, kiek laiko praleidžia žiūrėdami tam tikrą turinį. „Google” ir „Amazon” buvo tarp pirmųjų, kurie šias technologijas panaudojo masiškai, ir tai jiems suteikė milžinišką konkurencinį pranašumą.

Pagrindiniai duomenų gavybos metodai ir technologijos

Duomenų gavyba nėra vienas konkretus įrankis – tai visas metodų arsenals. Klasifikacija yra vienas populiariausių metodų, kai algoritmas mokosi priskirti duomenis tam tikroms kategorijoms. Pavyzdžiui, el. pašto sistema mokosi atpažinti šlamštą – ji analizuoja tūkstančius laiškų, kuriuos žmonės pažymėjo kaip šlamštą, ir išmoksta atpažinti panašius požymius.

Klasterizacija – tai metodas, kai algoritmas pats sugrupuoja panašius duomenis, nežinodamas iš anksto, kokios grupės turėtų būti. Įsivaizduokite, kad turite duomenis apie milijoną klientų ir norite juos suskirstyti į grupes pagal pirkimo įpročius. Klasterizavimo algoritmas automatiškai ras, kad yra „studentų” grupė, perkanti pigius produktus vakarais, „šeimų” grupė, perkanti didelius kiekius savaitgaliais, ir taip toliau.

Asociacijų taisyklės ieško ryšių tarp skirtingų dalykų. Tas garsusis „sauskelnes ir alus” pavyzdys – būtent asociacijų taisyklių rezultatas. Šis metodas ypač naudingas prekyboje, nes leidžia suprasti, kokie produktai dažnai perkami kartu.

Regresijos analizė padeda prognozuoti skaitines vertes. Pavyzdžiui, nekilnojamojo turto įmonė gali naudoti regresiją, kad įvertintų buto kainą pagal jo dydį, vietą, amžių ir kitus parametrus. Algoritmas išanalizuoja tūkstančius ankstesnių sandorių ir išmoksta prognozuoti kainas naujoms situacijoms.

Kaip praktiškai vyksta duomenų gavybos procesas

Pirmiausia reikia surinkti duomenis, ir tai dažnai sudėtingiausia dalis. Duomenys gali būti išsibarstę įvairiose sistemose, skirtinguose formatuose, su klaidomis ir praleistomis reikšmėmis. Realybėje duomenų mokslininkai praleidžia apie 70-80% savo laiko tiesiog ruošdami duomenis analizei – valydami, standartizuodami, užpildydami spragas.

Kai duomenys paruošti, prasideda tyrinėjimo fazė. Čia analitikai naudoja vizualizacijos įrankius, kad suprastų, su kokiais duomenimis dirba. Galbūt paaiškės, kad tam tikri parametrai labai koreliuoja, arba kad duomenyse yra netikėtų anomalijų. Ši fazė primena detektyvo darbą – ieškoma užuominų ir įdomių detalių.

Toliau eina modelio kūrimas. Pasirenkamas tinkamas algoritmas (ar keli algoritmai) ir „apmokymas” naudojant istorinius duomenis. Pavyzdžiui, jei norite sukurti sistemą, kuri prognozuotų klientų atsisakymą paslaugos, paimate duomenis apie klientus, kurie pasitraukė praeityje, ir mokote algoritmą atpažinti požymius, kurie tam tikslui būdingi.

Paskutinė fazė – modelio testavimas ir diegimas. Čia patikrinama, ar modelis tikrai veikia su naujais, anksčiau nematytais duomenimis. Jei modelis gerai veikia su mokymo duomenimis, bet prastai su naujais – tai vadinama „overfitting” problema, kai algoritmas išmoko konkrečius pavyzdžius atmintinai, bet nesuprato bendro principo.

Dirbtinis intelektas ir mašininis mokymasis – naujas duomenų gavybos etapas

Pastaraisiais metais duomenų gavyba evoliucionavo į tai, ką dabar vadiname mašininiu mokymusi ir giluminiu mokymusi. Skirtumas toks: tradicinė duomenų gavyba dažnai reikalavo, kad žmogus nurodytų, kokių požymių ieškoti. Pavyzdžiui, norėdami atpažinti šunį nuotraukoje, turėjote pasakyti sistemai: ieškokite keturių kojų, uodegos, ausų ir panašiai.

Šiuolaikiniai giliojo mokymosi algoritmai, ypač neuronų tinklai, gali patys išmokti, kokie požymiai svarbūs. Parodote jiems tūkstančius šunų nuotraukų su žyme „šuo” ir tūkstančius kitų nuotraukų su žyme „ne šuo”, ir sistema pati išmoksta atpažinti, kas yra šuo, nepasakius jai, į ką žiūrėti.

Tai ypač veiksminga su sudėtingais duomenimis – vaizdais, garsu, tekstu. „Siri” ir „Alexa” naudoja giliojo mokymosi algoritmus, kad suprastų žmogaus kalbą. „Facebook” naudoja juos, kad atpažintų veidus nuotraukose. Medicinos įstaigos naudoja, kad diagnozuotų ligas iš rentgeno nuotraukų.

Tačiau yra ir trūkumų. Giliojo mokymosi modeliai dažnai veikia kaip „juodoji dėžė” – jie duoda rezultatus, bet sunku suprasti, kodėl priėmė tokį sprendimą. Tai gali būti problema, kai reikia paaiškinti, kodėl, pavyzdžiui, žmogui buvo atsisakyta suteikti paskolą.

Kur visa tai naudojama realiame gyvenime

Medicinos srityje duomenų gavyba gelbsti gyvybes. Algoritmai analizuoja milijonus pacientų įrašų, ieškodami ankstyvų ligų požymių. Yra sistemų, kurios gali prognozuoti širdies priepuolius ar insulto riziką anksčiau nei tradiciniai metodai. Vėžio tyrimuose duomenų gavyba padeda identifikuoti genetinius veiksnius ir rasti efektyvesnius gydymo būdus.

Finansų sektoriuje tai tapo neatsiejama dalimi. Bankai naudoja duomenų gavybą sukčiavimo aptikimui – jei jūsų kreditine kortele staiga pradedama pirkti neįprastose vietose ar neįprastu laiku, sistema tai pastebės per sekundes. Investicinės įmonės naudoja algoritmus, kad prognozuotų rinkos tendencijas ir priimtų sprendimus greičiau nei žmogus galėtų sumirkčioti.

Mažmeninė prekyba – čia duomenų gavyba tiesiog šėlsta. „Amazon” rekomendacijų sistema, kuri siūlo jums produktus, analizuoja ne tik jūsų pirkimo istoriją, bet ir milijonų kitų žmonių elgesį. Jie žino, kad žmonės, kurie pirko A ir B, dažnai perka ir C, todėl jums siūlo C. Prekybos centrai analizuoja pėsčiųjų srautus, kad suprastų, kaip žmonės juda tarp skyrių.

Transporto srityje duomenų gavyba padeda optimizuoti maršrutus, prognozuoti transporto priemonių gedimus prieš jiems įvykstant, valdyti eismą. „Uber” ir „Bolt” naudoja sudėtingus algoritmus, kad prognozuotų paklausą ir dinamiškai keistų kainas.

Privatumo ir etikos klausimai, kuriuos verta žinoti

Čia prasideda sudėtinga teritorija. Duomenų gavyba reiškia, kad kažkas stebi ir analizuoja jūsų elgesį. Kiekvienas jūsų paspaudimas internete, kiekviena pirkimo transakcija, kiekviena vieta, kurią aplankote su išmaniuoju telefonu – visa tai gali būti ir greičiausiai yra kažkur įrašyta ir analizuojama.

„Cambridge Analytica” skandalas parodė, kaip duomenų gavyba gali būti naudojama manipuliuoti žmonių nuomone politiniais tikslais. Įmonė surinko milijonų „Facebook” vartotojų duomenis ir naudojo juos, kad tikslingai rodytų politinę reklamą, pritaikytą kiekvieno asmens psichologiniam profiliui.

Yra ir diskriminacijos pavojus. Jei algoritmas mokomas naudojant istorinius duomenis, kuriuose yra šališkumo, jis išmoks to šališkumo. JAV buvo atvejų, kai teismų sistemoje naudojami algoritmai, prognozuojantys nusikaltimų pasikartojimo riziką, rodė rasinį šališkumą, nes buvo apmokyti naudojant istorinius duomenis, kuriuose jau buvo sisteminio rasizmo.

Europos Sąjungos GDPR (Bendrasis duomenų apsaugos reglamentas) bandė spręsti kai kurias iš šių problemų, suteikdamas žmonėms daugiau kontrolės, kaip jų duomenys naudojami. Tačiau realybė tokia, kad dauguma žmonių vis tiek sutinka su visomis sąlygomis, neskaityę jų, nes alternatyva – atsisakyti patogių paslaugų.

Ką ateitis žada duomenų gavybos srityje

Kvantiniai kompiuteriai gali visiškai pakeisti žaidimo taisykles. Šiuo metu net galingiausi superkompiuteriai turi ribas, kiek duomenų gali apdoroti per priimtiną laiką. Kvantiniai kompiuteriai teoriškai galėtų atlikti tam tikrus skaičiavimus eksponentiškai greičiau, o tai reikštų galimybę analizuoti dar didesnius duomenų kiekius ir rasti dar sudėtingesnius ryšius.

Kraštinis skaičiavimas („edge computing”) keičia, kur vyksta duomenų analizė. Vietoj to, kad siųstumėte visus duomenis į centrinį serverį, analizė vyksta vietoje – jūsų išmaniajame telefone, automobilio kompiuteryje, pramoniniame įrenginyje. Tai greičiau, saugiau ir efektyviau, ypač kai reikia priimti sprendimus realiu laiku.

Automatizuotas mašininis mokymasis („AutoML”) daro duomenų gavybą prieinamą ne tik specialistams. Atsiranda įrankių, kurie automatiškai parenka geriausią algoritmą, nustato optimalius parametrus ir net paruošia duomenis. Tai reiškia, kad mažos įmonės, neturinčios duomenų mokslininkų komandos, taip pat gali pasinaudoti šiomis technologijomis.

Paaiškinamas dirbtinis intelektas („explainable AI”) tampa vis svarbesnis. Mokslininkai dirba ties algoritmais, kurie ne tik duoda atsakymus, bet ir gali paaiškinti, kaip prie jų priėjo. Tai ypač svarbu medicinos, teisės ir kitose srityse, kur reikia suprasti sprendimo logiką.

Kaip visa tai sueina į vieną didelę paveikslą

Duomenų gavyba iš esmės pakeitė, kaip veikia šiuolaikinis pasaulis. Ji tapo neregima jėga, kuri formuoja mūsų patirtį internete, nulemia, kokias paslaugas gauname, net veikia mūsų galimybes gauti darbą ar paskolą. Tai įrankis, kuris gali būti naudojamas ir gėriui – gelbėjant gyvybes medicinos srityje, kovojant su klimato kaita, optimizuojant išteklius, – ir blogam – manipuliuojant žmonėmis, diskriminuojant, pažeidžiant privatumą.

Svarbu suprasti, kad duomenų gavyba nėra magija. Tai matematika, statistika ir kompiuterių mokslas, pritaikyti praktiniams uždaviniams spręsti. Algoritmai nėra neklystantys – jie tik tokie geri, kokie yra duomenys, kuriais jie maitinami, ir žmonės, kurie juos kuria.

Praktiškai kiekvienas, kas naudojasi internetu, turėtų bent minimaliai suprasti, kaip veikia šios technologijos. Tai padeda priimti informuotesnius sprendimus apie savo duomenų dalijimąsi, kritiškai vertinti rekomendacijas ir prognozes, kurias gauname iš įvairių sistemų. Duomenų gavyba čia ir dabar, ir ji tik augs. Geriau suprasti, kaip ji veikia, nei gyventi nežinioje.