Kas andmed hakkavad rääkima, kui neid piisavalt piinata?

Uudis

Postitatud 14. september 2021, 14.05

Praegust sajandit on ristitud teabesajandiks. Ennustused ütlevad, et kahe kuni viie aasta pärast sa kas rakendad oma ettevõttes andmeteadust või sa oled surnud.

Statistikaameti peadirektori asetäitja andmehalduse ja andmeteaduse alal Andres Kukke jagab oma mõtteid, mida tema on koostööst andmetega avastanud ja kuidas arvud aitavad kaasa kriitilisele ja analüütilisele mõtlemisele.

Tihtipeale ärgitatakse: paneme andmed rääkima! Mõned ütlevad jällegi, et kui andmeid piisavalt piinata, siis need hakkavad rääkima. Tegelikult räägib alati ikkagi inimene, kes neid andmeid kasutab.

Teaduslik mõtteviis on kõigile kättesaadav

Juhtimisele saame tagasisidet tavaliselt nihkega, olgu selleks aasta, kvartali või kuu kokkuvõte. Andmed võimaldavad meil õppida väga vahetult. Kõigi maailma suurettevõtete ühine nimetaja on, et nad on suured andmetöötlejad – nad kasutavad andmeid oma igapäevases tegevuses. Andmed on objektiivsed (tõsi, nende tõlgendus võib olla ka subjektiivne), need annavad tagasisidet, mis ja miks juhtus.

Teaduslik ehk faktipõhine mõtteviis on kõigile kättesaadav – selleks ei pea olema ise teadlane või palkama oma ettevõttesse tööle doktoreid ja doktorante. Selgitan täpsemalt, mis on andmeteadus ning miks tasub ettevõtluses andmemajandust ja masinõpet enda heaks tööle rakendada?

Andmeteaduse võib jagada kolme ossa:

andmed (sh suurandmed);
masinõpe ehk tehisintellekt (AI);
eetika.

Eetikat ma selles loos pikemalt küll ei käsitle, kuid see on oluline, kuna inimkond on katsetamas masinõpet ka otsustuse automatiseerimisel. Näiteks otustades, kas vabastada vang ennetähtaegselt, on tähtis teada, kuidas algortim töötab.

Kolm masinõppe mudelit

Iga päev tehakse ettevõtetes tegevusi parima kavatsusega, et neist vormuks soovitud tulemus. Tihtilugu tekib aga lihtsalt tagajärg – tahtsime parimat, aga välja tuli teadagi mis.

Tuues sellesse mängu juurde andmed, võime neilt saada arukust juurde. Me võime küsida andmetelt, mida teha, et saavutada tulemust, mis juhtub (prognoos) ja kas otsustuste ahela võiks üldse delegeerida masinale. Tutvustan lähemalt kolme masinõppe mudelit.

Regressioonimudel

See mudel kujutab endast tagasiminekut algoleku, st tuuma ja peamiste kriteeriumide juurde. Näiteks on ettevõttel eesmärk saavutada teatud käive, kuid nüansse, mis käivet mõjutavad, on palju, alates ilmast ja komponentidest ning lõpetades hinna ja tagastusega. Regressioonimudel aitab aru saada, mis mõjutajad on selles rivis olulised.

Toon näite ühest statistikaameti tellimustööst, kus otsisime andmete abil vastust küsimusele, millistesse peredesse sünnivad lapsed. Piltlikult tuli teha selleks lai tabel, kuhu koguda kokku eri tunnused ning lasta seejärel statistikal kõneleda.

Regressiooni abil saime teada, et tulemust ehk lapse sündi soodustasid viis tegurit (abielu, eluaseme laen, kinnisvara olemasoleu, noorim laps alla 2,5 aasta, lahutus) ja pärssisid kaks tegurit (naise vanus, pere noorima lapse vanus).

Mõned tegurid tundusid ilmsed, mõne puhul tekkis esialgu kahtlus, et viga on mudelis, näiteks lahutus. Lähemalt vaadates selgus, et mõne uue ilmakodaniku jaoks on vaja, et kokku saaks uus paar.
Klassifitseerimine

Äris on tihtilugu vaja teha otsuseid, näiteks mis tingimustel laenu anda või millist pakkumist kliendile teha. Selles võivad appi tulla klassifitseerimine ja klasterdamine kui masinõppe mudelid. Selgitan neid mudeleid statistikaameti projekti näitel, mis keskendub tühjadele korterelamutele.

Et planeerida majade renoveerimist või lammutamist, on vaja teada, kus need asuvad. Registrite andmed pole selleks piisavalt täpsed. Võimalus on ka küsitleda ja teha vaatlus. Ent on ka andmepõhine lahendus – mõõtepunktide järgi elektritarbimine. On hulk mõõtepunkte, kus elektritarbimine on väike või suisa null, näiteks korteris võib töötada külmkapp, kuid elanike seal ei ole, suvekodus on elektritarbimine suurem suvekuudel. Mõõtepunktid on võimalik klassifitseerida ja nende põhjal tuletada aadressid.
Klasterdamine

Klasterdamine tuleb appi, kui soovime aru saada, mis tüüpi elamutega on tegu. Seejuures kasutame algoritmi, mis nähtused rühmitab.

Inimese silm ei suuda aastast elektri tarbimist kuude järgi klasterdada, küll aga suudab masin jaotada need sarnastesse rühmadesse, näiteks ühtlaseks tarbimiseks, suviseks tarbimiseks jne.

Ilma masinõppeta oleks suurest andmestikust raske midagi välja lugeda. Klasterdamata räägiksimegi kogu aeg Harju keskmisest, mida tegelikult pole olemas.

Ettevõttes saaks klasterdamist kasutada näiteks töötajate lahkumist uurides, kuna mudeli abil on võimalik välja selgitada kõige olulisemad lahkujaid iseloomustavad ühisosad.

Kokkuvõtvalt: kui meid huvitab tulemus, siis masinõpe aitab aru saada, mis on olulised tegurid, kuidas koonduvad sarnased nähtused ja me võime ennustada, kuhu klassi tulevane sündmus kuulub.

Julge anda andmete võimalus

Suures plaanis on edukaks tööks andmetega vaja koos hoida nelja sammast: ärikaasust (milleks sa andmeid kasutad), oskusi, andmeid ja tööriistu.

Andmed nügivad meid koostööle, ilma selleta andmetest väärtust kätte ei saa. Suurim oht pole selles, et võid kasutada andmeid valesti, vaid selles, et sa ei kasuta neid üldse.

Alusta sellest, et küsi kord päevas oma jutuajamistes või koosolekul: kuidas andmed seletaksid seda probleemi, mida parasjagu käsitletakse. Kindlasti tuleb hulk erinevaid vastuseid, aga jätka küsimist. Mõtteviis peab muutuma! Mis iganes otsus on vaja ettevõttes teha – pane andmed sellele juurde.

Kas oled olnud piisavalt julge, et oled oma ettevõtte 2022. aasta eelarves näinud ette, et sellest 2% võiks minna andmeteadusele?

Kas leidsid, mida otsisid?