Andmehalduse põhimõtted

Andmed ja andmehalduse valdkond avalikus sektoris

Avaliku sektori asutuste selliseid ülesandeid nagu andmehaldus on Eestis kombeks kirjeldada õiguslike määratluste ehk legaaldefinitsioonide kaudu. Selleks on praktiline vajadus, sest paljud valdkonnad on muutuses, uudsed või on nende piirid mitmeti tõlgendatavad. Uued ja suured ideed on vaja kokku viia praktiliste tegevustega. Andmetega seonduv on suur ja paljulubav idee ning oluline praktiline valdkond. Andmetel on aga hulgaliselt erinevaid tähendusvälju. Statistiku jaoks on andmed sageli arvud (näitarvud), personalitöötajale eelkõige töötajatega seotud informatsioon, IT-inimesele infosüsteemide sisu, aga juristile võib-olla hoopis faktid.

Eestis ei ole andmete legaaldefinitsiooni, samas on ligi sadakond täpsustavat määratlust alates sellest, mis on isikuandmed, kuni üksikandmete, ruumiandmete ja põhiandmeteni. Lisaks on veel andmed andmete kohta ehk metaandmed. Piiritlemine on hädavajalik, kuna andmeid vaadatakse mitmest eri aspektist ja nende all mõistetakse üsna erinevaid asju (joonis 1).

Esmalt piiritleme, millised on need vaated andmetele, millega andmehaldus tegeleb. Andmehalduses on koordineerivate asutuste vahel kokku lepitud pöörata esmajärjekorras tähelepanu andmekogudes ja analüütilistes andmestikes olevatele andmetele ning ka avaandmetele. Teisalt on suure tähelepanu all isikuandmed ja andmeturve. Palju räägitakse ka suurandmetest ja linkandmetest.

Teine piiritlus on valdkondlik ehk see, millega tegeleb andmehaldus kitsamas mõttes. Selge on, et tänapäeval on kõik avaliku sektori ülesanded seotud andmetega – toimingud on andmepõhised ning fikseeruvad andmetes. Siinkohal on oluline küsida, kas andmehaldus on pigem tugi- või põhitegevus ning kuidas see suhestub juhtimise ja IT-ga. Pea igal valdkonnal on oma andmed, nagu näiteks ruumiandmed, meditsiiniandmed, statistilised andmed või finantsandmed. Kuid andmehaldus ei ole ühegi asutuse eesmärk omaette, sarnaselt raamatupidamise ja personalitööga on see oluline tugifunktsioon.

Selle roll juhtimise toetamisel ning põhitegevuse paremal korraldamisel muutub üha vajalikumaks. Omaette oluline seos on andmehaldusel IT-ga. Paljud andmetega seotud küsimused puudutavad asutustes erinevaid rolle, nagu isikuandmete kaitse, andmeturve, andme- ja äriarhitektuur, teenuste disain, isegi kommunikatsioon jms. Neist paljud nõuavad tehnilisi teadmisi.

Joonis 1. Andmed eri aspektidest vaadatuna
Joonis 1. Andmed eri aspektidest vaadatuna

Avaliku sektori asutus peab toimima ratsionaalselt, lähtudes ülesannete täitmise eesmärkidest ja kasust. Seetõttu peab iga tugitegevus sisaldama midagi universaalset ja vajalikku. Tugivaldkonna sisu saab vaadata nii protsesside kui teenuste vaates. Andmehaldusteenus moodustub järgmistest alamvaldkondadest (joonis 2): (1) ülevaate omamine asutuse andmetest andmekogude ja andmestike tasandil; (2) andmete kirjeldamine nende leidmiseks ja mõistmiseks; (3) andmete kvaliteedi tagamine; (4) andmete kasutamine ja teenused.

 Joonis 2. Andmehalduse põhilised alamvaldkonnad
Joonis 2. Andmehalduse põhilised alamvaldkonnad
Andmendmehalduse peamised alamvaldkonnad avalikus sektoris

Osa alamvaldkondi on põhjalikumalt kirjeldatud andmekirjelduse  ja andmekvaliteedi  teemalehtedel. Lühidalt on alamvaldkondade sisu kokku võetav järgmiselt:

  • ÜLEVAADE ANDMETEST JA ANDMESTIKEST on justkui vundament, millel andmehaldus seisab. Andmeid ei saa hallata, kui asutusel ei ole ülevaadet tal olemasolevatest andmetest. Hallatavate andmete tükkhaaval piiritlemiseks on võetud kasutusele kolmas oluline mõiste – andmestikud. Piiritlemiseta pole võimalik andmeid üksteisest eristada ega identifitseerida. Ülevaade andmetest tuleb saada ja seda tuleb hallata. Levinud haldusviisiks on luua andmekataloog. Keerukus seisneb selles, mida kataloogida ja siis hallata. Kui andmekogusid hallatakse infosüsteemi ja andmebaasi tasandil, siis analüütilisi andmestikke hallatakse faili tasandil ning teadusandmeid ja ka statistikat uuringu või statistakatöö (study) tasandil.
  • ANDMEKIRJELDUS JA ANDMETE MÕISTMINE on nende kasutamiseks kõige olulisem ja see toimub metaandmete abil. Metaandmed on andmed andmete kohta. Nende olulisuse rõhutamiseks öeldakse, et metaandmete kaudu juhitakse andmeid või kogu andmekasutusprotsessi. Olulisimad on kirjelduse metaandmed ehk andmekirjeldus. See pakub andmete mõistmiseks vajaliku konteksti ning just andmekirjelduse kaudu toimub andmete otsing. Ühes andmestikus võib olla miljoneid andmeelemente (muutujaid). Need peegeldavad üldistatavalt nähtusi, mille kohta nad käivad. Statistika uuribki selliseid massnähtusi. Ometi pole need nähtused andmestikes antud vahetult, vaid kontseptualiseeritult. Andmekirjelduse üks peamine eesmärk on anda sõnade ja mõistete abil edasi andmete tähendust. See tähendab, et andmekirjeldus on seotud paljude valdkondade oskuskeele ja erialaterminoloogiaga. Andmete mõistmine on nende tähenduse ning loomis- ja kasutuskonteksti mõistmine, see on andmeallika mõistmine.
  • ANDMEKVALITEET, PÕHIANDMED JA LOENDID on olulised usalduse loomiseks, teiseseks kasutuseks ja võrdlusteks. Andmeid kasutades on alati oluline teada, kas need andmed on selleks sobivad ehk õiged. Andmekvaliteedi kindlakstegemine, tagamine ja tõstmine sisaldab sobiliku andmekvaliteedimudeli rakendamist. Andmekvaliteedi tagamine algab juba andmete saamisest. Andmete autentsuse ja usaldusväärsuse aluseks on see, kui kvaliteetselt on andmed kogutud, töödeldud ja hoitud. Sageli kasutatakse andmekvaliteedi tagamiseks kindlaksmääratud sõnu ja koode sisaldavaid ettemääratud kategooriate loendeid ehk koodiloendeid. Sellisteks loenditeks on statistilised klassifikaatorid, mis sisaldavad ulatuslikke liigitusi ja hõlbustavad analüüsi. Koodid võimaldavad andmeid hõlpsalt rühmitada ning ajas ja ruumis võrrelda. Teine andmekvaliteediga seotud omaette kategooria on põhiandmete käsitlus. Põhiandmetel on avaliku teabe seaduses legaaldefinitsioon: need on andmekogu unikaalsed andmed, seotud just selle andmekogu eesmärgiga. Üleriigiliselt on andmekogudes põhiandmeid aga kümneid tuhandeid ja need ei ole unikaalsed. Põhiandmed peavad olema väga kõrge kvaliteediga tõeallikaks, mida teised saavad vajadusel usaldusväärselt kasutada.
  • ANDMETE KASUTAMINE JA TEENUSED on andmete olemasolu lõppeesmärk, lausa causa finalis. Andmed, mida ei saa kasutada näiteks nende kehva kvaliteedi või ebausaldusväärsuse tõttu või mida lihtsalt üles ei leita, kui neid parajasti vajatakse, on kasutud. Andmete kasutamine peab asutuses olema kontrollitud või teadlikult avalikuks tehtud, nagu avaandmete ja avaliku teabe puhul. Andmete kasutamise kontroll tähendab sageli seda, et  tööalase vajaduseta ei pruugi asutuses olevad andmed olla kasutatavad ka asutusesiseselt. Andmeid kasutatakse infoühiskonna teenustes, sh andmeteenuses X-tee kaudu. Selline teenus võib olla osa protsessist, menetlusest või sündmusteenusest, sidudes info- ja andmehaldust üha enam. Andmeid vahetavates teenustes toimub üleminek dokumentidelt (PDF- ja digiallkirjastatud failid) andmestruktuuride otsesele salvestamisele süsteemist süsteemi. Sageli nimetatakse seda masin-masin liideseks ja masinloetavateks andmeteks. Omaette ploki andmete teiseses kasutamises moodustab andmete kasutamine juhtimisotsusteks. Seda armastatakse nimetada andmepõhisuseks. Andmepõhiste otsuste tegemine nõuab kiiresti leitavaid usaldusväärseid andmeid. Andmete teisene kasutamine on vajalik aruandluseks, planeerimiseks, ühekordseteks analüüsideks ja otsusteks ning statistikaks. Tehnilisest andmeteenusest ehk X-tee teenusest eraldi on andmejagamisteenus, mille õiguslik regulatsioon lubab ühel eesmärgil kogutud andmete teisest kasutamist poliitika kujundamisele suunatud üksikotsusteks, aga mitte konkreetsetele isikutele suunatud haldustoiminguteks.
Põhimõtted ja raamistik

Kuigi andmehaldus on kiiresti arenev valdkond, on sel siiski välja kujunenud mitmed kindlad põhimõtted. Kõige olulisem neist on see, kuidas vaadatakse n-ö oma objekti ehk andmeid. Andmeid käsitletakse organisatsiooni kui terviku seisukohast. Andmeid haldab just organisatsioon. Avalikus halduses laieneb see riigi ja kohaliku omavalitsuse organitele ehk teisisõnu, andmeid haldab riik. Kuigi me oleme kõik andmesubjektid ja andmed on ettevõtete valduses, ei kao kuhugi asutuste vastutus nende käes olevaid andmeid hallata. Avaliku teabe seadus kasutab termineid „vastutav töötleja" ja „volitatud töötleja" küll kitsamalt andmekogu osas, kuid samu õigustermineid rakendatakse ka isikuandmete töötlemisel. Levinud on üldistav põhimõte, et andmeid käsitletakse varana.

Andmehaldus on organisatsiooni tegevusvaldkond, mis võimaldab hallata andmeid varana.

Digitaalseid andmeid ei saa hallata tehnoloogiata. Andmehaldus on sarnaselt muudele valdkondadele vaadeldav kolmnurgas inimesed − tehnoloogia − protsessid (joonis 3).

Joonis 3. Inimesed, tehnoloogia, protsessid andmehalduses
Joonis 3. Inimesed, tehnoloogia, protsessid andmehalduses

Andmehalduse korraldamisel on vaja silmas pidada kõiki kolme komponenti. Kui üks neist puudub, siis andmehaldus ei õnnestu. Sagedase ebaõnnestumise põhjusena tuuakse välja, et andmehaldust on vaadeldud liigselt või peaasjalikult tehnoloogilise projektina. Andmehaldus ei ole vaid tehnoloogiline projekt, ehkki õigete rakenduste kasutamiseta on see samuti võimatu. Kõige alus on inimesed, paikapandud rollid, vastutus ja tegevused. Väljatöötatud ja juurutatud protsessid peavad andmehaldust toetama rutiinselt, teisi tegevusi koormamata ja takistamata. Seda kõike peavad toetama õiged tarkvararakendused, mis on lihtsasti kasutatavad ka teistele töötajatele peale andmehaldurite.

Andmehalduse toimimiseks organisatsioonis on vaja paika panna rollid, vastutus ja tegevused.

Professionaale ühendav ühing Data Governance Institute on toonud välja loetelu andmehalduse eesmärkidest. Selle järgi peaks andmehalduse korraldus asutuses:

  • võimaldama teha paremaid otsuseid;
  • muutma asutuse tööprotsessi sujuvamaks;
  • kaitsma andmetega seotud sidusrühmade vajadusi;
  • edendama juhtkonna ja töötajate seas ühtset lähenemisviisi andmehaldusteemadele;
  • välja töötama ühtseid ja korratavaid lahendusi andmetega seotud küsimustes;
  • vähendama valdkonna koordineerimise kaudu kulusid ja tõstma efektiivsust;
  • tagama andmekasutuse läbipaistvuse.

Eeltoodu põhjal saame välja tuua järgmised andmehalduse põhimõtted:

  • (VALDKOND) Andmehaldus on eraldi tähelepanu vajav valdkond, mis tugifunktsioonina toetab põhiprotsesse ja juhtimist ning on lähedalt seotud infohalduse ja infotehnoloogiaga. Andmehaldus lähtub organisatsiooni vajadustest ning avalikus sektoris tagab õigusaktidega sätestatud ülesannete täitmise (avaliku teabe seadus).
  • (PÕHIÜLESANNE) Andmehalduse põhiülesanne on tagada, et asutuse valduses olevad andmed, mis on tema vara, oleksid hästi hallatud, andmetest oleks ülevaade, andmete kasutamine oleks läbipaistev (transparency principle) ja selle kohta oleks võimalik anda selgitusi (accountability principle). Samuti tuleb tagada, et andmed oleksid volitamata töötlemise vastu kaitstud ja andmete töötlemisel arvestataks kodanike õigustega, sh isikuandmete kaitse nõuetega.
  • (PÕHIEESMÄRK) Andmehalduse põhieesmärk on lihtsustada ja kiirendada andmetega tehtavat tööd ning tagada andmete leitavus, usaldusväärsus ja kasutatavus. Just see teeb andmetest väärtusliku vara ja võimaldab asutustel täita neile pandud ülesandeid.
  • (ANDMEVAHETUS) Eestis kui e-riigis toimib andmete taaskasutamine nii üksikutes teenustes, analüüsides kui ka poliitika planeerimises. Andmete teisese kasutamise võimaldamine on  e-riigi toimimise keskne põhimõte. Et see saaks üksikisiku õigusi riivamata ja turvaliselt toimida, peab asutustevaheline andmevahetus olema ülevaatlik. Andmete teisese kasutamise ehk taaskasutamise (twice-use principle) põhimõtte järgimine võimaldab omakorda rakendada andmete ühekordse küsimise printsiipi (once-only principle).
  • (VASTUTUS) Organisatsioonis peab olema määratud kindel andmehalduse eest vastutamise kord. Organisatsiooni struktuuri eripärast sõltuvalt võivad vastutust kanda eri rollid alates andmehalduse eest vastutajast juhtimise tasandil kuni iga töötaja vastutuseni. Olulisim on andmehalduri rolli ja vastutuse määramine. Vastutuse liigne koondamine ühe töötaja kätte ega ka liigne hajutatus pole õige.
  • (SEOS RIIGI IT-ARHITEKTUURIGA) Andmehaldus asutuses on õiguslike regulatsioonide, tehnoloogia ja rakenduste kaudu seotud riigi IT juhtimisega, eriti riigi infosüsteemi koostalitlusvõimega (semantic interoperability). Riigi infosüsteemi haldussüsteemi (RIHA) eesmärk on riigi infosüsteemi kuuluvate andmekogude ja andmekogudega seotud infosüsteemide üle arvestuse pidamine (registreerimine), nendes olevatest andmetest ülevaate omamine andmekogude koostalitlusvõime toetamiseks ning andmekogude nõuetele vastavuse kontroll dubleerivate andmekogude vältimiseks ja ühtsete klassifikaatorite kasutuse tagamiseks. Need riigi andmehalduse põhimõtted kehtivad asutustele ja asutuse andmehalduse korralduseks on loodud RIHAga ühilduv rakendus RIHAKE.
  • (SEOS INFOHALDUSEGA) Andmehaldus ei toimi omaette. Kõrvuti IT-ga on sel ulatuslik kokkupuude info- ehk teabehaldusega. Teenuste korraldamise ja teabehalduse aluste määrus käsitleb andmehaldust teabehalduse alategevusena. Teabehalduse korraldamisel peavad asutused arvestama andmehalduse põhimõtetega ning nende erinevustega üldisest teabehaldusest. Suuremad kokkupuutepunktid on teabe korrastamisel saadav ülevaade, elukäiguhaldus ja säilitustähtajad, samuti juurdepääsutingimustega seonduv.
DAMA käsiraamatus toodud põhimõtted (DAMA põhimõtted)

Teiseks oluliseks andmehalduse põhimõtete esituseks on DAMA käsiraamatus toodu (Dama International, 2017). Selle kohaselt on andmehalduses olulised alljärgnevad 13 põhimõtet:

PÕHIMÕTE MÄÄRATLUS
1. Andmed on vara, millel on eripärased omadused Andmed on vara, mis erineb muudest varadest olulisel määral selle poolest, kuidas seda hallatakse. Kõige ilmsem andmete eriomadus on see, et neid ei tarvitata nende kasutamise käigus ära, nagu see toimub finants- või  füüsilise varaga.
2. Andmete väärtust saab ja peab väljendama majanduslikes terminites Kui nimetame andmeid varaks, tähendab see, et andmetel on väärtus. Kuigi on olemas kvalitatiivseid ja kvantitatiivseid andmete väärtuse mõõtmise viise, puudub seni ühtne standard. Organisatsioonid, kes tahavad teha oma andmete kohta paremaid otsuseid, peavad paika panema järjekindla viisi andmete väärtuse mõõtmiseks. Nad peavad mõõtma nii halva andmekvaliteedi hinda kui kõrge andmekvaliteedi kasu.
3. Andmete haldamine tähendab nende kvaliteedi haldamist Andmehalduse põhieesmärk on tagada, et vajalikud andmed oleksid olemas. Andmete kvaliteedi haldamiseks peab organisatsioon teadma andmete omanike poolt esitatud andmekvaliteedinõudeid ja andmeid vastavalt nendele nõuetele hindama.
4. Andmete haldamiseseks on vaja metaandmeid Igasuguse vara haldamiseks on vaja andmeid selle vara kohta. Andmeid, mille abil andmevara hallatakse ja kasutatakse, nimetatakse metaandmeteks. Kuna andmeid endid ei saa muud moodi hallata kui metaandmete abil, peavad andmed olema mõistetavaks tehtud, seda eelkõige nende määratluste kaudu. Metaandmed pärinevad mitmetest andmevaraga seotud protsessidest, nagu andmete loomine, andmetöötlus ja andmete kasutamine, andmearhitektuur ja andmemudelid, samuti haldusprotsessid, kvaliteedihaldus, arendus, äriprotsessid ja andmeanalüüs.
5. Andmete haldamist on vaja kavandada Isegi organisatsioonidel, mis pole suured, võivad olla komplekssed tehnilised ja äriprotsessid. Andmeid luuakse mitmes kohas ja need liiguvad eri kohtade vahel. Tegevuste koordineerimiseks ja tulemite kindlaksmääramiseks on vaja arhitektuuri ja protsessi vaates planeerimist.
6. Andmehaldus puudutab mitmeid valdkondi ja nõuab ulatuslikke eriteadmisi ja -oskusi Üksik rühm ei suuda hallata kogu organisatsiooni andmeid. Andmehaldus nõuab nii tehnilisi kui ka mittetehnilisi oskusi ning koostöövõimet.
7. Andmehaldust on vaja korraldada organisatsiooni tasemel Andmehaldusel on lokaalsed rakendused, kuid selle efektiivseks toimimiseks peab andmehaldust rakendama üle terve organisatsiooni. See on ka üheks põhjuseks, miks andmehalduse igapäevatöö ja korralduslikud küsimused on omavahel läbi põimunud.
8. Andmehaldus peab andma ülevaate andmetest eri rollides kasutajatele Andmed on liikuvad. Andmehaldus peab pidevalt olema kursis sellega, kuidas andmed luuakse ja millised kasutajad neid töötlevad.
9. Andmehaldus hõlmab ka andmete elukäigu haldust Andmetel on elukäik ja andmehaldus on ka andmete elukäigu haldus. Kuna andmed sünnitavad lisaandmeid, on elukäik kompleksne. Andmehaldus peab omama ülevaadet andmete elukäigust.
10. Eri tüüpi andmetel on erinev elukäiguhaldus Mitmel põhjusel on andmetele erinevad haldusnõuded. Andmehaldus peab neid praktikas silmas pidama ja olema küllalt paindlik, et saaks järgida erinevaid nõudmisi andmete elukäigu haldusele.
11. Andmete haldamine hõlmab ka nendega seotud riskide haldamist Peale selle, et andmed on vara, on nad organisatsiooni jaoks samal ajal ka risk. Andmed võivad kaduda, varastatud või väärkasutatud saada. Organisatsioonid peavad arvestama andmete kasutamisest tulenevate eetiliste mõjudega. Andmetega seotud riske tuleb hallata osana nende elukäigu haldusest.
12. Andmehalduse vajadused peavad suunama infotehnoloogilisi otsuseid Andmed ja andmehaldus on tihedalt läbi põimunud infotehnoloogia ja selle haldamisega. Andmehaldus käsitleb organisatsiooni strateegilisi vajadusi andmete järele selliselt, et infotehnoloogia oleks vajaduste teenistuses, mitte ei juhiks seda.
13. Efektiivne andmehaldus nõuab juhtkonna pühendumist Andmehaldus kujutab endast tegevuste kompleksi, mille  efektiivseks toimimiseks on vaja koordineerimist, koostööd ja pühendumist. Selleni jõudmiseks on vaja lisaks juhtimisoskustele ka visiooni ja asjasse pühendunud juhtkonna toetust.

 

Andmed on kasutamiseks, FAIR põhimõtted

Andmehalduse lõppeesmärk on parandada andmekasutust. Andmekasutuse võimalused ja põhimõtted on mitmes mõttes üksteisest erinevad. Suurettevõtted koguvad andmeid ärieesmärgil. Avalik sektor dokumenteerib oma tegevust ning suur osa sellest on avalik teave, sh andmekogude avaandmed. Uuringud ja teadus on muutunud sedavõrd andmekeskseks, et teadusandmete kasutamiseks on kokku lepitud põhimõtted; üksikisikutena kasutame andmeid nii argielu korraldamisel kui ka põhjalikuma infovajaduse puhul.

Euroopa Liit on määratlenud mitmete valdkondade andmestikud kui eriti väärtuslikud, kuna need on seotud ühiskonnale, keskkonnale ja majandusele oluliste hüvedega. Seda eelkõige nende andmestike sobivuse tõttu lisaväärtusteenuste ja -rakenduste loomiseks, uute kõrge kvaliteediga ja inimväärsete töökohtade loomiseks; samuti ka sellistest teenustest ja rakendustest kasu saavate inimeste arvu silmas pidades. Selliseid andmeid käsitletakse avaandmetena: (1) georuumilised andmed, (2) maa seire ja keskkonnaandmed, (3) meteoroloogiateave, (4) statistika, (5) äriühingud ja äriühingu omandisuhete andmed, (6) liikuvusandmed.

Eestis on avaliku sektori andmetele vaadatud andmekogude ja riigi infosüsteemi vaatepunktist. Andmekogude asutamine ja pidamine on õiguslikult reguleeritud avaliku teabe seaduse andmekogude peatükiga ning andmekogud moodustavadki riigi infosüsteemi. Sellele saavad tugineda andmeteenused, st X-tee teenused. Andmete kasutamist ühtlustavad riigi infosüsteemi kindlustavad süsteemid, sh klassifikaatorite süsteem, aadressiandmete süsteem, X-tee ja RIHA. Lisaks andmekogudele on (neis olevaid andmeid osalt dubleerides) rida andmestikke ja andmevarasid, mida kasutatakse igapäevaselt teenuste pakkumiseks, analüüsiks, statistikaks ja otsuste langetamiseks. Need andmestikud võivad sisaldada avaandmeid, suurandmeid, mis pärinevad näiteks keskkonnaseirest või asjade internetist (IoT), või muud eri laadi andmeid, millega tegeleb andmeteadus.

Kuigi andmeteadus ja teadusandmed pole üks ja seesama, sobivad teadusandmete kasutamiseks kokkulepitud põhimõtted ka andmehaldusele laiemalt. Need FAIR-põhimõtted (Wilkinson et al., 2016) ütlevad, et andmeid tuleb vaadelda nende elukäigu haldamisel neljast aspektist ehk andmed peavad olema (joonis 4):

  • leitavad (findable)

Esimene samm andmete (taas)kasutamisel on nende ülesotsimine. Andmed ja metaandmed peaksid olema kergesti leitavad nii inimestele kui arvutitele.

  • kättesaadavad (accessible)

Kui kasutaja on soovitud andmed leidnud, vajab ta neile juurdepääsu, mis võib nõuda kasutaja autentimist ja autoriseerimist.

  • ühilduvad (interoperable)

Saadud andmed seostatakse tavaliselt juba olemasolevate andmetega. Selleks on vajalikud tarkvarad ja töövood, mida kasutatakse analüüsil, salvestamisel ja töötlemisel.

  • taaskasutatavad (reusable)

FAIR-põhimõtete rakendamise peamine eesmärk on lihtsustada andmete taaskasutust. Selle saavutamiseks peavad metaandmed ja andmed olema hästi kirjeldatud, et neid saaks taaskasutada ja kombineerida erinevates keskkondades.

Joonis 4. FAIR-põhimõtted
Joonis 4. FAIR-põhimõtted
Põhimõtete rakendamine

Andmehalduse põhimõtete rakendamiseks koostasime aastal 2020 raamdokumendi „Eesti andmehalduse raamistik". Raamistik vaatleb andmehaldust kui kombinatsiooni inimestest, protsessidest (reeglitest) ja tehnoloogiatest ning tagab organisatsiooni andmete juhtimise ning kaitse.

Selleks et andmehaldus seisaks organisatsioonis tugevatel alustel, peab see sisaldama (joonis 5):

  • juhtimise komponenti ja eesmärke;

  • protsesse ja reegleid;
  • kokkulepitud tegevuskava;
  • probleemihaldust;
  • andmehaldusprojekte.
Joonis 5. Andmehalduse raamistiku komponendid
Joonis 5. Andmehalduse raamistiku komponendid

Andmehalduse raamistikus on komponendid lahti kirjutatud järgmiselt:

  • juhtimine ja eesmärgid: edukas andmehaldus algab visioonist ja teadlikust juhtimisest; andmehalduse tegevused juhinduvad informatsiooni ja andmete elutsükli käsitlusest, mis omakorda baseerub organisatsiooni strateegial;
  • protsessid ja reeglid: kehtestatud töökorraldus andmete, sõnastike, mudelite haldamiseks ning kokkulepped äri-, kvaliteedi-, andmete jagamise ja turvareeglite loomiseks ja järgimiseks;
  • kokkulepitud tegevuskava: kuna kõik andmehalduse meetmed nõuavad kooskõlastamist organisatsiooni ülesandeid täitvate erinevate struktuuriüksuste vahel, peab andmehaldus looma ja järgima kindlat tegevuskava, mis määratleb osapoolte vastutuse ja koosmõjud;
  • probleemihaldus: andmete juurdepääsude, andmekvaliteedi, vastutuse ja reeglite, mõistete ning andmehalduse protseduuridega kaetusega seonduvate probleemide tuvastamine, määratlemine, teadvustamine ja lahendamine; lisaks andmeturbe ja juurdepääsuõiguste haldamine;
  • andmehaldusprojektid: andmehalduse parendamiseks tehtavad IT-arendused.

Andmehaldus on kombinatsioon inimestest, protsessidest, reeglitest ja tehnoloogiatest eesmärgiga tagada organisatsioonide andmete juhtimine ja kaitse.

Andmehalduse raamistikku ja selle komponentide rakendamist kirjeldatakse lähemalt andmehalduse koordineerimise teema all.

Andmed, informatsioon, teadmus ning mõistmine

Sageli peetakse andmeid toormaterjaliks, millest vormitakse tarkus ja otsused. Ka krati jaoks on andmed vara, mida peremees ta kokku kraapima on saatnud. Teisisõnu tuleb andmetest teadmuse kättesaamiseks need nii inimesele kui ka masinale interpreteeritavaks muuta. Inimesele ongi sellised andmed mõistetav info; arvutile aga töödeldud info lihtsast ekraanil kuvamisest kuni keerukate andmeteaduse ja masinõppemeetodite rakendamiseni, et leida eelnevast teadmisest midagi uut.

Andmehalduse üks laiem eesmärk on toetada nii inimest kui ka masinat andmete mõistmisel ja kasutamisel. Valgustuslik maailmapilt ja ratsionaalne riik on olnud arvamusel, et julgus kasutada mõistust võimaldab meil omandada teadmisi, langetada õigeid otsuseid ja loota paremat tulevikku. Levinud on skeemi andmed – informatsioon – teadmus – mõistmine (tarkus) kujutamine püramiidina. See näitab, et mitteinimloetavatest andmetest on võimalik kätte saada tarkus ja teadmine, kuidas toimida või milliseid otsuseid langetada. Järgneval joonisel on see püramiid esitatud astmetena, näidates, kuis me küsimusi küsides andmetest vastuseid leiame.

Joonis 6: Teadmiste püramiid ja andmete põhjal küsimuste küsimine
Joonis 6: Teadmiste püramiid ja andmete põhjal küsimuste küsimine

Andmehaldusel ei ole mõtet, kui me ei esita küsimusi, millele tahame andmetest vastuseid leida. Nõnda tekkis ka riiklik statistika, kui riigi valitsejad hakkasid huvi tundma küsimuste vastu, mis oma olemuselt olid massnähtused, ja nõudsid vastamiseks andmeid. Selline küsimuste esitamine sarnaneb mistahes õpiprotsessiga algklassidest ülikoolini. Joonisel on see kujutatud arusaamise ringina, milles me oma eelteadmiste najal formuleerime küsimuse ja hakkame sellele vastust otsima. Infot otsima asudes me veel ei tea, kust me uuele küsimusele vastuse leiame. Siin mängivadki keskset rolli andmekirjeldus ja metaandmed, kuna otsida saab ainult kohtadest, mis on otsitavad. Otsivahendeid on külluses, aga vajadus koha järele, kust üle riigi andmeid otsida, on ülisuur. Seda, millised andmestikud on küsimusele vastuse leidmiseks just parimad, saab teada nii kirjelduse metaandmetest kui muust kontekstist. Mõnel juhul on vaja algandmeid ja üksikandmeid, teisel juhul andmetöötlusi. Leitud andmetesse tuleb suhtuda allikakriitiliselt.

Igal juhul on kindel, et andmetest kui faktidest ei tõuse vastus iseenesest, need nõuavad interpretatsiooni. Faktid sellel juhul iseenda eest ei räägi. Ainult inimese tõlgenduse või analüütilise sügavuse ja sageli andmete visualiseeringu abil on võimalik sügavam arusaamine, parem mõistmine ja targemate otsuste langetamine.

Kasutatud allikad

Dama International. (2017). DAMA-DMBOK: Data Management Body of Knowledge (2nd ed.). Technics Publications.

Data Governance Institute. (kuupäev puudub). Goals and Principles for Data Governance. https://datagovernance.com/the-data-governance-basics/goals-and-principles-for-data-governance/

Eesti andmehalduse raamistik: Eesti andmehalduse metoodikaprojekt. (2020). https://www.stat.ee/sites/default/files/2022-03/Eesti%20andmehalduse%20raamistik_2020.pdf

Wilkinson, M. D., Dumontier, M., Aalbersberg, Ij. J., Appleton, G., Axton, M., Baak, A., Blomberg, N., Boiten, J.-W., da Silva Santos, L. B., Bourne, P. E., Bouwman, J., Brookes, A. J., Clark, T., Crosas, M., Dillo, I., Dumon, O., Edmunds, S., Evelo, C. T., Finkers, R., … Mons, B. (2016). The FAIR Guiding Principles for scientific data management and stewardship. Scientific Data, 3(1), 160018. https://doi.org/10.1038/sdata.2016.18

Head kliendid! Hooldustööde tõttu toimub 26. veebruaril ajavahemikus 14.00–18.00 statistikaameti  veebilehtedel  katkestus. Vabandage!