Statistikaameti andmekool #6: Registriandmed ehk taaskasutus on moes ka statistikas

Blogi
Postitatud 7. märts 2024, 16.01 , rahvastiku ja hariduse tiimi juht Terje Trasberg

Mõned nädalad tagasi kirjutasime, kuidas moodustatakse uuringute valimid. Lugu jäi lõpetama mõte, et uued andmekogumismeetodeid vähendavad vajadust uuringuteks. Rahva ja eluruumide loendus on ilmekas näide sellest, kuidas uuringult on üle mindud registriandmete kasutamisele. Kuidas käib registripõhise statistika kokkupanemine, kirjutab rahvastiku ja hariduse tiimi juht Terje Trasberg.

Kuidas kogutakse Eesti elu puudutavaid andmed ja mida nendega tehakse? Kuidas saab rahvaloendusel kõik Eesti inimesed üles lugeda, kui minu ukse taga ei käinud keegi? Kuidas minu elu sellest paremaks muutub, kui SKP-d arvutatakse? Statistikaameti blogisari „Andmekool“ tutvustab ameti tööd ja statistika tegemist lähemalt!

Mõned nädalad tagasi kirjutasime, kuidas moodustatakse uuringute valimid. Lugu jäi lõpetama mõte, et uued andmekogumismeetodeid vähendavad vajadust uuringuteks. Rahva ja eluruumide loendus on ilmekas näide sellest, kuidas uuringult on üle mindud registriandmete kasutamisele. Üle-eelmisel loendusel (2000) kaasati andmete kogumiseks pea 5000 küsitlejat, kes külastasid kõiki Eesti eluruume. 2011. aasta loenduseks oli küsitlejate arv kahanenud enam kui poole võrra ja pea 70% elanikest loendati veebiküsitluse teel. Seni viimasel loendusel (2021) koguti suurem osa andmetest juba erinevatest riiklikest andmekogudest.

Peale statistikaameti koguvad andmeid ka teised asutused, kuid enamasti mitte statistika tegemise eesmärgil, vaid mõne teenuse osutamiseks või aruandluseks. Osa andmeid koguneb mõne tegevuse või elusündmuse käigus: näiteks sünniandmed sünniregistrisse ja surmad surma põhjuste registrisse. Eestis Hariduse Infosüsteemis (EHIS) on info selle kohta, kes millise kraadi on omandanud või kes töötavad õpetajatena. Samamoodi on eraldi andmekogu tööl käimise kohta, mida haldab Maksu- ja Tolliamet. Töötukassa peab arvet tööotsijate ja Sotsiaalkindlustusamet erinevate toetuste maksmise kohta. On ka selliseid registreid, millega kodanikud on harjunud ise „suhtlema“. Näiteks terviseportaal arsti vastuvõtu broneerimiseks, liiklusregister sõiduki registreerimiseks ja ehitisregister ehituslubade taotlemiseks.

„Once-only“ printsiip

Paljudes registrites on andmeid, mida saab taaskasutada riikliku statistika kokkupanemiseks, vähendades sellega oluliselt nende andmete mahtu, mida statistikaamet erinevate küsitlustega koguma peab. Kokkuhoiule mõeldes on Eesti riigisektoris võetud eesmärgiks järgida “once only” ehk andmete ühekordse küsimise põhimõtet. See tähendab, et kodanikud ega ettevõtjad ei peaks riigiasutustele edastama sama informatsiooni rohkem kui üks kord. Suunitlus taaskasutada registrite andmeid riikliku statistika tegemisel on toodud välja riikliku statistika seaduses (§29 Andmekogude kasutamine) ning Euroopa määruses 223/2009 (Artikkel 17a). Andmete taaskasutamise eesmärk on vähendada isikute vastamiskoormust ning hoida kokku riigi ressursse.

Andmed lahkuvad Statistikaametist vaid statistikana

Kuid riiklike registrite andmete kasutamisele on oma reeglid. Statistikaamet peab sõlmima iga registri haldajaga lepingu, kus on kokku lepitud, milliseid andmeid jagatakse. Ametile edastatakse vaid need andmed, mida on vaja statistika kokkupanemiseks. Andmed võetakse registrist välja ja saadetakse statistikaametisse kokku lepitud kuupäeva seisuga või mõne kindla perioodi kohta. Nii saab statistikaamet rahvastikuregistrist iga aasta 1. jaanuari seisuga väljavõtte ning Tervise Arengu Instituudist andmed möödunud aasta sündide ja surmade kohta. Statistikaametisse jõudes andmed pseudonümiseeritakse, mis tähendab, et neist eemaldatakse igasugune konkreetsele isikule viitav info. Oluline on välja tuua, et statistikaametist „lahkub“ info vaid statistikana ning statistikaamet ise registritesse andmeid ei anna.

Kuidas registrite andmeid statistika tegemisel kasutatakse?

Registrites on andmed enamasti mõne kindla rahvastikurühma kohta, sõltuvalt registri otstarbest (näiteks õppijad või autoomanikud). Erandiks on rahvastikuregister, kus on andmed kogu Eesti rahvastiku kohta. Seega tuleb statistika tegemiseks andmeid omavahel kombineerida.

Ühest näitest registrite andmete kasutamisel kirjutasime andmekooli 2. osas Täpne rahvaarv selgub pea 70 miljoni andmerea analüüsimisel. Kuid näiteid rahvastikustatistikast on veel.

Näiteks on vaja rahvaloendusel määrata inimese kodakondsus ja haridustase. Kodakondsusega on lihtne: 99%-l inimestest on see info olemas rahvastikuregistris ja ülejäänute kodakondsus leitakse kas 2011. aasta rahvaloenduse andmetest või LTR-ist (Välismaalase lühiajalise Eestis töötamise registreerimsie andmekogu). Haridusega on keerulisem ja seal tuleb kombineerida andmeid kuuest erinevast allikast. Sellisel juhul eelistatakse allikaid, kuhu koguneb info mõne dokumendi põhjal. Hariduses on selleks näiteks EHIS. Kui kellegi haridusandmed jäävad sealt leidmata (inimesed, kes omandasid hariduse väljaspool Eestit), vaadatakse andmeid juurde rahvastikuregistrist või 2011. aasta rahvaloenduse andmetest.

Andmeallikate kasutamine 2021. aasta rahvaloenduse tulemuste saamiseks on kirja pandud Rahva ja eluruumide loenduse metoodika raportisse.

Miks ei tehta kogu statistikat registrite põhjal?

Kõiki statistika tegemiseks vajalike andmeid registrites siiski ei leidu. Mõningal juhul on tegu tunnetusliku infoga, mida ei saagi registrisse koguda. Selleks on näiteks inimese hinnang oma tervisele, mille kohta kogutakse infot terviseuuringu raames või tunnetuslik toimetulek, mida uuritakse Eesti Sotsiaaluuringus ja mille andmed on aluseks ilmajäetuse, suhtelise ja absoluutse vaesuse näitajate arvutamisele. Mõningal juhul on andmed registris küll olemas, kuid nad ei ole piisavalt hea kvaliteediga, ei vasta täpselt Euroopa määruses välja toodud definitsioonile või ei laeku andmed registrisse selleks ajaks, kui on tarvis statistika avaldada.

Registri- ja küsitlusandmete kombineerimise vajaduse kohta saad lähemalt lugeda Andmekooli 5. osast siit (lõik „Kas seda kõike maksuameti andmete põhjal ei saaks teada?“)

Parem andmekvaliteet viib paremate otsusteni

Andmete kvaliteedi parandamiseks käib järjepidev töö. Möödunud kümnel aastal toimusid rahva ja eluruumide loenduse ettevalmistamiseks riiklikes registrites ulatuslikud ettevalmistustööd, mille raames parandati registriandmete kvaliteeti. Mõningal juhul lisati ka juurde tunnuseid, mida on tarvis rahvastikustatistika kokkupanemisel. Kuigi statistikamet ei saa riiklike registrite andmeid ise muuta ega parandada, on meil oluline roll riiklike andmete haldamisel ja korrastamisel. Statistikaamet saab registripidajale anda tagasisidet nende andmete kasutamise kohta riikliku statistika tegemisel.

Seega saab registripõhine statistika toimida vaid heas koostöös statistikaameti ja registripidajate vahel. Koostöö edendamiseks korraldas statistikaamet jaanuaris ka kohtumise, mille raames arutati registriandmete kvaliteedi üle. Ürituse esitlusi saab vaadata siin. Statistikaamet on koostanud ka juhise, mille alusel asutused saavad oma registrite kvaliteeti hinnata. Samuti on määrusega pandud asutustele kohustus andmekvaliteediga tegelemiseks ning need meetmed koos kindlasti parandavad nii registrite andmekvaliteeti kui võimaldavad neid statistika tegemiseks veel enam kasutada.

Andmekvaliteet on oluline andmete väärtuse kriteerium ning sellest saavad kasu kõik – poliitikakujundajatest kodanikuni välja – sest vaid kvaliteetsete ja ajakohaste andmete põhjal saab teha õigeid otsuseid Eesti riigi juhtimiseks.

Andmete korrashoidmiseks saab panuse anda iga inimene ise!  

Kontrolli enda andmeid erinevates registritest:

 

Täpsem teave:

Kai Kaljumäe
kommunikatsioonipartner
statistika levi osakond
statistikaamet
tel 625 9181
press [at] stat.ee (press[at]stat[dot]ee)

Foto: Shutterstock