REGREL. Isehakanud Norra kuningatest ja sellest, miks registreid võib usaldada

Blogi
Postitatud 28. november 2019, 16.05

Igal loendusel tekivad vead ja need on vältimatud. Registreid kasutades ja neis olevaid vigu parandades saavad andmed ajas korda ega kerki enam esile isehakanud Norra kuningaid ja olematuid presidente.

Igal loendusel tekivad vead ja need on vältimatud. Registreid kasutades ja neis olevaid vigu parandades saavad andmed ajas korda ega kerki enam esile isehakanud Norra kuningaid ja olematuid presidente.

Diana Beltadze, Statistikaameti rahva ja eluruumide registripõhise loenduse projektijuht

Igasuguse meetodiga saadud loendustulemused on väärtuslikud, kuid loendusel tekkivatest vigadest eriti ei räägita, sest statistikaamet korrastab andmed kellelegi kurtmata ära ja teeb kõik selleks, et need oleksid kenasti statistikas kasutatavad.

Viimasel ajal on palju tähelepanu juhitud sellele, et registrites esineb ebatäpsusi ja puuduvaid väärtusi. Vigade esinemise sagedust registrites on hinnatud uut loendust ette valmistades alates aastast 2007, lisaks esimese ja teise prooviloenduse käigus. Kokkuvõtlikult võib tõdeda, et registrite andmed on kvaliteetsemad ja lisaks on ülevaade vigadest registripõhise loenduse korral parem kui tavaloendusel. Miks?

Haihtunud presidendid ja polüglotid

Tavaloendusel on vigu keerulisem ette näha. Vigaseid ja puuduvaid väärtusi esines ka 2011. aasta rahvaloenduse tulemustes ja nende parandamiselekulus kümme kuud.

Enamasti parandatakse loendusel saadud vead statistilisi meetodeid kasutades. Nii saavad valeandmete esitajad alles loenduse andmestikku uurides teada, et vaatamata nende ütlustele, ei ole meil Norra kuningaid, igat masti presidente, maailmale tundmatuid usundeid, rahvuseid, uskumatult andekaid polüglotte ja teisi imepäraseid nähtusi.

Kõige levinum meetod loendusandmete kvaliteedi tagamiseks on imputeerimine, mille käigus täidetakse puuduvad andmelüngad sobivate väärtuste või objektidega. Näiteks otsus lugeda Eesti elanike hulka isik, kes elab ühes, kuid on registreeritud teise elukohta, tehakse registri andmete põhjal, mitte selle järgi, et ta keeldus enda loendusest või ei lubanud loendajat koju.

Andmelüngad võivad tekkida eri põhjustel, näiteks jäi e-loendusel vastajal ankeet pooleli või andis vastaja andmeid teise isiku kohta ega teadnud kõikidele küsimustele vastust.

Aastal 2011 kasutati loenduse andmete töötlemisel andmeallikatena ja eeltäitmiseks registreid (rahvastikuregistrit, Eesti hariduse infosüsteemi, REL2000 andmebaasi), mille kvaliteeti oli analüüsitud. Näiteks isikukoodi, kodakondsuse või perekonnaseisu kohta andis andmed rahvastikuregister; rände, rahvuse, inimeste eluruumide kohta sai lisateavet REL2000 andmebaasist; hariduse ja õppeasutuste kohta aga Eesti hariduse infosüsteemist.

Kuidas tagada andmete täpsust?

Kindlasti tuleb hinnata iga loenduse täpsust. Eelmisel loendusel jäi loendamata umbes 2,3% rahvastikust. Teise prooviloenduse tulemuste põhjal 2019. aastal võib väita, et registritest saame püsielanike info nüüd paremini kätte. Loendamata isikute arv on olulisel määral väiksem.

On mitu võimalust hinnata loenduse andmekvaliteeti, näiteks võrrelda tavaloendusel kogutud andmeid registriandmetega või kasutada valikuuringute andmeid. Sellepärast on tavaline, et statistikaamet korraldab kontrolluuringuid või lisab mõne tunnuse uuringusse testimiseks, et teha otsuseid andmete kvaliteedi kohta. Eestis kui väikeriigis on seni õnnestunud loenduste andmekvaliteeti hinnata, kuid see on olnud väga keeruline töö. Aastal 2000 korraldati loenduse kvaliteedi uuring ja 2011 hinnati loenduse kvaliteeti registrite andmeid kasutades ning korraldati tagasiside uuring e-vastajate aadressiandmete kontrolliks.

Rahvaloendustel tuleb üle lugeda kõik püsielanikud riigi territooriumil. Loenduse andmete kvaliteedi hindamisel kasutatakse mõisteid alakaetus (loendamisele kuuluvaid inimesi ei saada kätte) ja ülekaetus (inimesi loetakse rohkem kui peaks ehk loendatakse ka neid, kes on küll riigi territooriumil, kuid ei ole püsielanikud). Ala- ja ülekaetus on loenduste kvaliteedi hindamisel maailmas põhinäitajad. Seepärast otsivadki riigid võimalusi loendustel registreid kasutada, sest üha rohkem on neid inimesi, keda ei saa kätte ja teiseks on keeruline teha kindlaks, kes on püsielanik.

Mured tavaloendusega

Tavaloenduse suurim probleem on alakaetus, see tähendab, et loendusest jäävad välja püsielanikud, mistõttu loendusandmed  alahindavad rahvaarvu. Alakaetuse põhjused on erinevad, näiteks Euroopa Liidu viisarežiimi kaotamine, vaba tööjõu liikumine, õpilaste ja üliõpilaste vahetusprogrammid, elukoha registreerimise nõude liberaalsus (pole sunnimehhanismi ja poliitilist tahet olukorda lahendada), meedia võimendused isikukaitse teemal, mille tõttu võivad mõned inimesed loendusest pigem eemale hoiduda.

Tavaloendusel võivad tekkida vead kolmes etapis

Loendust ette valmistades võivad tekkida juhuvead teadmatusest, mis võivad muutuda töö käigus süstemaatilisteks vigadeks. Näiteks pole võimalik ankeedi koostamisel ette näha vajalikke kontrolle, mis takistaksid sisestada valesid vastuseid. On olnud olukordi, mil kogemata on märgitud isa nooremaks kui poeg või on kirjas, et eluruumis elab püsivalt vähemalt üks Eesti elanik, kuid samal ajal on vastaja märkinud, et leibkondade arv eluruumis on 0.  

Selliste vigade põhjuseks on toimingute ebapiisav eeltestimine ning nende ärahoidmiseks korraldatakse prooviloendusi, kus uuritakse, kuidas inimesed küsimustest aru saavad ja neile vastavad, kui palju tehakse nalja, kui kaua küsimustiku täitmine aega võtab jne.

Loenduse andmete kogumise etapis võivad tekkida vead, kui inimesed saavad ankeediküsimustest erinevalt aru. Eelmisel loendusel näiteks kirjutati väga palju valesid aadresse, mille tegid hiljem korda andmekorrastajad.

Esines ka olukordi, kus loendaja ei leidnud üles inimese elukohta, sest aadressi eelinfo oli puudulik või ei elanud inimene eluruumis, vaid suvilas või pooleli olevas ehitises. Seetõttu pidid loendajad läbi käima kogu loendusjaoskonna, mitte piirduma vaid töönimekirjas märgitud isikute ja asutuste aadressidega.

Tegime tihedat koostööd kohalike omavalitsustega, et täpsustada elukohti. Sellest hoolimata tuli loenduse kvaliteedi tagasiside küsitluselt iga viies kiri tagasi postiljoni teatega, et inimene ei ela sellel aadressil. Sageli ei saadud inimest kätte, sest ta viibis küsitluse ajal kodust eemal ja keegi teine ei saanud esitada tema andmeid.

Andmete töötlemise ja andmetabelite koostamise ajal võivad tulla vead valesti sisestatud ametinimetuste koodide või isiku andmekaitse piirangutest tulenevate nõuete täitmise tõttu. Näiteks samasoolisi paare on vaid mõnisada, mistõttu peab statistikaamet olema eriti hoolas ning arvestades andmekaitse piiranguid, ei tohi me esitada andmeid täpsemalt, sest isikud oleksid tuvastatavad.

Tavaloenduse olulisemad mõjutajad

Kõige rohkem mõjutavad tavaloenduse andmekvaliteeti küsimustik ja loenduse juhend. Küsimustiku vorm, täpne sõnastus ja ka küsimuste paigutamine nõuavad suurt tähelepanu. Rahvusvaheliselt soovitatakse teha küsimustik nii lühike kui võimalik. Seetõttu ei saa kõikide huvigruppide sooviavaldusi loenduse programmi koostamisel arvesse võtta, näiteks küsida loendusel küsimusi selle kohta, kui palju on kellelgi koduloomi või kas keegi on vegan jne.

Küsimused peavad olema ühemõttelised ega tohi solvata. Kui on vaja tõlkida küsimusi kohalikesse keeltesse (Eestis on loendusel olnud kasutuses kolm keelt, aga Horvaatias oli 2011. aasta loendusvoorus üheksa), tuleb täpselt jälgida, et tõlked ei moonutaks küsimuste tähendust.

Tavaloenduse loendusandmete kvaliteedi tagamiseks pööratakse erilist tähelepanu loendajate töö korrale. Selleks koostatakse selged juhised, kirjutatakse lahti mõisteid, koolitatakse töötajaid, sest ka loendajate arusaamad oma tööst ja missioonist aitavad tagada loendustulemuste paremat kvaliteeti.  

Võitlus tuuleveskitega

Loendustöö kujutab endast vigadega võitlemist. Vähem kulukamalt ja  mitte nii emotsionaalselt on võimalik vigadest võitu saada registrite andmeid kasutades, sest vigadest on ülevaade olemas nii registripidajal kui ka statistikutel. Mõlema võimuses on vigu parandada ja nende töövõitudest saab osa kogu ühiskond.

Tavaloendusel vastutab vigade eest loenduse korraldaja, kes võitleb justkui tuuleveskitega, sest tekkivaid vigu pole võimalik ametil ära hoida ning parandatud andmeid ei tohi kellelegi edastada.

Registreid kasutades ja neis olevaid vigu parandades saavad andmed ajas korda. Tavaloendustel seda aga ei juhtu, sest igal loendusel on vaja taas kulutada ressursse, et vigu parandada.

REGREL-ile pühendatud artiklite sari tutvustab rahva ja eluruumide loenduse ettevalmistust ja metoodikat. REGREL-i kohta on rohkem infot Statistikaameti veebilehel.