Statistika on teadus, mis baseerub andmete usaldusväärusel

Uudis

Postitatud 10. august 2020, 11.00 , Kaja Sõstra

Statistika aluseks olevate uuringute meetodid võib laias laastus jagada kolme rühma: loendused, valikuuringud ja andmekogudest, -registritest saadud andmete taaskasutamine. Igal meetodil on oma positiivsed ja negatiivsed küljed, aga ühtegi neist uuringumeetoditest ei saa kuulutada mõttetuks, nagu seda tegi Tiit Toomsalu oma artiklis.

Loendus on ajalooliselt kõige vanem statistika tegemise meetod – teame näiteks piiblist lugu rahvaloendusest, mille ajal sündis Kristus. Seetõttu on loenduse metoodika kõige põhjalikumalt läbi töötatud ja ilmselt ka statistika kasutajatele kõige arusaadavam. Loenduse eeliseks on täpsus, sest küsitletud on kõiki või peaaegu kõiki inimesi või majapidamisi, selle puuduseks on aga kõrge hind.

Valikuuringute metoodikat on kasutatud ja arendatud juba üle 100 aasta. Alguses tekitas see lähenemine küll kahtlusi, aga tänaseks on valikuuring ennast igati õigustanud ja laialdaselt kasutusel. Valikuuringu eeliseks võrreldes loendusega on madalam hind, paindlikkus ja kiiremad tulemused. Puuduseks on tulemuste madalam täpsus ja andmetöötluse keerukus.

Statistikaameti juhtivanalüütik Kaja Sõstra

Viimastel kümnenditel on kõikjal Euroopas ja maailmas arendatud registriandmete, aga ka suurandmete kasutamise metoodikat. See on statistikas kõige uuem suund ja seetõttu ka kõige vähem praktiseeritud. Registrite kui andmeallika taaskasutuse eelisteks on ajakohasus ja kogu populatsiooni hõlmatus, miinusteks aga statistika jaoks vajalike tunnuste puudumine, definitsioonide erinevus ning sõltuvus õigusruumi muutustest. Kõige uuemaks suunaks statistika tegemisel on erinevate andmeallikate kombineerimine, et kasutada parimal viisil nende eeliseid ja kompenseerida puudusi.

Usaldusväärsed ja võrreldavad andmed

Võib tekkida küsimus, miks ei kasuta me registrite andmeid puhkudel, kus see oleks Tiit Toomsalu arvates ainumõeldav? Me ei saa ühte patta panna õunu ning apelsine ehk ainult palgasummast, mida on võimalik teada saada tulu- ja sotsiaalmaksu kuudeklaratsioonilt, jääb näiteks keskmise palga usaldusväärseks arvutamiseks väheks. Oluline on lisaks teada, millise tööaja eest palk välja maksti. Seda mõjutavad omakorda töökoormus ja -graafik, ületunnitöö ning töölt puudumised. Registritest saab tööaja komponentide kohta infot ainult osaliselt. Keskmist palka on sama metoodika alusel Eestis arvutatud juba aastaid, keskmise brutokuupalga usaldusvahemik on pluss-miinus üks protsent, mis on valikuuringu kohta väga kõrge usaldusväärsus.

See, kas võtta majanduse iseloomustamisel aluseks keskmine palk või palga mediaan, on statistika kasutaja eelistus. Mõlemad näitajad muutuvad täpselt samas tempos ja ei saa väita, et üks oleks parem indikaator kui teine. Keskmise palga kasv on olnud täielikult kooskõlas ka maksu- ja tolliameti (MTA) avaldatud väljamaksete mediaani muutusega, mis näitab samuti valikuuringul põhineva statistika usaldusväärsust. Mediaani arvutamiseks on andmekogumine kordades töömahukam ja sellepärast kogutaksegi töötasu struktuuri uuringu jaoks andmeid üle nelja aasta.

Töötuse ja hõive näitajate osas oleme Euroopas kokku leppinud, et kasutame rahvusvahelise tööorganisatsiooni definitsioone ja ühtlustatud metoodikaga tööjõu-uuringut. Töötukassas registreeritud töötute arvu ei saa kasutada sellepärast, et enda töötuna arvele võtmine ei ole kohustuslik. Paljud inimesed seda ka ei tee, aga otsivad sellegipoolest tööd. Samuti mõjutab töötukassas registreeritud töötute arvu oluliselt riigi õigusruum ja muudatused seadusandluses, mistõttu ei ole registreeritud töötuse näitaja riigiti ega ajaliselt võrreldav.

Rangelt faktipõhine statistika

Tiit Toomsalu väidab oma artiklis korduvalt, et valikuuringu tulemused ei ole usaldusväärsed ja selle kasutamine manipuleerib ning ilustab statistikat jms. Artikli alguses esitab ta küsimuse, kas statistika peaks olema faktipõhine või tuletuslik.

Statistikaamet kasutab valikuuringuid meetodina juba üle 25 aasta. Võime täie kindlusega väita, et ka valikuuringus ei manipuleeri me kunagi andmetega. Kõik valikuuringu sammud teeme me rangelt teaduslikult tõestatud meetoditele tuginedes. Valimi võtmisel kasutame juhuslikku valikut, mille teeb arvuti ja milles puudub igasugune inimese subjektiivse sekkumise võimalus. Küsitlustes peavad kõik küsitlejad kinni kokkulepitud sõnastusest ja ei mõjuta vastajaid vastuse valikul. Tulemuste arvutamisel lähtume sellest, millise tõenäosusega inimene või ettevõte valimisse võeti ja milline oli tema vastamise tõenäosus. Kõik valikuuringu tulemused on rangelt faktipõhised.

Tiit Toomsalu väide, et valikuuringu tulemuste ebatäpsuse tõttu on tulemused võrreldavad kohvipaksu pealt ennustamisega, on ebapädev. Valikuuringu korral on tõepoolest tulemuseks hinnangud, mida iseloomustab teatud vahemik (usaldusvahemik). Rangelt teaduslikul alusel põhinevate tõenäosuslike valikuuringute korral on võimalik ka tulemuste usaldusväärsust iseloomustav usaldusvahemik välja arvutada. Põhinäitajate usaldusvahemikud on avaldatud meie veebilehel ja me ei püüa varjata statistika kvaliteeti, vaid info on kättesaadav igaühele.

Definitsioonid erinevad, aga tulemused on sarnased

Tiit Toomsalu artiklis jääb arusaamatuks, millel põhineb tema väide, et tegelik töötute arv Eestis on kordades suurem. Töötute hulka ei ole loogiline arvestada inimesi, kes ei soovi töötada (pensionärid, õpilased, kodused), ega otsi aktiivselt tööd. Seetõttu ei ole ka vanuserühmade 15–74 ja 20–64 töötuse määrad, mida arvutatakse töötute arvu suhtena hõivatute arvu, oluliselt erinevad (erinevus alla 0,5 protsendipunkti), sest nii töötuid kui ka hõivatuid on noorte ning pensioniealiste hulgas vähe. Eri riikide või ajalise võrdluse tegemisel on oluline jälgida, et kasutatakse sama vanusevahemikku, aga mingeid manipulatsioone vanuserühmadega statistikaamet kindlasti teinud ei ole. Statistika kõikvõimalike vanuserühmade kohta on kättesaadav meie andmebaasis.

Tööjõu-uuringul põhinev töötute arvu muutus on olnud enamasti kooskõlas registreeritud töötuse muutusega, mis näitab valikuuringu põhjal tehtud hinnangute piisavat usaldusväärsust. Mis puutub hõivatute arvu, siis siingi on väikesed definitsioonide erinevused: tööjõu-uuringus loetakse hõivatuteks ka grupid, kes MTA tulu- ja sotsiaalmaksu deklaratsioonil ei kajastu, näiteks FIE-d, vabakutselised, palgata peretöötajad. Tööjõu-uuringu andmetel oli 2020. aasta esimeses kvartalis 670 000 hõivatut, töötamise registris oli samal ajal registreeritud 630 000 töötajat. Arvestades definitsioonide erinevust, on valikuuringu ja registriandmed heas kooskõlas.

Registriandmete kasutamine statistikas võib olla statistikaameti jaoks ka suur peavalu, sest me ei saa mõjutada seadusandja otsuseid registriandmete muutmisel. Viimaseks kurvaks näiteks on majandusaasta aruande tähtaja edasilükkamine, mis teeb meie jaoks pea võimatuks ettevõtete majandusstatistika tähtaegse koostamise. Registriandmete kasutuselevõtuks oleme teinud väga palju tööd, sest see on oluline halduskoormuse vähendamise meede, aga samal ajal võib läbimõtlemata otsus muuta tehtud töö hetkega mõttetuks.

Valeväiteid võib Tiit Toomsalu artiklist leida teisigi. Statistika tegemisel lähtume aga alati nii andmete kui ka tulemuste puhul usaldusväärsuse põhimõttest ja valime selle tagamiseks ka sobivaimad meetodid.

Kas leidsid, mida otsisid?