Klassifikaatorid ja koodiloendid
Klassifikaatorid andmehalduses
Põhimõisted ja nõuded klassifikaatorile
Klassifikaatorite haldamine
Rahvusvahelised mudelid klassifikaatorite ja koodiloendite haldamiseks
Versioniseeritavad ja aegpidevad klassifikaatorid
Versioonide ja variantide tähistamine
Klassifikaatori struktuur
Koodid
Vastavustabel
Koodiloendid
Andmepõhise aruandluse (APA) taksonoomiad
Klassifikaatorid andmehalduses
Klassifikaatorid ja koodiloendid on metaandmete liik, mida kasutatakse andmete kogumisel, töötlemisel ning analüüsimisel. Need aitavad struktureerida andmeid kindlate reeglite järgi ning tagavad ühtlase ja järjepideva teabehalduse eri süsteemide ja organisatsioonide vahel.
Valdkondlikult kokkulepitud klassifikaatorite kasutamine võimaldab andmete võrreldavust organisatsioonide, piirkondade ja riikide vahel. See on hädavajalik täpsete analüüside ja tõenduspõhiste otsuste tegemiseks. Klassifikaatorite kasutamine lihtsustab andmete kogumist, töötlemist ja analüüsi ning vähendab vigade tekkimise riski nende tegevuste käigus. Ühtsed standardid, mida klassifikaatorid esindavad, on aluseks selgele ja üheselt mõistetavale teabele, mis toetab koostööd nii eri valdkondade spetsialistide kui ka rahvusvaheliste partnerite vahel.
Ühtlustatud klassifikaatorid aitavad tagada läbipaistvuse ja usaldusväärsuse ametlikus statistikas, mida saavad kasutada nii ettevõtted, teadlased kui ka poliitikakujundajad.
Klassifikaatorite rakendamine võimaldab:
- andmete mõistmist ja taaskasutamist pikema aja jooksul,
- andmete ühildamist erinevate süsteemide, andmebaaside ja organisatsioonide vahel,
- koostööd eri valdkondade ja riikide vahel ühtse tõlgendamise ja terminikasutuse kaudu.
Klassifikaatorite liigitus
Klassifikaatorid võivad olla rahvusvahelised, riigisisesed või konkreetse valdkonna või asutuse tarbeks loodud. Eestis kasutatavad klassifikaatorid võib liigitada nelja rühma.
- Üks-ühele ülevõetud rahvusvahelised klassifikaatorid, näiteks
- väliskaubanduse statistika aluseks olev kombineeritud nomenklatuur (The Combined Nomenclature), millel põhineb Euroopa Liidu integreeritud tollitariifistik TARIC ja mida haldab Eestis Maksu- ja Tolliamet,
- Patendiameti poolt kasutatav Nizza klassifikatsioon (Nice Classification),
- Tervise Arengu Instituudi poolt hallatavad WHO klassifikaatorid.
- Rahvusvahelised klassifikaatorid, millele luuakse täiendav riigisisene tase, näiteks
- Registrite ja Infosüsteemide Keskuse poolt hallatav Eesti majanduse tegevusalade klassifikaator EMTAK.
- Eesti-sisesed klassifikaatorid, näiteks
- Eesti haldus- ja asutusjaotuse klassifikaator EHAK, mida haldab Statistikaamet ning millel tugineb Maa- ja Ruumiameti aadressiandmete süsteem.
- Andmekogudes kasutatavad valdkondlikud klassifikaatorid.
Klassifikaatorid võivad põhineda
- õigusaktidel ("Asustusüksuste nimistu kinnitamine ning nende lahkmejoonte määramine") või olla kehtestatud õigusaktiga ("Ehitise kasutamise otstarvete loetelu"); laiemalt kasutatavad klassifikaatorid kehtestatakse Euroopa Parlamendi ja Nõukogu määrustega (nt NUTS);
- rahvusvahelistel standarditel, nt riikide ja territooriumide klassifikaatori aluseks on standard ISO 3166.
Riikliku statistika seaduse kohaselt on Statistikaameti ülesanne juhtida klassifikaatorite süsteemi. Statistikaameti hallatavad klassifikaatorid on leitavad klassifikaatorite portaalis. Klassifikaatoreid on kasutamiseks võimalik alla laadida CSV-, JSON-, XML-, XLSX- ja PDF-formaadis. Klassifikaatori iga versiooni kirjeldus sisaldab põhiinfot klassifikaatori kohta ning ülevaadet uues versioonis tehtud muudatustest. Klassifikaatorite kohta saab täiendavat infot meiliaadressil klassifikaatorid [at] stat.ee (klassifikaatorid[at]stat[dot]ee).
Põhimõisted ja nõuded klassifikaatorile
Põhimõisted
statistiline klassifikaator – igal tasemel üksteist välistavate elementide ammendav ja struktureeritud kogum, mille puhul koodid ja neile vastavad kategooriad on lahutamatult seotud. Klassifikaatorit nimetatakse ka liigituseks, nomenklatuuriks või nimistuks.
koodiloend – loend, mis moodustub kategooriatest ja neile vastavatest koodidest. Koodiloend ei pea olema ammendav.
kategooria – mõiste sõnaline või muu tähis, termin klassifikaatori või koodiloendi mistahes tasemel
kood – klassifikaatori või koodiloendi kategooriale vastav number, sümbol või nende süsteem andmetöötluse hõlbustamise eesmärgil
element – klassifikaatori või koodiloendi objekt, mille moodustab kategooria koos koodiga
Nõuded klassifikaatorile
Klassifikaator peaks olema:
- igal tasemel üksteist välistavate kategooriatega – iga vaadeldav nähtus saab kuuluda klassifikaatoris ainult ühte kategooriasse;
- igal tasemel kõikne – klassifikaatori kategooriad peavad vaadeldava üldkogumi seisukohalt olema ammendavad, st valdkonna kõiki nähtusi peab saama selle klassifikaatori alusel liigitada;
- täpsete ja tähenduslike kategooriatega – iga kategooria peab olema selgelt defineeritud ja üheselt mõistetav;
- kontseptuaalse aluse ja loogilise struktuuriga – klassifikaatori puhul peab olema selgelt määratletud, mis on selle loomise eesmärk, mida sellega liigitatakse, kasutusotstarve, seosed teiste klassifikaatoritega jmt;
- statistiliselt tasakaalus – klassifikaatoriga liigitatavad nähtused peaksid jagunema kategooriate vahel ühtlaselt; nähtused ei tohiks liigituda peamiselt ühte kategooriasse;
- rakendatav – klassifikaator peab olema ajakohane ja asjakohane;
- statistiliselt püsiv – klassifikaatorit peaks saama kasutada mitme aasta jooksul ilma suuremate muudatusteta;
- rahvusvaheliselt võrreldav – klassifikaator peaks olema võrreldav teiste seotud (riiklike või rahvusvaheliste) klassifikaatoritega.
Klassifikaatori omanik/haldaja
Igal klassifikaatoril on omanik/haldaja, kelle ülesanne on
- hoida klassifikaator ajakohasena, sh jälgida selle vastavust standarditele ja õigusaktidele, mis mõjutavad klassifikaatori elementide koosseisu ja selle kehtivust;
- jälgida klassifikaatori rakendamist ning vajadusel nõustada kasutajaid;
- olla kursis vastava valdkonna arengutega ning tagada, et klassifikaatori alusel oleks võimalik vajalikke andmeid koguda ja töödelda;
- tagada klassifikaatori kättesaadavus kokkulepitud kujul;
- teavitada kasutajaid klassifikaatoris tehtavatest muudatustest.
Klassifikaatorite kasutamine
Valdkondlikult kokku lepitud klassifikaatorite kasutamine andmekogus tagab andmete ühtsuse ja võrreldavuse nii organisatsioonisiseselt kui ka laiemalt. Tavaliselt kaasatakse selliste klassifikaatorite väljatöötamisse laiem ring erinevate huvipoolte esindajaid, mis aitab vältida vigu ja tõlgendamisprobleeme. Standardiseeritud klassifikaatorite kasutamine lihtsustab andmevahetust teiste süsteemide ja organisatsioonidega. Samas vähendab see dubleerimist ja arenduskulusid, kuna pole vaja luua ega hallata uusi klassifikaatoreid. Ühtsete klassifikaatoritega töötamine suurendab andmete kvaliteeti ja usaldusväärsust, toetades paremate otsuste ja analüüside tegemist.
Teiste asutuste poolt hallatavate klassifikaatorite kasutamisel tuleb mõelda järgmistele asjaoludele.
- Millal ja kuidas klassifikaatorit uuendatakse? Ükskõik kas tegemist on versioonitava või aegpideva klassifikaatoriga, peab olema valmis rakendama kasutatava klassifikaatori uut versiooni.
- Millist klassifikaatori versiooni kasutada? Nt EHAKi puhul tuleb otsustada, millise kehtivusajaga versiooni andmete kogumiseks või töötlemiseks kasutada. Mõnel juhul ei pruugi olla võimalik kasutada kõige uuemat versiooni või muuta jooksva aasta sees andmete kogumisel kasutatavat klassifikaatorit.
Üha levinum on algselt statistika tegemise eesmärgil loodud klassifikaatorite kasutamine muudes kontekstides. Nt Eesti majanduse tegevusalade klassifikaatorit EMTAK kasutatakse lisaks statistikale ka toetuste, aktsiisivabastuste jmt määramisel. Sel juhul tuleb silmas pidada, et statistika tegemiseks loodud klassifikaator ei pruugi mujal rakendades anda sama tõeväärsusega tulemusi, ning enne kasutuselevõttu tuleks klassifikaatorit ja selle aluspõhimõtteid täiendavalt analüüsida.
Klassifikaatorite haldamine
Rahvusvahelised mudelid klassifikaatorite ja koodiloendite haldamiseks
Klassifikaatorite ja koodiloendite haldamise põhimõtted on sõnastatud Neuchâteli ja GSIMi mudelites.
Neuchâteli terminoloogiamudel The Neuchâtel terminology model: Classification database object types and their attributes (klassifikaatorite andmebaasi objektitüübid ja nende omadused) avaldati esmakordselt 2002. aastal (versioon 2.0). Sellele järgnes versioon 2.1 (2004) ning 2013. aastal täiendatud versioon Neuchâtel terminology model: Classification database object types and their attributes. Revision 2013. Mudel määratleb klassifikaatorite haldamiseks vajalikud peamised objektitüübid ja nende atribuudid.
Neuchâtel’i terminoloogiamudeli versioonile 2.1 toetub GSIMi ehk statistiliste andmete üldmudeli klassifikaatorite mudel Generic Statistical Information Model (GSIM): Statistical Classifications Model (2015). See mudel toetab klassifikaatorite haldamist ja kasutamist kogu statistikatootmise elutsükli kontekstis.
GSIMi mudelile omakorda toetub metainfomudel DDI Lifecycle 3.3 (2020); detailsem ülevaade klassifikaatori ja koodiloendi atribuutidest on toodud DDI dokumentatsiooni peatükkides Classification ja CodeList.
Versioniseeritavad ja aegpidevad klassifikaatorid
Klassifikaatoreid hallatakse kas versioonidena või aegpidevatena.
Klassifikaatori versioon on kogum igal tasemel üksteist välistavaid elemente (kood + kategooria). Versioonil on kindel normatiivne staatus ning kehtivusaeg, mis võib, kuid ei pea olema eelnevalt määratud. Klassifikaatoril on korraga ainult üks kehtiv versioon (v.a juhul, kui klassifikaatorit hallatakse nii versioneeritavana kui ka aegpidevana). Uusi versioone luuakse sagedusega, mis ühelt poolt võimaldab säilitada andmete võrreldavust ajas ning teisalt kajastab kirjeldatavat tegelikkust adekvaatselt. Sõltuvalt andmetest võib olla vajalik kasutada klassifikaatori vanemat versiooni, mille kehtivus on juba lõppenud.
Klassifikaatori uus versioon tähendab üldjuhul muudatusi kategooriatevahelistes piirides. Näiteks on eelmise versiooniga võrreldes
- muudetud klassifikaatori alusdokumenti (nt ISO standard vms dokument);
- muudetud klassifikaatori struktuuri (taseme lisamine või eemaldamine);
- klassifikaatorisse on lisatud või sealt eemaldatud elemente või
- muudetud kategooriate kirjeldusi, koode või paiknemist klassifikaatoris.
Muudatused võivad esineda klassifikaatori igal tasemel. Elemendi kirjelduse sõnastuse muutmine või näidete lisamine ilma kategooria tähendust muutmata, samuti kirjavigade parandamine elemendi nimetuses, tähises või kirjelduses ei ole alus uue versiooni loomiseks.
Osa klassifikaatoreid, nt kombineeritud nomenklatuuri või tööstustoodete loetelu uuendatakse regulaarselt igal aastal; teisi vajaduse korral, nt EHAKist on ühe aasta jooksul tehtud kaheksa versiooni, samas kui EMTAKi kahe viimase versiooni vahe on 17 aastat (EMTAK 2008 ja EMTAK 2025).
Klassifikaator on aegpidev, kui kõik muudatused tehakse alati samas versioonis ilma uut versiooni loomata. Igal elemendil peab olema määratud kehtivuse alguse kuupäev ning kehtetuks tunnistatud elementidel ka kehtivuse lõppkuupäev. Aegpideva klassifikaatori kõigi elementide kuupäevad võimaldavad rekonstrueerida klassifikaatori sisu ja struktuuri mistahes kuupäeva seisuga.
Aegpidevaid klassifikaatoreid kasutatakse siis, kui
- on vaja ühes ja samas klassifikaatori versioonis esitada koos kõik eri aegadel kehtinud elemendid (kategooriad koos koodidega);
- elemente lisatakse ja muudetakse kehtetuks jooksvalt;
- muudatused on ebaregulaarsed ja/või peavad kajastuma kohe.
Aegpidevas klassifikaatoris tehtavad uuendused tuleb dokumenteerida klassifikaatori kirjelduses.
Aegpideva versiooni uuendamine:
- kehtivuse lõpetanud elementidele lisatakse kehtivuse lõppemise kuupäev,
- uutele elementidele märgitakse kehtivuse algkuupäev,
- kui muutub kategooria sisu, ent kood jääb samaks, muudetakse kood koos senise selgitusega kehtetuks (lisades kehtivuse lõppkuupäeva) ning märgitakse uue selgitusega koodile kehtivuse alguse kuupäev. Kui koodil on aegpidevas klassifikaatoris mitu kehtivusaega (st kood on sama, aga selgitus on muutunud), peavad ühe kehtivuse lõpu ja teise kehtivuse alguse kuupäev olema erinevad.
Näiteks hallatakse aegpidevana ametite klassifikaatorit, mille kohalikku, 5. taset täiendatakse jooksvalt uute ametinimetustega.
Lisaks võib klassifikaatori versioonidest luua variante. Variant on versiooni teisend, mis luuakse juhul, kui klassifikaatori kasutamiseks (nt klassifikaatoriga kogutavate andmete töötluses) on vaja lisada täiendavaid koode või kasutada ainult teatud osa koodidest.
Nt võib kasutada Eesti haldus- ja asustusjaotuse klassifikaatorist ainult maakondade taset.
Versioonide ja variantide tähistamine
Klassifikaatori versioonide ja variantide tähised on enamasti klassifikaatori nimetusest tuletatud lühendid, millele lisatakse kehtivuse alguse või klassifikaatori loomise aastaarv, näiteks
- Eesti haldus- ja asustusjaotuse klassifikaatori tähis on EHAK; nii tähisele kui ka nimetusele lisatakse igal aastal vastav aastaarv: EHAK2023, "Eesti haldus- ja asutusjaotuse klassifikaator 2023";
- kuna tegemist on klassifikaatoriga, mis muutub enamasti mitu korda aastas, lisatakse versioonidele ka versiooninumber, nt EHAK2023v1 jne;
- kui uus versioon luuakse samal aastal ja vastava aasta esimesele versioonile numbrit lisatud ei ole, on esimene vaikimisi "v1", järgmise versiooni puhul lisatakse aastaarvule "v2".
Aegpideva versiooni näide:
Kehtiv aegpidev Eesti haldus- ja asustusjaotuse klassifikaator kannab tähist EHAK2017ap ja nimetust "Eesti haldus- ja asustusjaotuse klassifikaator aegpidev 2017". Klassifikaator sisaldab ka varasemaid kui 2017. aastal kehtinud EHAKi koode, kuid tähises ja nimetuses olev aastaarv tähistab klassifikaatori loomise aastat.
Versioonide kasutamist hõlbustab ühtse stiili järgimine tähiste ja nimetuste loomisel. Need võivad koosneda kas numbritest või tähtede ja numbrite kombinatsioonidest, peamine on, et need oleksid kasutajatele arusaadavad, üheselt mõistetavad ja masinloetavad.
Klassifikaatori struktuur
Struktuuri järgi on klassifikaatorid kas hierarhilised või lineaarsed. Struktuuri loomisel tuleb tagada, et kõige detailsemad kategooriad paikneksid hierarhilise klassifikaatori madalamail tasemel. Kõik klassifikaatoritele esitatavad nõuded kehtivad nii lineaarsete kui ka hierarhiliste klassifikaatorite puhul.
Lineaarne klassifikaator koosneb ühest tasemest ja seda kasutatakse juhul, kui kategooriaid ei ole vaja rühmitada.
Näide: riikide ja territooriumide klassifikaator Statistikaameti klassifikaatorite portaalis
Hierarhiline klassifikaator on mitme tasemega klassifikaator. Kõige ülemisel ehk agregeeritumal tasemel on kõige üldisemad kategooriad ning kõige madalamal tasemel on kõige detailsemad kategooriad. Sõltuvalt analüüsi või kirjeldamise vajadusest võib andmete kodeerimiseks kasutada ükskõik millist taset. Üldjuhul kasutatakse andmete kogumisel kõige madalama (detailsema) taseme koode.
Näide: ametite klassifikaator Statistikaameti klassifikaatorite portaalis.
Klassifikaatoris peaks tasemeid olema nii vähe kui võimalik, kuid piisavalt, et tagada vajaliku detailsuse erinevateks analüüsideks ja kirjeldamisteks. Klassifikaator tuleks luua hierarhilisena, kui kirjeldamiseks või analüüsiks on kategooriaid vaja koondada (agregeerida) või grupeerida kategooriaid või kui klassifikaatorit kasutatakse eri valdkondades erinevatel agregeerimistasemetel.
Koodid
Selleks et klassifikaator oleks kasutatav, peab klassifikaatori igal kategoorial olema kood. Koodide struktuur peab olema igal tasemel järjepidev ja loogiline. Klassifikaatorites kasutatakse täht-, number- või tähtnumberkoode. Ühtset kriteeriumi, millal kasutada tähtkoode ja millal numberkoode, ei ole.
- Numberkoodid sobivad kasutamiseks hierarhilises klassifikaatoris, millel on loogiline järjestikune koodistruktuur.
- Koode luues tuleks silmas pidada ka tulevikus lisanduda võivaid kategooriaid.
- Number- või tähtnumberkoode kasutatavates klassifikaatorites on heaks tavaks kõige üldisemad või "määratlemata" kategooriad tähistada numbriga 9.
- Koodid peaksid igal tasemel olema sama pikkusega – vajadusel lisatakse koodide algusesse nulle.
- Mõnikord kasutatakse koodides punkte tasemete piiritlemiseks.
- Uues versioonis ei kasutata seni kehtinud koode kasutusele teise tähendusega (uute) kategooriate tähistamiseks.
- Andmebaasis kasutatava klassifikaatori koodides ei tohi olla tühikuid, sest see võib rikkuda koodi masinloetavuse.
Näide: klassifikaator "Riiklik ühtne hariduse liigitus 2011"
Vastavustabel
Vastavustabel (seosetabel, üleminekutabel) on töövahend klassifikaatorite seoste haldamiseks kas
- erinevate klassifikaatorite vahel või
- ühe klassifikaatori eri versioonide vahel.
Vastavustabelite abil on võimalik
- ühe klassifikaatori alusel kogutud andmeid avaldada teise klassifikaatori alusel või
- säilitada andmetes aegridu.
Vastavustabelis määratletakse kahe klassifikaatori – lähteklassifikaatori ja sihtklassifikaatori – kindla taseme elementide omavaheline seos ning täpsustatakse, kas seos on osaline või täielik. Osalise vastavuse korral võib nii lähte- kui sihtklassifikaatori elemendil olla mitu vastet. Vastavustabelit tuleb uuendada iga kord, kui tehakse muudatusi lähte- või sihtklassifikaatoris.
Koodiloendid
Koodiloend on koodide ja kategooriate (koodidele vastavate väärtuste) loend. Koodiloendid võivad olla nii lineaarsed kui hierarhilised.
Erinevused võrreldes klassifikaatoriga:
- koodiloendis olevad koodid ja kategooriad ei kuulu lahutamatult kokku – samal kategoorial võib erinevates koodiloendites olla erinev kood;
- koodiloendi elemendid ei pea igal tasemel olema kõiksed ja üksteist välistavad;
- muudatuste korral luuakse uus koodiloend.
Andmepõhise aruandluse (APA) taksonoomiad
Andmepõhine aruandlus on tehnoloogiline lahendus, mis asendab senise aruandevormide täitmise. See võimaldab automaatselt genereerida ja ettevõtja tarkvarast masinliidese kaudu esitada aruandluseks vajalikke masinloetavaid tehingupõhiseid andmeid.
Andmepõhise aruandluse taksonoomia on andmete ja klassifikaatorite standardiseeritud terviksüsteem, mis on kokku lepitud asutusteüleselt ning mille koostamist juhib Statistikaaamet.
Taksonoomiad koostatakse valdkonnapõhiselt (nt palk ja tööjõud, majutus jne) ning need sisaldavad vastava valdkonna andmete esitamiseks vajalikke aegpidevaid klassifikaatoreid ja koodiloendeid.
Rohkem infot APA taksonoomiate kohta vt lehel Andmepõhine aruandlus | Statistikaamet.
Täiendavat infot klassifikaatorite kohta saab meiliaadressil klassifikaatorid [at] stat.ee (klassifikaatorid[at]stat[dot]ee).