Andmete taaskasutusest ja rahvaloendusest

Blogi
Postitatud 18. aprill 2022, 14.00 , juhtivanalüütik Ethel Maasing

Tänapäeval jäävad igast meie liigutusest maha andmed. Kell käe peal näitab, kuidas öösel magasid või palju päeva jooksul liikusid. Telefon taskus salvestab, kus päeva jooksul viibid ning samamoodi saad salvestada, mida päeva jooksul sööd ja siis seda analüüsida. Sarnaselt kirjutatakse iga kord andmetena üles ka see, kui riigiga ühendust võtad.

Kõige selle mõte on muuta elu kiiremaks ja paremaks – näiteks et ei peaks iga kord arstile vastama, mis haigused oled läbi põdenud, sest selle info saab digiloost. Või siis riik saadab teavituse, et juhiluba või isikut tõendav dokument hakkab aeguma. Loomulikult on veel palju võimalusi, kuidas kasutada juba kogutud andmeid tööprotsesside kiirendamiseks ja paremate otsuste tegemiseks. Samamoodi on andmete taaskasutus seekordse rahvaloenduse osa. Just seetõttu oli ka varasema tunniajase küsimustiku asemel võimalik seekord piirduda vaid viis minutit aega võtva ankeedi täitmisega.

Taaskasutusse lähevad näiteks hariduse või elukoha andmed

Andmeid märgitakse pidevalt erinevatesse registritesse ja andmekogudesse, kuid neid kogutakse ka küsitlustega – tänapäeval eelkõige selleks, et saada kätte infot, mis põhineb inimese enesehinnangul. Ka viimasel rahvaloendusel küsiti siseriiklikust vajadusest tulenevalt mõned teemad otse inimeste käest, sest neid andmeid ei leidu registrites ning nende vastused sõltuvad igaühe hinnangust. Ülejäänud rahvaloenduse teemad, mida peavad koguma kõik Euroopa riigid, on Eestis aga võimalik kokku panna registritesse kogutud andmete põhjal ehk et saame taaskasutada juba kogutud andmeid.

Näiteks kogutakse alates 2004. aastast Eesti koolilõpetajate info Eesti Hariduse Infosüsteemi. Varasemate lõpetamiste kohta küsisime põhjalikult eelmisel rahvaloendusel 2011. aastal ning need inimesed, kes rändavad Eestisse ja on välismaal ülikooli lõpetanud, peavad oma kõrgeima haridustaseme ütlema Politsei- ja Piirivalveametis või esitama Rahvastikuregistrile. Nende andmete pealt saame vastavalt reeglitele määrata, milline on inimese kõrgeim haridustase praegusel hetkel ja seda pole vaja enam eraldi küsida.

See pole kaugeltki kõik. Rahvaloenduse jaoks vajaliku info analüüsimiseks kogume andmed ligi 30 registrilt. Suurema osa andmetest saame kätte Rahvastikuregistrist ja Ehitisregistrist, kuid lisaks koondame andmeid ka näiteks Töötamise registrist, Ravikindluste andmekogust, Pensioniregistrist ja mitmelt poolt mujalt. Kõikidest nendest registritest kogub statistikaamet just selle info, mida meil on vaja statistika tegemiseks.

Kuidas me teame, kas inimene elab päriselt Eestis?

See tähendab, et me ei vaja kaugelt kõiki registrites olevaid andmeid. Teatud andmekogudest vajame andmeid hoopis mõne teise teema, näiteks Eestis elamise määramiseks. Nii kogume andmeid Retseptikeskuse andmekogust, et teada saada, kas inimene on ostnud välja Eestis digiretsepti – see lubab meil minna täpsemaks järeldusega, kas inimene elab alaliselt Eestis. Sealjuures me ei kogu loomulikult infot selle kohta, mis ravimi inimene ostis.

Selleks, et hinnata, kes elavad päriselt Eestis, lõime residentsuse indeksi meetodi, mille idee on selles, et kui inimene elab Eestis, siis ta annab nii-öelda elumärke riigis olemisest ja esineb seega mitmetes erinevates registrites. Hetkel paneme erinevate registrite pealt kokku 34 erinevat elumärki, mis viitavad Eestis viibimisele. Näited elumärkidest on hambaravihüvitise saamine, Eestis töötamine, digiretsepti ostmine, dokumendi vahetamine, auto ostmine või müük, abiellumine Eestis, vanglas viibimine, sotsiaaltoetuste saamine ja palju muud. Igale märgile arvutatakse oma kaal, sest kõik elumärgid ei viita sama tugevalt Eestis elamisele. Selle põhjal arvutatakse tõenäosus, kas inimene elab Eestis või mitte.

Enne kasutusse võtmist vajavad andmed kontrolli

Selleks, et hakata mõne registri andmete pealt statistikat tegema, on esmalt vajalik tutvuda, mis on registri eesmärk ning milliseid andmeid sinna kogutakse. Seejärel võtame kontakti registripidajaga ning anname teada, et soovime neid andmeid statistika tootmisel kasutada. Suhtluse käigus saame paika täpse loetelu andmetest, mida ja kuidas registripidaja meile esitab. Seega andmete saamine ei ole otsetee algallikani, vaid nende saamine eeldab eelkontrolli ning valideerimist.

Registriandmed laekuvad peamiselt statistikaametisse turvalise andmevahetuse platvormi ehk x-tee kaudu. Kui andmed on statistikaametisse jõudnud, siis on vaja neid piltlikult öeldes tundma õppida, et ei saaks teha valesid järeldusi. Näiteks ühe registri puhul avastasime, et Eestis toimetavad mõned 140-aastased inimesed. Registripidajalt uurimise käigus selgus, et need inimesed ei ole tegelikult sellises eas, vaid tegemist on välismaalastega, kellele oli juhuslikult genereeritud Eesti reeglitele vastav isikukood. Seega kindlasti on isegi meie digiriigis vajalik täpsete ja reaalajas usaldusväärsete andmete saamiseks teha lisaanalüüs ja kontroll.

Et rahvaloenduse registriandmeid kasutada, tuleb ka kontrollida, kas registris kasutatavad definitsioonid on samad, millest peame lähtuma rahvaloendusel. Rahvaloenduse on ettekirjutatud definitsioonid, et tulemused oleksid võrreldavad teiste riikide või erinevate aastate läbi. Näiteks sünnikoha puhul on võimalik kasutada kaht definitsiooni. Esimese ja eelistatud võimalusena loetakse sünnikohaks see, kus oli ema alaline elukoht sünni hetkel ehk kus laps elas vahetult pärast sündimist. Kui see ei ole võimalik, siis arvestatakse sünnikohaks koht, kus sünd toimus.

Turvalisus ja andmete anonüümsus on taaskasutuse lahutamatu osa

Kui andmed on meieni jõudnud, siis kõigepealt eemaldatakse neilt isikut tuvastavad andmed ehk nimed ja isikukoodid ning asendatakse koodiga, mida kasutatakse ainult statistikaametis. Iga inimene saab igas andmestikus sama koodi ja selle abil saame andmeid omavahel linkida. Statistikaametile esitatud andmed on hoolikalt kaitstud, neid kasutatakse ainult statistilisel ja teaduslikul eesmärgil, ega jagata kolmandate pooltega. Andmeid avaldame vaid üldkogumina.

Seda, kui palju on Eestis viimase kümne aasta muutunud rahvastik ja selle koosseis, saame teada juba juuni alguses, kui avaldame esimesed rahvaloenduse tulemused. Selleks ajaks on kogutud peaaegu kõik selleks rahvaloenduseks vajalikud andmed, kuid kogumine jätkub läbi suve ja andmeid avaldame järk-järgult teemade kaupa kuni aasta lõpuni. Usun, et registreid arendades ja ühildades suudame edaspidi veelgi kiiremini ning sagedamini Eesti rahvastiku  ja elamistingimuste kohta infot välja anda. Andmete taaskasutus annab selleks ja paljudeks teisteks olulisteks järeldusteks võimaluse.

Arvamusartikkel avaldati 18.04.2022 esmalt ERR-i veebiportaalis.