Statistikaameti andmekool #13: kuidas tõstab veebikammimine statistika kvaliteeti?
Iga kuu alguses avaldab statistikaamet värske tarbijahinnaindeksi (THI), mis iseloomustab tarbekaupade ja teenuste hinnamuutust Eestis. Seni suuresti käsitsi kogutud andmed tarbekaupade ja teenuste hinnamuutustest on üha enam asendumas nutikamalt, seal hulgas veebikammimise teel kogutud andmetega.
Kuidas kogutakse Eesti elu puudutavaid andmed ja mida nendega tehakse? Kuidas saab rahvaloendusel kõik Eesti inimesed üles lugeda, kui minu ukse taga ei käinud keegi? Kuidas minu elu sellest paremaks muutub, kui SKP-d arvutatakse? Statistikaameti blogisari „Andmekool“ tutvustab ameti tööd ja statistika tegemist lähemalt!
THI koosneb kaupade ja teenuste 12 põhirühma indeksitest. Neist igaüks näitab eraldi, kui palju on hinnad vastavas rühmas mingi aja jooksul muutunud. THI arvutamise jaoks on vajalikud kaks komponenti: kaupade ja teenuste rahalised osakaalud tarbimisstruktuuris ning nende hinnad. Kaalud võimaldavad THI-l paremini kajastada Eesti elanike tegelikke tarbimisharjumusi ja kulutuste struktuuri.
Statistikaamet saab andmeid kaupade ja teenuste hindade kohta igakuise niinimetatud hinnakorjega. Kaupade ja teenuste hindu koguvad erinevates Eesti piirkondades hinnaregistraatorid etteantud kirjelduste alusel ning vaatluse all on ligikaudu 700 erinevat esinduskaupa. „Üha rohkemate kaupade ja teenuste hindu saab aga koguda veebikammimise teel,“ kirjeldab meetodi võimalusi statistikaameti tarbijahindade tiimijuht Lauri Veski, kes on ainuüksi viimase aasta jooksul „kamminud“ läbi nii hotellide veebilehti, lendude andmeid kui ka elektroonikapoodide hindu. „Ja võimalusi veebikammimise kaudu statistika tegemist veel lihtsamaks, kiiremaks, odavamaks ja samas täpsemaks teha näen ma veel palju,“ rõhutab ta.
Mitu päeva versus 10 minutit
Veebikammimine ehk inglise keeles web scraping on meetod, mille abil arvutiprogrammid koguvad automaatselt andmeid erinevatelt veebilehtedelt. See võimaldab kiiresti ja täpselt saada reaalajas andmeid, mille käsitsi kogumine oleks väga ajakulukas ja sellises mahus inimeste jaoks ka võimatu. Kui anda veebikammijale ette näiteks e-poe link, on see võimeline läbi käima kõik selle alamleheküljed ning korjama igalt lehelt tabelisse soovitud infot. Samuti on see võimeline kasutama lehekülje interaktiivseid elemente, näiteks tegema valikuid rippmenüüdest, valima kalendritest soovitud kuupäevi, sulgema küpsiseteateid jne.
„Veebikammimine vabastab inimesed keerukamate analüüside jaoks ja võimaldab samas töödelda palju suuremaid andmemahte, kui käsitsi kogudes võimalik oleks,“ kirjeldab Veski. Ta toob näiteks hinnakorje elektroonikapoe kodulehelt. Kui on näiteks soov teada saada, kui palju maksavad kõik ühe elektroonikapoe lauaarvutid, sülearvutid ja printerid, siis käsitsi kodulehel klõpsates oleks see asjatu inimese tööaja kulutamine. Ainuüksi sülearvuteid võib Veski sõnul olla mitukümmend lehekülge. Veebikammija suudab iseseisvalt kõik need lehed läbi vaadata ning toodete hinnad ja tootekoodid kokku koguda. „Julgen öelda, et info 1800 toote kohta suudab kammija kokku korjata 10 minutiga. Inimene teeks seda võib-olla mitmeid päevi,“ tõstab Veski esile veebikammimise eeliseid.
Veebikammimine teeb THI täpsemaks
Tarbijahinnaindeksi jaoks saab statistikaamet just tänu veebikammimisele võtta arvesse palju suuremaid andmemahte kui varem. „See suurendab andmete esinduslikkust ja seeläbi meie tarbijahinnaindeksi usaldusväärsust – lihtsalt toodete, teenuste ja nende hindade valim saab olla palju suurem,“ kirjeldab ta. Kui tarbijahindade puhul on oluline jälgida võimalikult sarnaste toodete hinnamuutust läbi aja, siis varem oli toodete valim väiksem, et inimene saaks selle tööga hakkama. Praegu on jälgitavate toodete valim suurem ja nii mõjutab üksikute toodete hindade kõikumine THI-d vähem ehk THI on kokkuvõttes usaldusväärsem.
Kuid veebikammimisel on ka nõrgad küljed. Veebilehe muutumisel tuleb ka kammijat kohendada või täiesti ümber kirjutada, vastasel juhul võib kammija tagasi tuua tühja andmetabeli. Selliste olukordade tuvastamiseks on vaja sisse viia kvaliteedikontrollide ja veateavituste süsteem. Igakuine veebikammijate ümber kirjutamine on töö loomulik osa, eriti kui neid on kogunenud juba üsna suur hulk. Kui aga andmeid on vaja koguda sagedamini, näiteks iga päev, nõuab veebilehe muutus kiiret reageerimist. Samas on veebikammimisest saadav ajaline kokkuhoid sedavõrd suur, et ka pidev uute kammijate ehitamine tasub end ära.
Lisaks veebilehtede muutustele tuleb arvestada ka seaduse ja eetikaga. „Mõned veebilehed ei luba nii-öelda robotitel oma lehel toimetada ja seetõttu ei saagi kõikides valdkondades seda kasutada,“ kirjeldab Veski. Samuti võib veebikammimine põhjustada pingeid veebilehtede omanikega, kes võivad tajuda seda nende ressursside kuritarvitamisena, eriti, kui kammimist tehakse liiga tihti või suures mahus. Ja veel: andme- ehk veebilehe omanikul pole kohustust andmeid esitada ega ka nende õigsust kontrollida. „Nii ei saa me alati veenduda, et meie kammitavatel veebilehtedel info täiesti õige oleks,“ selgitab Veski. Samas hindab ta veebikammimise poolt loodud võimalusi statistika tegemise parandamiseks siiski kõrgelt.
Andmekorje tulevik on scanner data
Nii jõuame veebikammimise ja andmekorje tulevikuni. „Kui kuust kuusse toimub statistika tootmine, tasub kasutada veebikammimist seal, kus vähegi on võimalik,“ kirjeldab ta. Tema sõnul ei pruugi statistikud teadagi, et ka nende kitsas valdkonnas saaks veebikammimist kasutada. Ennekõike tasub seda teha siis, kui andmemahud on väga suured ja on teada, kus andmed asuvad. Nii on lähemas tulevikus plaanis hakata kammima näiteks üürikorterite ja puhkusereiside portaale.
Kui veebikammimisega saab statistikaamet vajalikku infot kaupade ja teenuste hindade kohta – kuid mitte seda, kui palju neid müüdud on –, siis tuleviku andmekorje võiks Veski sõnul liikuda nn scanner data ehk inglise keelest tõlgituna kaubanduskettide müügiandmete poole. „Nii saaksime ka teada, kui palju neid tooteid ja teenuseid päriselt müüdud on ja indeksis kasutatavad kaalud muutuksid täpsemaks.“ Sellise meetodi juurutamine nõuaks aga väga häid suhteid kaubanduskettide ja teenusepakkujatega. Näiteks Hollandi statistikaametis on tööl inimesed, kelle ülesandeks ongi kaupmeeste ja teenusepakkujatega suhete loomine ja hoidmine. Praegu katsetab statistikaamet scanner data meetodit toidukaupade hindadega. Kuhu edasi liigutakse, näitab tulevik. „See nõuaks uutmoodi ressurssi, aga annaks veel rohkem tagasi kui veebikammimine,“ on Veski lootusrikas.
Statistikaameti andmete kasutamisel palume viidata allikale.
Täpsem teave:
Heidi Kukk
meediasuhete juht
statistika levi osakond
statistikaamet
tel 625 9181
press [at] stat.ee (press[at]stat[dot]ee)