Andmeamps

Tere tulemast andmeampsude lehele

Siin kuvame 2023. aasta andmekirjaoskuse nädalal avaldatud andmeampse, mis näitavad, kuidas statistikaga seotu vajab tähelepanelikkust. Ampsud avaldatakse jaokaupa.

Soovitame soojalt kiigata andmekirjaoskuse nädala raames toimuva küsimuste maratoni Küsimus24

NR 1 – normaaljaotus, paranormaaljaotus

01 Andmekirjaoskus Normaal_Paranormaal

Andmete jaotuvus on üks andmete uurimise olulisemaid nüansse, normaaljaotus ehk Gaussi jaotus seejuures üks tuntumaid ja näeb „tavaliselt“ välja umbes selline nagu ülaloleval joonisel (nimetatakse jaotuskõveraks).

Väga paljud andmeanalüüsi tööriistad töötavad õigesti ainult siis, kui andmed on kas või ligikaudu normaaljaotusega, s.t kui näiteks nende esinemissagedusest teha tulpdiagramm, siis kaugelt vaadates tekib ülemise skeemiga sarnanev lauge mägi. Seetõttu on spetsialistidel oluline jaotust alati kontrollida – kui andmed nii „välja ei näe“, võib olla vajalik kasutada mõnda muud analüüsi-tööriista. Kuigi paljud juhuslikkusel põhinevad nähtused on meid ümbritsevas maailmas just ligikaudu normaaljaotusega, näiteks tänaval vastutulevate inimeste pikkus (kui just mitte nt lasteaia juures jalutada), on tegelikult erinevaid jaotusi palju (vt nt binoomjaotus, eksponentjaotus, Poisson’i jaotus).

Jaotuse mõiste võib esimesel tutvumisel olla keerukas, ent paranormaaljaotus seevastu lihtne ja mugav.

(NB! Siinsed selgitused on lihtsustatud ja ei ole teaduslikult maksimaalselt mõistetäpsed.)


NR 2 – andmete optiline moonutamine

Täpsed andmed ei tähenda automaatselt nende täpset tõlgendamist – andmed võivad olla õiged, ent kas kogemata või nn turundustrikina juhtub vahel siin-seal, et neid esitatakse moonutavalt.

Graafiliselt esitatud statistika on inimesele mõjuvam ja meeldejäävam kui tekst või tabel – pilt edastab infot lugejale kiiresti. Mõningaid arvulisi suundumusi võibki pealevaadates märgata ainult visuaalsel esitamisel. Näiteks suur sisukas tabel sisaldab küll palju infot, aga ei pruugi anda potentsiaalsetest mustritest või eranditest head ülevaadet ja ilma graafikut loomata võib jääda midagi kahe silma vahele.

Hea graafik ehk diagramm on sisult täpne, vormilt lihtne ja selge ning tehniliselt korrektne. Koolis ja andmeanalüüsi puudutavates ainetes ülikoolis on graafikutele oluliselt suuremad nõuded kui näiteks ajakirjandusväljaannetes, mille lugeja ei ole eriala spetsialist, aga esitus peab olema üheselt arusaadav ja koos allikaviitega igal juhul.

Diagrammitüüpide valik sõltub sellest, mis on andmete „tehniline“ sisu. Näiteks joondiagrammiga peaks konservatiivsest, nn statistikateaduslikust vaatest esitama ainult selliseid tulemusi, kus arvud võiksid teoorias olla ükskõik mis (hästi sobivad nt ajas muutuvad suurused, inimeste pikkused jne).

Täpsed andmed ei tähenda automaatselt nende täpset tõlgendamist – andmed võivad olla õiged, ent kas kogemata või nn turundustrikina juhtub vahel siin-seal, et neid esitatakse moonutavalt.

Graafikutega saab halvas mõttes trikitada paljudel eri viisidel. Kõige halvem variant on valede andmete kasutamine või lausa andmete osaline eemaldamine – sellisel juhul on tegemist kas suure inimliku vea, ebakompetentse andmehaldaja või suisa pahatahtliku tegelasega. Aga nagu üleval olevalt pildilt näha, vajavad tähelepanu kõiksugu diagrammid ja seal välja toodud puudused. Kui näiteks on tarvilik näidata mingi terviku jagunemist, siis peaksid kuvatavad protsendid üldjuhul andma 100% kokku, nagu ülemisel graafikul. Kui aga kontekst vajab muud, siis ei pruugi see olla vajalik.

Tehnilised võimalused lubavad diagramme igat moodi kenamaks ja silmapaistvamaks treida: värvid, täitekujundid, liikumine jne. Ilmselt ei oleks võimalik aga näiteks pea üheski matemaatilise statistika aines panna õppejõud naeratama 3D sektordiagrammi kasutades – matemaatiliselt on andmed praeguses tähenduses nn 2-mõõtmelised, mistõttu oleks ruumiline esitus põhimõtteliselt vale. Lisaks on 3D-graafik optiliselt moonutav, sest kõik 3D-graafikul olevad elemendid oleks tekkivast perspektiivist mõjutatud. See tähendab, et kõik „lähemal“ olevad diagrammi osad on suuremad kui nad tegelikult on, ja vastupidi kõige „kaugemad“ tükid väiksemad kui nad tegelikult on.

(NB! Siinsed selgitused on lihtsustatud ja ei ole teaduslikult maksimaalselt mõistetäpsed.)


NR 3 – korrelatsioon

Kõik, kes tegelevad võrkpalliga, on kunagi söönud köögivilju – järelikult on võrkpall ja köögiviljad seotud ning võrkpalli mängimine põhjustab köögiviljade tarbimist? Köögiviljade eelistamist? Kas ja kuidas on keegi seda mõõtnud? Või mida see tähendaks? Ei tundu loogiline.

Internetist leiab hulganisti näiteid, kuidas erinevad nähtused (näiteks hairünnakute ja jäätisemüügi sagedus) on lisatud ühele graafikule ja sealt on näha, et vastavad jooned näevad sarnased välja, just nagu ülaloleval pildil. Tekib õigustatud esmakahtlus – kas need nähtused on seotud? Kas need mõjutavad üksteist?

Ilm on juhuslikke kokkusattumisi täis ja vahel tundub midagi olevat omavahel nii seotud või sarnane, kuigi tegelikult on siga ja kägu. Mustri või seose kahtlustamisel tasub alati edasi urgitseda, äkki ongi „päris“ seos! Andmete analüüsimisel on nendest põhjalikumalt arusaamiseks ja järelduste tegemiseks vaja tõlgendamist – konteksti panemine, võrdlemine, teiste valdkonnas oluliste nähtustega seostamine, usaldusväärsuse hindamine jne, teatud mõttes igas etapis. (Kitsas tähenduses loetakse tõlgendamiseks näiteks matemaatilise analüüsi toetumist jaotusele ja jaotusparameetritele.)

Seos (sarnasus) võib olemas olla, aga see ei pruugi olla põhjuslik. Kui andmed on korralikult kogutud, siis võivadki graafikud eraldi võetult välja näha väga sarnased. Kui teeksime kaks graafikut: üks meie enda esimese eluaasta igakuine kaal ja teine joon mõne tuttava inimese esimese eluaasta igakuine kaal, siis suure tõenäosusega näeksid need aasta jooksul kogutud andmed väga sarnased välja. Jooned langeksid kokku. Me ei tee sellest aga järeldust, et need kaks inimest kuidagi üksteist mõjutasid – kaal lihtsalt kasvab mh esimesel eluaastal kõigil inimestel väga sarnaselt, see tuleneb inimese füsioloogiast. Seega esmakahtlustus oli õige – seos (sarnasus) on ka sisuliselt olemas (ei ole täiesti juhuslik kokkusattumus), aga see ei ole põhjuslik.

Nii ka pildil oleva näite puhul.

*See ei ole ilmselt juhus, et hairünnakud ja jäätisemüük samal ajal suurenevad ja vähenevad. Kui see pole juhus, siis on siin mängus aga miski muu, mis mängu juhib. Saab arutleda näiteks nii, et juhul, kui hairünnakud ja jäätisemüük oleksid omavahel põhjuslikult seotud, siis võiks ka Eestis randa minnes paar korda enne mõelda, kui jäätist osta. Võiks proovida ka uurida välja, kas hairünnakute arv kasvas pärast jäätise leiutamist. Tegelikult on siin mõjutaks ilmselt hoopis miski muu – soojem ilm paneb inimesed rohkem jäätist ostma ja ujuma, ning rohkem inimesi vees võib tähendada hairünnakute tõenäosuse kasvu (sest haidel tekib rohkem „võimalusi“). Kui lisada võrrandisse ka piirkond, siis äkki on aga nii, et hairünnakute ohvrite hulgas on rohkem surfajaid, kes loogilise eeldusena eelistavad suurte lainetega randu, kuhu haid paremini „ära mahuvad“? Kui jäätisemüüjad eelistavad peresõbralikke rannaääri, kus üldjuhul on just väiksemad lained ja laugemad veepiirid, siis rannas tehtav jäätisemüük võib seal toimuvate hairünnakutega seotud olla hoopis vastupidiselt. Mis selle arutelust õige järeldus on, ei tea, peaks spetsialistide käest küsima – Statistikaamet oskab küll näite-arutleda, aga pole ei haide ega jäätisemüügi spetsialist. Ühtlasi palume tähele panna, et allikat ei õnnestunud statistikaametil selle uuringu kohta leida. 𝐼𝑛𝑓𝑜𝑛𝑎 me sellist allikata ja küsitavat graafikut kunagi ei jagaks, kasutasime seda legendaarse näite üle arutlemiseks.

Muide, nii suurte organismide nagu riigiasutus Statistikaameti puhul on analüüs ja tõlgendamine mõneti eraldatud. Statistikaamet ei anna andmete pealt hinnanguid, ei prognoosi jne (v.a rahvastikuvaldkond), vaid ainult hoolitseb selle eest, et Statistikaameti käes olevad andmed oleksid kvaliteetsed, korras, selgel kujul avalikustatud ja kättesaadavad. Statistikaametis on sellistele majavälistele, eriti sügavuti minevatele teadlastele eraldi turvalised ruumid, et oma valdkonna asjatundjad saaksid andmetele väga põhjalikult sisse vaadata: analüüsideks, prognooside koostamiseks või oleviku täpsemaks põhjendamiseks.

Tavakeele kõnepruugis kasutatakse (põhjuslikku) seost ja korrelatsiooni üsna sarnaste „nähtuste“ kirjeldamiseks. Huvilised saavad näiteks guugeldada, kui palju erinevaid korrelatsioonivariante on olemas ja andmeanalüüsis end veidike kodus tundvad inimesed uurida, mis on ühe või teise kasutamise tingimused.

P.S. Graafik küll näitlikustab skemaatiliselt seoste temaatikat, ent tasub nt vaadata, mis infost tunnete graafiku sisukaks lugemiseks veel puudust (nt vertiaaltelje selgitus, väärtused, ühikud jne).


NR 4 – Keskmine

Kas on ohutu kõndida läbi jõe, mille keskmine sügavus on 1 meeter? Sõltub. Vastamiseks oleks vaja rohkem infot kui ainult üldsõnaline „keskmine“.

Kui öeldakse „keskmine“, siis enamasti mõeldakse selle all aritmeetilist keskmist. Kaks kõige levinumat keskmist ongi aritmeetiline keskmine ja mediaankeskmine, aga on ka näiteks veel geomeetriline keskmine, mood jt. Ükski neist ei ole õige ega vale, neil on lihtsalt erinev sisu.

Jõe näite puhul on lihtne näha, et keskmine on miski, mis küll kirjeldab jõge, aga ei anna üksi jõe sügavuse kohta vajalikul määral infot. Juuresoleva pildita ei oskaks me hinnata, kas jõe sügavus on kaldast kaldani kõikjal 1 m ja sellest saab lihtsa vaevaga läbi jalutada või on see kusagil hoopis piisavalt sügav, et sõita laeva või paadiga.

Kui jõe sügavuse mediaankeskmine on 1 meeter, siis tähendab see seda, et kui jõgi muutuks seda ületades ainult sügavamaks kuni teise kaldani välja, siis poolele teele kõndides oleksime 1 meetri sügavusel. Ehk siis mediaan jagaks sellise hüpoteetilise jõe sügavuse poolest kaheks. Kui kaevaksime ühe kalda ääres jõe maksimaalseks sügavuseks 5 m või 15 m ja mitte midagi rohkem ei muudaks, siis mediaankeskmine jääks ikka samaks.

Mediaankeskmist leitakse nõnda: pannakse arvud suuruse järgi ritta ja võetakse sealt järjekorras keskmine nii, et ühele ja teisele poole jääks sama palju arve.

1, 3, 4, 100, 2, 2, 7 -> mediaankeskmine oleks arv 3 (1, 2, 2, 3, 4, 7, 100).

Kui jõe sügavuse aritmeetiline keskmine on 1 meeter, jõe põhi eelkirjeldatud mittelooduslik kallak ning kaevaksime kusagil põhja sügavamaks, siis sügavuse aritmeetiline keskmine enam 1 meeter ei oleks, vaid see oleks suurem. Kui kusagil jõepõhja täitepinnast lisada ja sügavus väheneb, siis väheneb ka kogu jõe sügavuse aritmeetiline keskmine.

Aritmeetilist keskmist arvutatakse nii: liidetakse kõik arvud kokku ja jagatakse arvude hulgaga.

1, 3, 4, 2, 2, 7, 100 -> aritmeetiline keskmine oleks 17, sest (1+3+4+2+2+7+100) : 7 arvuga = 17.

(NB! Siinsed selgitused on lihtsustatud ja ei ole teaduslikult maksimaalselt mõistetäpsed.)


NR 5 – Väga paljud andmed on kõigile kätte saadavad

Riiklik statistika on Eestis jaotatud mitme asutuse vahel: andmeid koguvad, analüüsivad ja säilitavad eri organisatsioonid, riiklikke andmeid jagatakse omavahel. Näiteks tervise arengu instituudil on palju tervisega seotud andmeid, õhusaasteandmeid kogub keskkonnaagentuur jne. Kõige suurem portfell on statistikaametil – siin on andmeid väga palju ja väga suur hulk neist on kõigile avalikult kättesaadavad, olgu vaid huvi ja internetiühendust.

Andmeid leiab nii tabelite kujul kui ka graafiliselt esitatuna.

Uudistamist:

Soovitame uudistama minna:

▷ Palgarakendus: https://palgad.stat.ee/

▷ Nimede statistika: https://www.stat.ee/nimed

▷ Abielude andmed: https://www.stat.ee/abielud

▷ Narkomaaniaraviregister: https://www.tai.ee/et/statistika-ja-registrid/narkomaaniaraviregister

▷ Ulukite arv: https://keskkonnaportaal.ee/et/teemad/elusloodus/ulukid

jne

Kui teil on küsimusi statistikaameti poolt avaldatud andmete kohta siis kirjutage aadressil stat [at] stat.ee (stat[at]stat[dot]ee) või esitage päring kodulehel: https://www.stat.ee/et/avasta-statistikat/kysi-statistikat.

*Psühholoogide hulka ei kuulu siin joonisel näiteks kliinilised psühholoogid, keda loetakse palgarakenduses mujal liigitamata tervishoiu tippspetsialistide alla. Selle ametirühma mediaantöötasud olid 2022. IV kvartalis suuremad kui psühholoogide ametirühma kuuluvatel, ent andmete kuvamiseks oli ka neid piisaval hulgal ainult neljas maakonnas.

**Palgarakenduses kuvatakse info nende maakondade kohta, kus on vähemalt 20 vaadeldava ametirühma esindajat. Vt täpsemaid selgitusi siit: https://palgad.stat.ee/selgitused.

(NB! Siinsed selgitused on lihtsustatud ja ei ole teaduslikult maksimaalselt mõistetäpsed.)