„Andmepärl 2024“ võitja sõelub 700 miljoni sõna seast Eesti ühiskonna peidetud mustreid ja seoseid
Selle aasta konkursi „Andmepärl 2024“ parima andmeloo tiitli võitis Eesti Rahvusraamatukogu (RaRa) digilabori andmelugude sari, mis annab suurepärase võimaluse tutvuda meie kultuuripärandiga andmete kaudu. Konkursi võitjad Krister Kruusmaa, Peeter Tinits ja Laura Nemvalts annavad ülevaate, kuidas sündis nii rahva kui ka žürii lemmikuks kujunenud võidutöö. „Kultuuripärandist on saanud andmed, tulge kasutama!" kutsub võitjatiim kõiki uusi huvilisi uudistama.
RaRa digilabori andmelugude sari pälvis sel aastal parima andmeloo tiitli, olles nii žürii kui rahva lemmik. Milliseid emotsioone selline tunnustus tekitab?
Arvestades, et konkurendid olid tugevad ja žürii koosnes professionaalidest, oli tegu kindlasti positiivse üllatusega. Meil on väga hea meel, et kultuuri käsitleval tööl õnnestus võitjaks tulla.
Blogilugude sarjas leidub mitmeid põnevaid teemakäsitlusi – näiteks olete uurinud, mida on läbi aegade eesti ajalehtedes räägitud autodest või millised on meie rahvusbibliograafia trendid. Mida huvitavat need andmelood meie kultuuri kohta kõnelevad?
Andmete abil oleme saanud esile tuua kultuuriajaloo n-ö suurt pilti. Näiteks seda, millal jõudsid eri transpordivahendid meie meediaruumi või kuidas on muutunud eesti keeles kirjastatud raamatute domineerivad žanrid. Et andmed on üks viis aidata meil ajaloo ja kultuuri mustreid mõista, on võimalike teemade hulk äärmiselt lai. Selles valdkonnas on ka äärmiselt oluline kontakt humanitaar- ja sotsiaalteadustega, mis neid teemasid uurivad. Andmepõhised lood on ikka huvitavad selle põhjalt, mida me juba teame, kas läbi igapäevakogemuse või erialaspetsialistide jutustuste. Me ise arvame, et andmete abil on võimalik tuua meie kultuuriajalukku uut värvi ja värskust.
Kui palju on eesti keeles ilmunud raamatuid? Kas me võiksime oletada, kui mitu eestikeelset raamatut on iga eestlase kodus?
Meie mulluse andmeloo põhjal, mis võttis vaatluse alla Eesti rahvusbibliograafia andmestiku, on eesti keeles kokku ilmunud umbes 220 000 raamatut. Sealjuures on raamatute trükiarvud väga erinevad ning tihtilugu pole need tagantjärele üldse teada. Läbi aegade trükitud eestikeelsete raamatueksemplaride koguarv ulatub seega tõenäoliselt kümnetesse miljonitesse, olenevalt sellest, mida me pakume keskmiseks tiraažiks. Kui suur osa sellest massist seisab praegu eestlaste raamaturiiulites, on veelgi kaugem oletus. Isiklikult oleme näinud nii selliseid kodusid, kus raamatuid on täis iga sein ja veel terve kelder, aga ka selliseid, kus raamatud täiesti puuduvad. Seega jääb see küsimus osavamaid oletajaid ootama.
Millega tegeleb RaRa digilabor? Milliste väljakutsetega rinda pistate ja mis on suurimad rõõmud?
Digilabori ülesanne on RaRa-s leiduva kultuuripärandi inimesteni toomine andmete vahendusel. Tahame andmete abil kultuurist lugude rääkimise teha igaühele võimalikuks ning proovime ise samal ajal teed näidata. Suurim keerukus on nendesamade andmete korrastamine, sest need on peamiselt kogutud säilitamise, mitte analüüsimise ega avaldamise eesmärgil. Palju tegeleme andmete „tõlkimisega“ raamatukogunduse maailmast uurijate ja teadlaste maailma, mis on üsna pikk ja keeruline protsess. Rõõmud on selle töö tulemused, kui saame andmetele lõpuks sisulisi küsimusi esitada ja nende vastuseid avalikkusega jagada.
Digilaboril on põnev rakendus, rahvusraamatukogu sõnamitmike loendaja. Mida huvitavat selle tööriista abil uurida saab?
Sõnamitmike loendaja näitab umbkaudselt, kui sagedalt esineb kindel sõna või sõnamitmik (st paar või kolmik) digiteeritud eestikeelsetes ajalehtedes. Tegu on sisuliselt analoogse rakendusega nagu Google Ngram Viewer, kuid fookusega eesti, mitte inglise keeleruumil. Alusandmeteks on mõnikümmend kõige olulisemat ja mahukamat eestikeelset ajalehte Perno Postimehest tänapäevani, mille kogumaht on ~704 miljonit sõna, ~3,2 miljonit artiklit. Rakendust tutvustavas andmeloos näitasime näiteks seda, kuidas sõnapaaride „müüa sõiduauto“ ja „autode kokkuost“ sagedused peegeldavad järsku üleminekut kapitalismile 1990. aastatel. Sõnamitmike loendajaga saab uurida igasugu huvitavaid asju, aga alati tuleb meeles pidada, et graafikul joonistuvad kõverad ei peegelda kunagi üksüheselt reaalsust.
Lisaks sõnamitmike loendajale leiab Digilaboris veel tööriistu, näiteks interaktiivne kaart eesti raamatute ilmumiskohtadest, tõlkekirjanduse võrgustik ja ülevaade eesti ajalehtede digiteerimise seisust.
Kui palju aega ja energiat ühe andmeloo kokkupanek nõuab? Kuidas tekivad ideed, millest kirjutada?
Kuna oleme kõik taustalt humanitaarid, siis tekib põnevaid küsimusi nii meie enda uurimistöö raames kui ka teiste tehtu pinnalt. Peame päris hoolikalt valima, millistega me edasi läheme, sest ideid on kõvasti rohkem, kui me teostada jõuame. Andmeloo enese kirjutamine võib võtta vaid mõne päeva, aga see põhineb enamasti mõne suurema projekti (andmekogu, rakenduse) tulemil, milleni jõudmine võib kesta nädalaid või kuid. Mõne mõtte küpsemist võib mõõta ka aastates.
Andmeid on meie ümber tohutult palju, ent nad saavad tähenduse alles siis, kui neid oskuslikult ja mõtestatult kasutada. Kui oluliseks te oma valdkonnas andmekirjaoskust peate?
Kui seni on suurem osa andmetega tegelemisest liigitatud ühte humanitaarteaduste nurka, nimelt digihumanitaaria alla, siis nüüd saab aina selgemaks, et andmekirjaoskus on vajalik pehmetes teadustes üldiselt. Lõhe võimaluste ja oskuste vahel on eriti teravalt esile tõusnud tänu tootva tehisaru läbimurdele. Keelemudelitel on ühelt poolt ülitugev seos kultuuriandmetega, teisalt on neid võimalik tulemuslikult kasutada humanitaarteaduslikus uurimistöös. Kõik see eeldab, et humanitaarhariduse tööriistakasti lisandub elementaarne andmekirjaoskus.
Miks on andmed ägedad – mis teid selle juures võlub?
Kultuuriandmetega töötamise juures paeluvad meid peamiselt neist väljajoonistuvad lood ja narratiivid, mis ühest küljest võivad toetada juba olemasolevaid teadmisi, kuid teisalt aitavad paljastada peidetud mustreid ja seoseid. Samuti on suurandmeid analüüsides nähtav kultuuriajaloo suurem pilt, mida muudmoodi pole võimalik näha. Stanfordi ülikooli professor Richard White on öelnud, et kultuuriandmete analüüs on uurimisvahend iseenesest – selle käigus ilmnevad seosed, mis on seni jäänud varjatuks, ning küsimused, mida muudmoodi ei oskaks küsida. Nii oleme ka meie andmeid analüüsides teada saanud, kui palju võivad keeleteadlaste ettekirjutused mõjutada inimeste keelekasutust, mil määral on suured muutused kirjandusloos üksikisikute või üksikute koolkondade põhjustatud ning millised teemad ja sündmused tõid keskkonnaprobleemid meedia tähelepanu alla.
Maailmas on lõputu hulk andmeid, mida mõtestada ja visualiseerida. Kuidas andmelugude sari edasi elab, kas midagi põnevat on veel tulemas?
Andmelugude sari tegelikult jätkub ja lisaks konkursile esitatud 2023. aasta postitustele on meie blogis ka kaks täiesti uut lugu, mis mõlemad põhinevad võrgustikuanalüüsil. Esimene annab ülevaate ärkamisaegsest kirjastusvõrgustikust ja uurib, kes olid kõige kesksemad tegelased eesti rahvusliku kirjasõna kujundamisel. Teine lugu, mis on valminud koos tõlkeajaloo uurijatega Tallinna Ülikoolist, tutvustab eesti tõlkekirjanduse uurimiseks mõeldud interaktiivset tööriista. See tööriist joonistab välja kõik seosed ligi 10 000 välismaise autori ja 4000 tõlkija vahel, kes nende loomingut viimase kahe sajandi jooksul on eestindanud.
Järgmiste andmelugudega uurime natuke teistsuguseid suundi, nagu interaktiivsed kaardid ja tehisintellekt. Aga kõige rohkem ootame me panustajaid väljastpoolt. Digilabori mõte on avada andmed ja nende väärtus kõigile, seega kui keegi on RaRa andmeid kasutades midagi ise teinud, võib meiega julgesti ühendust võtta ja me aitame teil luua blogipostituse meie lehel avaldamiseks. Tulevikus näemegi digilaborit just ühisloome ja n-ö kodanikuteaduse platvormina, kus saab jagada enda töid andmetega ja tutvuda teiste looduga.
Taustaks:
Konkursi „Andmepärl“ algatas statistikaamet 2021. aastal oma 100. sünnipäeva puhul, et propageerida andmete kasutamist ja mõtestamist ning parandada ühiskonna andmekirjaoskust.
„Andmepärli“ konkursi võitjad selgusid rahvahääletuse ja žürii hinnete kokku liitmise tulemusel. Parimat andmelugu aitasid välja selgitada OÜ Marduk Technologies andmeteadlane ja andmeteaduse õppejõud Indrek Seppo, Tartu Ülikooli arvutiteaduse instituudi ja andmeteaduse õppetooli juhataja Jaak Vilo, Tallinna Tehnikaülikooli professor, 2020. a konkursi võitja andmeloo kategoorias Anu Masso, Tartu Ülikooli Eesti geograafia kaasprofessor, „Andmepärl 2023“ konkursi võitja Taavi Pae ja statistikaameti eksperimentaalstatistika tiimi tiimijuht Marre Karu.
„Andmepärl 2024“ võidutöödega saab tutvuda siin.
Täpsem teave:
Heidi Kukk
meediasuhete juht
statistika levi osakond
statistikaamet
tel 625 9181
press [at] stat.ee (press[at]stat[dot]ee)
Foto: Eesti Rahvusraamatukogu