"Andmeteadus on meile kõigile!" kinnitab noore statistiku preemia võitja

Blogi
Postitatud 16. november 2023, 12.30

Albert Pulleritsu nimelise noore statistiku preemia sai sel aastal Artur Tuttar, kes uuris oma magistritöös, kuidas võimsaid masinõppe mudeleid kindlustusvaldkonnas rakendada. Artur on tõeline andmefänn, kes loodab andmete abil paremaks teha nii kindlustusvaldkonda kui maailma laiemalt.

Tuttari töö „Üldistatud lineaarsete mudelite edasiarendus kindlustusandmetel masinõppe meetodite abil“ tuumaks oli selgitada välja, kas ja kuidas on võimalik rakendada võimsaid masinõppe mudeleid nii, et need mudelid oleksid tõlgendatavad. Lõplik andmemaht, mis koosnes 1,6 miljonist poliisist, nõudis masinõppe mudeli arendamisel äärmiselt laia oskuste spektrit. Valminud töö tulemustel ja metoodikal on kõrge kasutuspotentsiaal ka teistes valdkondades.

 

Palun jaga magistritöö valmimise tagamaid – kuidas tekkis idee ja mis oli töö peamine eesmärk?

Magistritöö valmis koostöös If P&C Insurance AS-iga, kes pakkus idee ülikoolile läbi tööstusmagistri programmi. Uurides andmeid, mida ettevõtte mulle töö tegemiseks andis ning lugedes ka akadeemilist kirjandust, kogusin ideid, mõtteid ja meetodeid, mida saaksin enda andmetele rakendada. Kuna eesmärk oli masinõppest välja pigistada nö rakendatav teave, siis saigi valitud meetodid, mis avavad masinõppe meetodite sisemuse ning loovad kõrvale mudelid, mis jäljendavad neid masinõppe mudeleid, kuid on selged ja läbipaistvad. Töö peamiseks eesmärgiks oli luua ja katsetada kindlustusandmetel sellist protseduuri, mis loob keerulise masinõppe mudeli ning seejärel loob mudeli, mis jäljendab masinõppe mudeli hindamist, kuid kasutab kergesti tõlgendatava struktuuri, milleks minus töös oli üldistatud lineaarne mudel.

Kuidas selgitaksid inimesele tänavalt, mida Sa täpsemalt uurisid?

Meil on olemas masinõppe mudelid, mis suudavad hinnata sündmuste asjaolusid väga täpselt, kuid need mudelid on nö mustad kastid, kuhu andmed lähevad sisse, neid väänatakse ja pööratakse ning välja tulevad täpsed hinnangud. See olukord, kus me ei saa täpselt jälgida, kuidas hindamise protsess toimib, on mõningates valdkondades, näiteks kindlustuses, väga halb. Minu töö uuriski kuidas oleks võimalik masinõppe mudeleid kindlustusvaldkonnas rakendada nii, et nad ei oleks mustad kastid ehk nende hindamisprotsessi saaks tõlgendada, säilitades samas suure osa nende mudelite täpsusest.

Artur koos hindamiskomisjoni esimehe Anet Müürsoo ja juhendaja Meelis Käärikuga
Artur koos hindamiskomisjoni esimehe Anet Müürsoo ja juhendaja Meelis Käärikuga. Foto: Statistikaamet

Mida pead oma töö suurimaks praktiliseks väärtuseks?

Minu töö suurim väärtus on need meetodid ja protsessid, mille ma töö käigus välja töötasin. Täpsemalt lõin töö käigus kahe mudeli jaoks nö töövoo (ingl pipeline), mis võtab andmed sisse ning loob mudelid, mis sobivad kindlustusvaldkonnas kahjusageduse hindamiseks, treenides automaatselt nii masinõppe mudelit kui ka tõlgendavat asendusmudelit. Nendest mudelitest saadav teave on väga oluline, sest minu nullist ehitatud mudelid olid võrdväärsed või paremad nendest mudelitest, mis olid seni kindlustusseltsis kasutusel.

Millisel erialal Sa ise õppisid ja kuidas jõudsid tõdemuseni, et just see valdkond silma särama paneb?

Mina õppisin kindlustus- ja finantsmatemaatika magistrantuuris Tartu Ülikoolis. Kindlustusvaldkond ja kindlustusmatemaatika muutusid minu jaoks oluliseks enda bakalaureuseõppe teisel aastal, kui meie instituuti külastasid kindlustusseltsides töötavad aktuaarid, kes tutvustasid oma tööd. Tundsin nende igapäevases tegevuses ennast ära ning teadsin seminari lõpuks, et minust peab ka ühel või teisel moel aktuaar saama.

Kui palju Sa oma igapäevaelus andmeid kasutad?

Kuna olen nö „formaalse“ andmeharidusega, siis töötan andmeanalüütikuna ka praegu ehk töö asjus kasutan andmeid nii palju kui võimalik (isegi siis, kui käsil on mõni raport või muu loovam tegevus). Väljaspool tööd jälgin aktiivselt maailmas toimuvat nii finantsturgudel kui ühiskonnas tervikuna ning teen kõik enda otsused ja kaalun võimalusi alati mõne arvutuse või andmeallika toel. Näiteks arvutasin hiljuti enda kodule kulunud summasid, kus peamiseks andmeallikaks on igakuine kommunaalarve. Me oleme kõik igapäevaselt ümbritsetud andmetega, küsimus on selles, kas me ise soovime neid andmeid ka enda otsuste tegemisel kasutada.

Mis on Sinu jaoks andmetega töötamise võlu?

Kuigi tehniliselt saab üsna harva öelda, et andmetele tuginedes on mingi sündmus kindel või mingi asi toimub 100% ajast, siis andmed üldises mõttes annavad meile selle aimduse, kuidas mingis situatsioonis olukord võib kujuneda, millised otsused on tehtud ning millised on nende otsuste tagajärjed. Andmed ütlevad, kuhupoole mingi olukord kaldub ning mida me saame teha, et seda situatsiooni muuta. Selge on, et puhtalt emotsioonilt on ka võimalik midagi saavutada, aga andmed on need, mis aitavad tulemuseni jõuda kiiremini ja struktureeritud moel.

Miks otsustasid kandideerida Albert Pulleritsu nimelise noore statistiku konkursile ja mida selle võitmine Sulle tähendab?

Minu magistritöö teema on nii sügav ja mul on meeletult hea meel, et suutsin selle teema väikest tükki nii hästi avada. Olen alati arvanud, et teadmisi ja oskusi on vaja jagada, et keegi saaks tulla ja asja veelgi paremaks teha. Samas ei kuulu preemia ainult mulle, vaid ka minu juhendajatele Meelis Käärikule ja Julius Paule, kelle abita ei oleks töö nii detailne ja asjakohane olnud. Kummardus kõigile, kes mind sel teel aidanud on.

Kuidas Sa hindad tänapäeva noorte andmekirjaoskuse taset?

Tänapäeval õpetatakse noortele küll andmetega ümberkäimise oskusi nagu keskmise, moodi või hälbe arvutamist, kuid minu arust puudub selgitus, kuidas andmed ja meie igapäevane keskkond suhestuvad. Kuigi matemaatikatunnis õpitakse gümnaasiumis tõenäosuse tähendus selgeks, tundub mulle, et tänapäeva noor ei pruugi aru saada, kuidas mingite sündmuste andmestikust see sama tõenäosus üles leida. Tähtis ei ole oskus mingit asja lihtsustada või kokku tuua ja välja arvutada, tähtis on oskus andmeid selgitada, jutustada nende abil lugusid ja aru saada kuidas andmed otsuseid mõjutavad. Viimast oleks tänapäeva noortele vaja juurde õpetada.

Mida Sa soovitaksid neile, kes kõhklevad, kas andmeteadus või statistika võiks olla nende eriala?

Andmeteadus on meile kõigile. Tänapäeval elame maailmas, kus andmed ümbritsevad meid igal pool ning kui soovid neid andmeid enda kasuks tööle panna, sõltumata valdkonnast, on vaja põhiteadmisi, mille saad statistika või andmeteadusega seotud erialadelt. Nende erialade lõpetajad ei ole kinni ühes valdkonnas, vaid on võimelised liikuma kõikide erialade vahel, sest andmed on igal pool ja keegi peab neist midagi kasuliku tegema ja enda kasuks tööle panema!

Millised on Sinu tulevikuambitsioonid? Kas andmemaailm (Sinu elus) on tulnud, et jääda?

Mina soovin laiendada kindlustusvaldkonda ning teha see läbipaistvamaks ja arusaadavamaks. Selge on see, et andmemaailm on kohale jõudnud ja mina tahan olla selle rongi kapten, kes ka kindlusvaldkonnas uudsed andmed tööle paneb. Andmemaailm on siin, võta pilet ja istu rongile, sest see on ainus tee meie ühiskonna jaoks.

Millest Sa unistad?

Lähi perspektiivis unistan koera võtmisest ja kodu soetamisest. Elulises mõttes unistan maailma parandamisest nii seest kui väljast, soovides anda tagasi ühiskonnale, et seda muuta paremaks! Hoiame üksteist, sest oleme siin planeedil kõik koos!