Masinõpe teeb inimeste tööd tollis kaubakoodi leidmisel lihtsamaks

Uudis
Postitatud 16. august 2024, 8.00
Tarbijahinnaindeksi arvutamine, tööstustoodangu maht, keskmine brutokuupalk – nende märksõnadega tegeleb statistikaamet pea iga päev, kasutades selleks turvalisi ja tuntud statistika tegemise meetodeid. Statistikaameti eksperimentaalstatistika tiim nihutab ameti tegemiste piire ja katsetas rakendusuuringus, kuivõrd aitab masinõppe meetod lihtsustada inimestele tülikat ja keerulist kaubakoodi määramist.

Eesti majandusest, elust ja eluolust ülevaate saamiseks kasutatakse sageli registriandmed  –  andmeid, mida pole tarvis eraldi koguda, vaid mis kogunevad ise tegevuste käigus. Näiteks kaupade ekspordi ja impordi kohta ei küsi statistikaamet andmeid väliskaubandusega tegelevate ettevõtete käest eraldi, vaid see info tuleb tollideklaratsioonidelt, kuhu ettevõtjad peavad kaupade sissetoomisel ja väljaviimisel märkima kaubakoodi.

Vale kaubakood jõuab nii statistikasse kui ka riigieelarvesse

Kaubakoode on üle 8000 ning ettevõtjal on seetõttu sageli ajakulukas ja keeruline õiget valikut teha. Kaubale tuleb kindlasti aga õige kood valida, sest see on otseselt seotud kauba tolli-, aktsiisi- ja käibemaksuga maksustamisega ning seda kasutatakse ka impordi- ja ekspordipiirangute ning päritolureeglite rakendamisel, statistika koostamisel jms. Kui kaupa deklareeriv ettevõtja eksib kaubakoodi valikuga, kandub viga nii statistikasse kui ka riigieelarvesse.

Et inimestele tüütut ja sageli üle jõu käivat ülesannet veidigi lihtsustada, on viimastel aastatel tekkinud paljudel riikidel suur huvi kaupade automaatse liigitamise järele. Sagedase, tülika ja standardiseeritud ülesandena on kaubakoodi määramise probleemi püütud lahendada masinõppe abil. Masinõpe tähendab lühidalt öeldes mustrite õppimist andmetest, mis üldistuksid väljapoole treeningandmestikku. Piltlikult öeldes: analüüsides 100 erinevat kirjeldust rukkileivast, võiks masinõppemudel osata ära tunda ka sellise rukkileiva, mida pole isegi veel tootma hakatud.

Allikas: Microsoft Copilot, powered by GPT-4, 2024. aasta augusti versioon

Ülesanne: kas masinõpe aitab leida 8000 kaubakoodi seast õige koodi?

Ka statistikaamet proovis majandus- ja kommunikatsiooniministeeriumi tellimusel kätt. Statistikaameti andmeteadur Hans Hõrak tegi rakendusuuringu selgitamaks välja, kas ja kuidas saab automatiseerida kaubakoodide määramist, kasutades selleks kauba kirjelduse teksti. „Ehk ülesanne oli uurida, kas masinõppe meetod suudab kauba kirjelduse abil tunda ära õige kaubakoodi,“ selgitas Hõrak. Uuringu käigus võttis ta viie aasta väliskaubanduse andmed, puhastas andmestiku keeletehnoloogia abil kaubakoodi vigadest ning treenis siis kaubakoodi ennustamise mudeleid. 

Hõraku katsetatud masinõppe mudel suudab 8000 kaubakoodi seast pakkuda inimesele 9 kõige tõenäolisemalt sobivat kaubakoodi. „Kui mudel pakub kauba deklareerijale 9 kõige kõrgema tõenäosusega kaubakoodi ning inimene valib nende seast õige kaubakoodi, on mudeli täpsus 95%,“ kirjeldas Hõrak. Kuigi masinõppe mudel ei kaotaks tema sõnul ära deklareerija rolli tollis oma kaupadele õige koodi määramisel, lihtsustaks see siiski oluliselt õige koodi leidmist. „Kaupa deklareerivale ettevõtjale tähendaks sellise tööriista väljatöötamine väiksemat halduskoormust ning riigile täpsemat ja paremat maksulaekumist,“ selgitas Hõrak tööriista võimalikku kasu. Täisautomaatselt suudaks masinõppe mudel määrata õige kaubakoodi vaid 2/3 tollist läbi käivatele kaupadele.

Allikas: Microsoft Copilot, powered by GPT-4, 2024. aasta augusti versioon

„8000 kaubakoodi automaatne määramine on väga keeruline masinõppe ülesanne. Koode on lihtsalt liiga palju ning kaupade kirjeldused sageli ebapiisavad, et nende abil automaatselt tuvastada, millise koodi alla kaup võiks sobida,“ kirjeldas Hõrak ülesande keerukust. Näiteks sõna „liha“ võib tema sõnul viidata kana-, veise-, lamba- või sealiha hakitud ja hakkimata, värsketele ja sügavkülmutatud variantidele. Nii polegi tema hinnangul üllatav, et kaubakoodide leidmise täisautomatiseerimist lubanud idufirma pankrotistus kiirelt ning kaubakoodide leidmist pole rahuldava täpsusega automatiseerida suudetud. „Kaubakoodi täisautomaatne leidmine on veel liiga suur suutäis nii teadlastele kui ettevõtjatele,“ võttis Hõrak kokku.

Samas rõhutab ta, et sellised rakendusuuringud on väga olulised, et masinõppe revolutsiooniga mitte ummisjalu kaasa joosta. „Enne investeeringu tegemist võiks püüda saada aimu mudeli võimalikust saavutatavast täpsusest ja kasutegurist. Ükskõik kui moodsaid ja keerulisi algoritme masinõppes kasutada, sõltub tehisintellekti täpsus ja usaldusväärsus suuresti masinõppeülesande olemusest ning andmekvaliteedist,“ rõhutas Hõrak.

Kuivõrd aga aitaks Hõraku välja pakutud masinõppemudel kaubakoode ka päris elus lihtsamini leida, loodab ta näha tulevikus. 

 

Loe rakendusuuringut statistikaameti veebist.

Statistikaameti andmete kasutamisel palume viidata allikale.

 

Täpsem teave:
 

Heidi Kukk
meediasuhete juht
statistika levi osakond
statistikaamet
tel 625 9181

press [at] stat.ee (press[at]stat[dot]ee)

 

Foto: Shutterstock