Moniluokkaisen työssäkäyntiaineiston luokittelu koneoppimismenetelmin
Tuomas, Piirainen (2024)
Tuomas, Piirainen
2024
Master's Programme in Computing Sciences
Informaatioteknologian ja viestinnän tiedekunta - Faculty of Information Technology and Communication Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2024-02-07
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:tuni-202401081187
https://urn.fi/URN:NBN:fi:tuni-202401081187
Tiivistelmä
Tilastokeskus julkaisee vuosittain noin 2,3 miljoonasta Suomen työllisestä koostuvan työssäkäyntitilaston. Ennen julkaisua, pohjatietojen perusteella jokainen työllinen luokitellaan johonkin ammattiluokkaan. Tehtävä on erittäin aikaa vievä, sillä aikanaan manuaalisen luokittelun tueksi kehitetty sovellus ei nykyisellään vastaa aineiston määrän ja sen vaihtelun tuomiin haasteisiin. Ratkaisua lähdettiin hakemaan koneoppimismalleista.
Tässä tutkielmassa vertaillaan koneoppimismallien soveltumisesta ammattiluokitteluun. Koska työssäkäyntitilaston ammattiluokkia on liki 500 ja luokat ovat erittäin epätasaisesti jakautuneita, tutkielman menetelmäsisältö keskittyy erityisesti suuren luokkamäärän ja epätasaisen jakauman haasteisiin. Alun kirjallisuuskatsauksen jälkeen siirrytään menetelmien esittelyyn, jossa eri mallien soveltuvuutta verrataan teoriassa. Seuraavaksi mallit opetetaan aineistolla ja lopuksi vertaillaan niiden onnistumista luokittelussa. Lopuksi vedetään yhteen tutkielman tärkeimmät havainnot.
Tässä tutkielmassa vertaillaan koneoppimismallien soveltumisesta ammattiluokitteluun. Koska työssäkäyntitilaston ammattiluokkia on liki 500 ja luokat ovat erittäin epätasaisesti jakautuneita, tutkielman menetelmäsisältö keskittyy erityisesti suuren luokkamäärän ja epätasaisen jakauman haasteisiin. Alun kirjallisuuskatsauksen jälkeen siirrytään menetelmien esittelyyn, jossa eri mallien soveltuvuutta verrataan teoriassa. Seuraavaksi mallit opetetaan aineistolla ja lopuksi vertaillaan niiden onnistumista luokittelussa. Lopuksi vedetään yhteen tutkielman tärkeimmät havainnot.