Multinomiaalinen logistinen regressio ja neuroverkot työelämätrajektorin mallintamisessa
Haikola, Janne (2022)
Haikola, Janne
2022
Master's Programme in Computational Big Data Analytics
Informaatioteknologian ja viestinnän tiedekunta - Faculty of Information Technology and Communication Sciences
This publication is copyrighted. Only for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2022-06-13
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:tuni-202206105608
https://urn.fi/URN:NBN:fi:tuni-202206105608
Tiivistelmä
Suomalaisten nuorten työelämään kiinnittyminen on jatkuvan tutkimuksen kohteena ja on todettu, että nuorten miesten heikko työelämään kiinnittyminen on yleisempää ja monimuotoisempaa kuin naisilla. Tämän tutkielman tavoitteena on vertailla eri koneoppimismenetelmien kykyä mallintaa nuorten miesten työelämään kiinnittymisen luokkia taustamuuttujien avulla sekä tunnistaa muuttujista tilastollisesti merkitseviä tekijöitä. Tarkastelun erityiskohteena on työelämästä syrjäytyneiden erot verrattuna muihin työ- ja opiskelijaelämässä oleviin ryhmiin.
Tutkielmassa esitellään luokittelevista koneoppimismenetelmistä multinomiaalinen logistinen regressioanalyysi ja neroverkot. Lisäksi tarkastellaan suomalaisten nuorten työelämään kiinnittymiseen liittyviä tilastoja ja työmarkkinoiden murrosta viimeisten vuosikymmenten aikana sekä sen vaikutusta nuorten työllistymiseen. Esiteltyjä menetelmiä käytetään mallintamaan yksilöiden siirtymäpolut työelämään ja verrataan menetelmien paremmuutta uusien havaintojen luokittelutarkkuuden avulla. Siirtymäpolun mallintamisen lisäksi etsitään tilastollisesti merkitseviä muuttujia kullekin siirtymäpolulle.
Tutkielman aineisto on peräisin Eläketurvakeskukselta. Aineisto koostuu 28621 vuonna 1987-syntyneen suomalaisen miehen viimeisimpään suoritettuun tutkintoon ja sosioekonomiseen statukseen liittyvistä tiedoista, sekä henkilöiden tulo- ja opiskelutietojen perusteella kullekin yksilölle määrätystä työhön kiinnittymistä kuvaavasta muuttujasta, jota pyritään mallintamaan.
Vastemuuttuja koostuu kymmenestä suomalaisille nuorille miehille tyypillisestä työhön siirtymispolusta, jotka jaettiin neljään ryhmään. Kahdessa ryhmässä oli työelämään sujuvasti, mutta hieman eri tahdissa päätyneet, kolmannessa ryhmässä työhön heikosti kiinnityvät ja neljännessä ryhmässä suuren osan ajastaan opintoihin käyttäneet.
Kaikkiaan kuutta eri muuttujaa käytettiin mallintamaan siirtymäpolkuja. Koneoppimismallien opettamiseen käytettiin koulutusaineistoa ja testausaineiston perusteella arvioitiin mallin kykyä ennustaa uusia havaintoja. Multinomiaalisen logistisen regressioanalyysin perusteella löydettiin tilastollisesti merkitseviä muuttujia ryhmien välillä. Tilastollisesta merkitsevyydestä huolimatta mallien kokonaisennustetarkkuus oli heikko, eikä parhaimpien neuroverkkojen ja multinomiaalisen logistisen regressioanalyysin ennustetarkkuuksissa huomattavia eroja löytynyt. Molemmat menetelmät luokittelivat työelämään heikosti kiinnittyneiden havaintoja huomattavan paljon työelämään päätyneeksi ja päinvastoin. Parhaiten mallinnettava siirtymäpolkujen ryhmä oli opiskelijat, mikä on luonnollista taustamuuttujien luonteen huomioon ottaen.
Tutkielman tulosten pohjalta neuroverkot ja multinomiaalinen logistinen regressioanalyysi luokittelevat miesten työhönkiinnittymistä yhtä tarkasti. Taustamuuttujat kuvasivat heikosti eri ryhmien eroja ja ennustetarkkuudet olivat heikkoja etenkin työelämään heikosti kiinnittyneiden osalta. Laajemmalla taustamuuttujien joukolla voitaisiin mahdollisesti mallintaa työttömyyttä ja syrjäytymistä paremmin tutkielmassa käytetyillä menetelmillä.
Tutkielmassa esitellään luokittelevista koneoppimismenetelmistä multinomiaalinen logistinen regressioanalyysi ja neroverkot. Lisäksi tarkastellaan suomalaisten nuorten työelämään kiinnittymiseen liittyviä tilastoja ja työmarkkinoiden murrosta viimeisten vuosikymmenten aikana sekä sen vaikutusta nuorten työllistymiseen. Esiteltyjä menetelmiä käytetään mallintamaan yksilöiden siirtymäpolut työelämään ja verrataan menetelmien paremmuutta uusien havaintojen luokittelutarkkuuden avulla. Siirtymäpolun mallintamisen lisäksi etsitään tilastollisesti merkitseviä muuttujia kullekin siirtymäpolulle.
Tutkielman aineisto on peräisin Eläketurvakeskukselta. Aineisto koostuu 28621 vuonna 1987-syntyneen suomalaisen miehen viimeisimpään suoritettuun tutkintoon ja sosioekonomiseen statukseen liittyvistä tiedoista, sekä henkilöiden tulo- ja opiskelutietojen perusteella kullekin yksilölle määrätystä työhön kiinnittymistä kuvaavasta muuttujasta, jota pyritään mallintamaan.
Vastemuuttuja koostuu kymmenestä suomalaisille nuorille miehille tyypillisestä työhön siirtymispolusta, jotka jaettiin neljään ryhmään. Kahdessa ryhmässä oli työelämään sujuvasti, mutta hieman eri tahdissa päätyneet, kolmannessa ryhmässä työhön heikosti kiinnityvät ja neljännessä ryhmässä suuren osan ajastaan opintoihin käyttäneet.
Kaikkiaan kuutta eri muuttujaa käytettiin mallintamaan siirtymäpolkuja. Koneoppimismallien opettamiseen käytettiin koulutusaineistoa ja testausaineiston perusteella arvioitiin mallin kykyä ennustaa uusia havaintoja. Multinomiaalisen logistisen regressioanalyysin perusteella löydettiin tilastollisesti merkitseviä muuttujia ryhmien välillä. Tilastollisesta merkitsevyydestä huolimatta mallien kokonaisennustetarkkuus oli heikko, eikä parhaimpien neuroverkkojen ja multinomiaalisen logistisen regressioanalyysin ennustetarkkuuksissa huomattavia eroja löytynyt. Molemmat menetelmät luokittelivat työelämään heikosti kiinnittyneiden havaintoja huomattavan paljon työelämään päätyneeksi ja päinvastoin. Parhaiten mallinnettava siirtymäpolkujen ryhmä oli opiskelijat, mikä on luonnollista taustamuuttujien luonteen huomioon ottaen.
Tutkielman tulosten pohjalta neuroverkot ja multinomiaalinen logistinen regressioanalyysi luokittelevat miesten työhönkiinnittymistä yhtä tarkasti. Taustamuuttujat kuvasivat heikosti eri ryhmien eroja ja ennustetarkkuudet olivat heikkoja etenkin työelämään heikosti kiinnittyneiden osalta. Laajemmalla taustamuuttujien joukolla voitaisiin mahdollisesti mallintaa työttömyyttä ja syrjäytymistä paremmin tutkielmassa käytetyillä menetelmillä.