Poikkeavien havaintojen tunnistus koneoppimismenetelmin
Vänni, Ilona (2019)
Vänni, Ilona
2019
Matematiikan ja tilastotieteen tutkinto-ohjelma
Informaatioteknologian ja viestinnän tiedekunta - Faculty of Information Technology and Communication Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2019-12-13
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:tuni-201912136860
https://urn.fi/URN:NBN:fi:tuni-201912136860
Tiivistelmä
Poikkeavien havaintojen tunnistus on tärkeä osa datalähtöisiä prosesseja. Poikkeavien havaintojen tunnistuksen avulla aineistojen laadukkuus saadaan taattua ja toisaalta mielenkiinnon kohteena olevat poikkeavuudet aineiston normaalista rakenteesta tunnistettua. Poikkeavuuksien tunnistamiseen käytetään erilaisia perinteisiä tilastollisia testejä, mutta näiden rinnalle on noussut myös erilaisia koneoppimiseen pohjautuvia menetelmiä. Koneoppimismenetelmien avulla pystytään tunnistamaan äärihavaintojen lisäksi erityyppisiä poikkeavuuksia. Myös poikkeavien havaintojen ryhmittymiä on mahdollista tunnistaa suuristakin aineistoista, jotka koostuvat sekatyyppisistä muuttujista.
Tässä tutkielmassa kartoitetaan koneoppimismenetelmien käyttöä poikkeavien havaintojen tunnistukseen tilastollisesta aineistosta. Koneoppimisen hyödyntämistä poikkeavuuksien tunnistuksessa on tutkittu eri sovellusalueilla ja todettu aineiston rakenteesta riippuen sekä ohjatun että ohjaamattoman oppimisen menetelmien sopivan tehtävään. Koneoppimismenetelmiä on kehitetty myös erityisesti tätä tehtävää varten. Vaikka poikkeavuuksien tunnistuksesta koneoppimismenetelmin on laajasti tutkimusnäyttöä, ei niiden soveltamista tilastollisen aineiston tapauksessa ole juurikaan kartoitettu.
Tutkimusaineisto koostetaan Suomen Pankin tuottamasta luottolaitosten tase- ja korkotilastosta. Tutkielman tavoitteena on kartoittaa koneoppimismenetelmien hyödyntämistä osana rahoitustilastojen laadunvalvontaprosessia. Tutkielmassa harkitaan kahdeksaa eri ohjatun ja ohjaamattoman oppimisen menetelmää ja mallien hyvyyttä tarkastellaan ensisijaisesti tilastolaadinnan näkökulmasta. Osittavat ohjaamattoman oppimisen mallit osoittautuivat hyödyllisiksi aineiston rakenteen hahmottamisessa, mutta poikkeavien havaintojen tunnistamisessa näiden menetelmien ennustekyky oli heikko. Ohjatun oppimisen menetelmistä päätöspuupohjaiset algoritmit onnistuivat normaaleiden havaintojen ennustamisessa hyvin, mutta myös suuri osa poikkeavista havainnoista luokiteltiin normaaleiksi havainnoiksi. Päätöspuupohjaisista menetelmistä etenkin eristysmetsä on kuitenkin harkitsemisen arvoinen menetelmä osaksi tilaston laadunvalvontaprosessia, sillä poikkeavuusarvon alarajaa nostamalla voidaan poimia vain hyvin suurella todennäköisyydellä poikkeavuuksia olevat havainnot, vaikkakin tällöin jää myös aitoja poikkeuksia tunnistamatta. Ylitse muiden menetelmien poikkeavien havaintojen tunnistuksessa onnistui k:n lähimmän naapurin menetelmä, jonka ennustetarkkuus sekä aitojen poikkeavuuksien että normaalien havaintojen suhteen oli erityisen korkea.
Tutkielman tulosten pohjalta koneoppimismenetelmiä olisi hyödyllistä harkita osaksi tilastojen laadintaprosessia. Luottolaitosten tase- ja korkotilaston poikkeavien havaintojen tunnistukseen k:n lähimmän naapurin menetelmä soveltuu erinomaisesti, ja menetelmän käyttö osana laadunvalvontaa potentiaalisesti tehostaisi prosessia sekä osaltaan edistäisi tilastoaineiston laadukkuutta. Toisaalta ohjaamattoman oppimisen menetelmiä voisi olla hedelmällistä käyttää apuna tilastoaineiston analysoinnissa niiden paljastaessa aineistosta rakenteita ja säännönmukaisuuksia, joita on vaikea tunnistaa ilman koneoppimismallintamista.
Tässä tutkielmassa kartoitetaan koneoppimismenetelmien käyttöä poikkeavien havaintojen tunnistukseen tilastollisesta aineistosta. Koneoppimisen hyödyntämistä poikkeavuuksien tunnistuksessa on tutkittu eri sovellusalueilla ja todettu aineiston rakenteesta riippuen sekä ohjatun että ohjaamattoman oppimisen menetelmien sopivan tehtävään. Koneoppimismenetelmiä on kehitetty myös erityisesti tätä tehtävää varten. Vaikka poikkeavuuksien tunnistuksesta koneoppimismenetelmin on laajasti tutkimusnäyttöä, ei niiden soveltamista tilastollisen aineiston tapauksessa ole juurikaan kartoitettu.
Tutkimusaineisto koostetaan Suomen Pankin tuottamasta luottolaitosten tase- ja korkotilastosta. Tutkielman tavoitteena on kartoittaa koneoppimismenetelmien hyödyntämistä osana rahoitustilastojen laadunvalvontaprosessia. Tutkielmassa harkitaan kahdeksaa eri ohjatun ja ohjaamattoman oppimisen menetelmää ja mallien hyvyyttä tarkastellaan ensisijaisesti tilastolaadinnan näkökulmasta. Osittavat ohjaamattoman oppimisen mallit osoittautuivat hyödyllisiksi aineiston rakenteen hahmottamisessa, mutta poikkeavien havaintojen tunnistamisessa näiden menetelmien ennustekyky oli heikko. Ohjatun oppimisen menetelmistä päätöspuupohjaiset algoritmit onnistuivat normaaleiden havaintojen ennustamisessa hyvin, mutta myös suuri osa poikkeavista havainnoista luokiteltiin normaaleiksi havainnoiksi. Päätöspuupohjaisista menetelmistä etenkin eristysmetsä on kuitenkin harkitsemisen arvoinen menetelmä osaksi tilaston laadunvalvontaprosessia, sillä poikkeavuusarvon alarajaa nostamalla voidaan poimia vain hyvin suurella todennäköisyydellä poikkeavuuksia olevat havainnot, vaikkakin tällöin jää myös aitoja poikkeuksia tunnistamatta. Ylitse muiden menetelmien poikkeavien havaintojen tunnistuksessa onnistui k:n lähimmän naapurin menetelmä, jonka ennustetarkkuus sekä aitojen poikkeavuuksien että normaalien havaintojen suhteen oli erityisen korkea.
Tutkielman tulosten pohjalta koneoppimismenetelmiä olisi hyödyllistä harkita osaksi tilastojen laadintaprosessia. Luottolaitosten tase- ja korkotilaston poikkeavien havaintojen tunnistukseen k:n lähimmän naapurin menetelmä soveltuu erinomaisesti, ja menetelmän käyttö osana laadunvalvontaa potentiaalisesti tehostaisi prosessia sekä osaltaan edistäisi tilastoaineiston laadukkuutta. Toisaalta ohjaamattoman oppimisen menetelmiä voisi olla hedelmällistä käyttää apuna tilastoaineiston analysoinnissa niiden paljastaessa aineistosta rakenteita ja säännönmukaisuuksia, joita on vaikea tunnistaa ilman koneoppimismallintamista.