Tilaamisen todennäköisyyden ennustaminen verkkokäyttäytymisestä koneoppimismenetelmin
Vattulainen, Tuuli (2020)
Vattulainen, Tuuli
2020
Tietojenkäsittelyopin maisteriohjelma - Master's Programme in Computer Science
Informaatioteknologian ja viestinnän tiedekunta - Faculty of Information Technology and Communication Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2020-02-28
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:tuni-202002272399
https://urn.fi/URN:NBN:fi:tuni-202002272399
Tiivistelmä
Palvelun tilaajakannan kasvattamiseen kuuluu kaksi peruselementtiä: uusien tilaajien hankinta ja vanhojen tilaajien pito. Tässä tutkielmassa keskitytään uusien asiakkaiden hankintaan. Tutkimusongelmana on palvelun tilaamisen todennäköisyyden ennustaminen verkkokäyttäytymisen perusteella. Käytetyt algoritmit ovat todennäköisyyksien ennustamiseen soveltuvat päätöspuut C4.5 ja CART sekä satunnaismetsä.
Tässä kontekstissa tilaaminen on melko harvinainen tapaus, ja käsiteltävä datan luokkajakauma on epätasapainossa. Tutkielmassa keskitytään epätasapainoisen datan käsittelytapoihin. Otantamenetelmistä testattavaksi on valittu satunnainen aliotanta ja SMOTE, ja lisäksi otantamenetelmiä kokeillaan viidellä luokkasuhteella. Satunnaisessa aliotannassa datasta poistetaan satunnaisesti enemmistöluokan havaintoja ja SMOTEssa yhdistettynä aliotantaan sekä poistetaan enemmistöluokan havaintoja että luodaan vähemmistöluokan havaintojen pohjalta uusia synteettisiä havaintoja. Koska otanta vaikuttaa ennustettaviin todennäköisyyksiin, ennustettujen todennäköisyyksien kalibroinnissa hyödynnetään Plattin skaalausta tai isotonista regressiota.
Luokittelualgoritmeja, otantamenetelmiä, otantasuhteita sekä kalibrointimenetelmiä yhdistelemällä luotiin yhteensä 90 erilaista ennustemallia. Malleja verrattiin logaritmisen tappion sekä Brierin pisteiden avulla, jotka ovat todennäköisyyksien ennustamisessa yleisesti käytettyjä evaluointimetriikoita. Parhaaksi ennustajaksi osoittautui malli, jossa yhdistettiin satunnaismetsä, SMOTE luokkasuhteella 4:1 ja isotoninen regressio. SMOTE toimi satunnaista aliotantaa paremmin ja isotoninen regressio toimi SMOTEn kanssa Plattin skaalausta paremmin.
Testauksessa parhaan mallin logaritminen tappio on 0,1 ja Brierin pisteet 0,02. Kun ennustetut todennäköisyydet binärisoidaan luokiksi raja-arvolla t = 0,02, saadaan mallin tarkkuudeksi, sensitiivisyydeksi ja spesifisyydeksi 0,6. Rajaa pienentämällä saadaan sensitiivisyyttä kasvatettua väärien positiivisten kustannuksella. Tarvittaessa siis tunnistetaan hyvin tilanneita, mutta silloin malli ennustaa myös paljon ei-tilanneita tilanneiksi. Luokittelukyky jää kokonaisuudessaan melko heikoksi, mutta toisaalta tutkimusongelman kannalta tärkeintä on havaita potentiaaliset tilaajat, joten väärät positiiviset eivät ole välttämättä kovin haitallisia.
Tässä kontekstissa tilaaminen on melko harvinainen tapaus, ja käsiteltävä datan luokkajakauma on epätasapainossa. Tutkielmassa keskitytään epätasapainoisen datan käsittelytapoihin. Otantamenetelmistä testattavaksi on valittu satunnainen aliotanta ja SMOTE, ja lisäksi otantamenetelmiä kokeillaan viidellä luokkasuhteella. Satunnaisessa aliotannassa datasta poistetaan satunnaisesti enemmistöluokan havaintoja ja SMOTEssa yhdistettynä aliotantaan sekä poistetaan enemmistöluokan havaintoja että luodaan vähemmistöluokan havaintojen pohjalta uusia synteettisiä havaintoja. Koska otanta vaikuttaa ennustettaviin todennäköisyyksiin, ennustettujen todennäköisyyksien kalibroinnissa hyödynnetään Plattin skaalausta tai isotonista regressiota.
Luokittelualgoritmeja, otantamenetelmiä, otantasuhteita sekä kalibrointimenetelmiä yhdistelemällä luotiin yhteensä 90 erilaista ennustemallia. Malleja verrattiin logaritmisen tappion sekä Brierin pisteiden avulla, jotka ovat todennäköisyyksien ennustamisessa yleisesti käytettyjä evaluointimetriikoita. Parhaaksi ennustajaksi osoittautui malli, jossa yhdistettiin satunnaismetsä, SMOTE luokkasuhteella 4:1 ja isotoninen regressio. SMOTE toimi satunnaista aliotantaa paremmin ja isotoninen regressio toimi SMOTEn kanssa Plattin skaalausta paremmin.
Testauksessa parhaan mallin logaritminen tappio on 0,1 ja Brierin pisteet 0,02. Kun ennustetut todennäköisyydet binärisoidaan luokiksi raja-arvolla t = 0,02, saadaan mallin tarkkuudeksi, sensitiivisyydeksi ja spesifisyydeksi 0,6. Rajaa pienentämällä saadaan sensitiivisyyttä kasvatettua väärien positiivisten kustannuksella. Tarvittaessa siis tunnistetaan hyvin tilanneita, mutta silloin malli ennustaa myös paljon ei-tilanneita tilanneiksi. Luokittelukyky jää kokonaisuudessaan melko heikoksi, mutta toisaalta tutkimusongelman kannalta tärkeintä on havaita potentiaaliset tilaajat, joten väärät positiiviset eivät ole välttämättä kovin haitallisia.