Hyppää sisältöön
    • Suomeksi
    • In English
Trepo
  • Suomeksi
  • In English
  • Kirjaudu
Näytä viite 
  •   Etusivu
  • Trepo
  • Opinnäytteet - ylempi korkeakoulututkinto
  • Näytä viite
  •   Etusivu
  • Trepo
  • Opinnäytteet - ylempi korkeakoulututkinto
  • Näytä viite
JavaScript is disabled for your browser. Some features of this site may not work without it.

Tilaamisen todennäköisyyden ennustaminen verkkokäyttäytymisestä koneoppimismenetelmin

Vattulainen, Tuuli (2020)

 
Avaa tiedosto
VattulainenTuuli.pdf (1.509Mt)
Lataukset: 



Vattulainen, Tuuli
2020

Tietojenkäsittelyopin maisteriohjelma - Master's Programme in Computer Science
Informaatioteknologian ja viestinnän tiedekunta - Faculty of Information Technology and Communication Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2020-02-28
Näytä kaikki kuvailutiedot
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:tuni-202002272399
Tiivistelmä
Palvelun tilaajakannan kasvattamiseen kuuluu kaksi peruselementtiä: uusien tilaajien hankinta ja vanhojen tilaajien pito. Tässä tutkielmassa keskitytään uusien asiakkaiden hankintaan. Tutkimusongelmana on palvelun tilaamisen todennäköisyyden ennustaminen verkkokäyttäytymisen perusteella. Käytetyt algoritmit ovat todennäköisyyksien ennustamiseen soveltuvat päätöspuut C4.5 ja CART sekä satunnaismetsä.

Tässä kontekstissa tilaaminen on melko harvinainen tapaus, ja käsiteltävä datan luokkajakauma on epätasapainossa. Tutkielmassa keskitytään epätasapainoisen datan käsittelytapoihin. Otantamenetelmistä testattavaksi on valittu satunnainen aliotanta ja SMOTE, ja lisäksi otantamenetelmiä kokeillaan viidellä luokkasuhteella. Satunnaisessa aliotannassa datasta poistetaan satunnaisesti enemmistöluokan havaintoja ja SMOTEssa yhdistettynä aliotantaan sekä poistetaan enemmistöluokan havaintoja että luodaan vähemmistöluokan havaintojen pohjalta uusia synteettisiä havaintoja. Koska otanta vaikuttaa ennustettaviin todennäköisyyksiin, ennustettujen todennäköisyyksien kalibroinnissa hyödynnetään Plattin skaalausta tai isotonista regressiota.

Luokittelualgoritmeja, otantamenetelmiä, otantasuhteita sekä kalibrointimenetelmiä yhdistelemällä luotiin yhteensä 90 erilaista ennustemallia. Malleja verrattiin logaritmisen tappion sekä Brierin pisteiden avulla, jotka ovat todennäköisyyksien ennustamisessa yleisesti käytettyjä evaluointimetriikoita. Parhaaksi ennustajaksi osoittautui malli, jossa yhdistettiin satunnaismetsä, SMOTE luokkasuhteella 4:1 ja isotoninen regressio. SMOTE toimi satunnaista aliotantaa paremmin ja isotoninen regressio toimi SMOTEn kanssa Plattin skaalausta paremmin.

Testauksessa parhaan mallin logaritminen tappio on 0,1 ja Brierin pisteet 0,02. Kun ennustetut todennäköisyydet binärisoidaan luokiksi raja-arvolla t = 0,02, saadaan mallin tarkkuudeksi, sensitiivisyydeksi ja spesifisyydeksi 0,6. Rajaa pienentämällä saadaan sensitiivisyyttä kasvatettua väärien positiivisten kustannuksella. Tarvittaessa siis tunnistetaan hyvin tilanneita, mutta silloin malli ennustaa myös paljon ei-tilanneita tilanneiksi. Luokittelukyky jää kokonaisuudessaan melko heikoksi, mutta toisaalta tutkimusongelman kannalta tärkeintä on havaita potentiaaliset tilaajat, joten väärät positiiviset eivät ole välttämättä kovin haitallisia.
Kokoelmat
  • Opinnäytteet - ylempi korkeakoulututkinto [40800]
Kalevantie 5
PL 617
33014 Tampereen yliopisto
oa[@]tuni.fi | Tietosuoja | Saavutettavuusseloste
 

 

Selaa kokoelmaa

TekijätNimekkeetTiedekunta (2019 -)Tiedekunta (- 2018)Tutkinto-ohjelmat ja opintosuunnatAvainsanatJulkaisuajatKokoelmat

Omat tiedot

Kirjaudu sisäänRekisteröidy
Kalevantie 5
PL 617
33014 Tampereen yliopisto
oa[@]tuni.fi | Tietosuoja | Saavutettavuusseloste