Tilastolliset oppimisyhdistelmät asiakasvaihtuvuuden ennustamisessa
PAUKKERI, RAUNO (2013)
PAUKKERI, RAUNO
2013
Tilastotiede - Statistics
Informaatiotieteiden yksikkö - School of Information Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2013-12-31
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:uta-201401171046
https://urn.fi/URN:NBN:fi:uta-201401171046
Tiivistelmä
Tämän tutkielman tarkoituksena on selvittää ja vertailla erilaisia tilastollisia oppimisyhdistelmiä erään suomalaisen teleoperaattorin asiakasvaihtuvuuden ennustamisessa. Tutkielmassa tarkastellaan myös, onko opetusaineiston painottamisella vaikutusta asiakasvaihtuvuuden ennustamisen tarkkuuteen. Asiakasvaihtuvuudella operaattorit tarkoittavat asiakkaan poistumista, joka ilmaistaan vuositasolla prosentteina. Prosenttiosuus kuvaa poistuvien asiakkaiden osuutta kaikista asiakkaista.
Asiakasvaihtuvuuden tuomien kustannusten vuoksi operaattorit pyrkivät kohdentamaan asiakassuhteiden hoitamista erityisesti vaihtumassa oleviin asiakkaisiin. Kohderyhmän löytäminen asiakaskannasta ei kuitenkaan ole helppoa, sillä asiakas- vaihtuvuus on tilastollisesti hyvin haasteellinen tutkimuksen kohde. Asiakasvaihtuvuuden tarkastelu kuukausitasolla on haasteellista, koska vaihtuvuus on yleensä alle 2%. Tällöin yksittäisten tilastollisten mallien ongelmana on, että ne sovittuvat huonosti aineistoon. Ongelmaan on kehitetty erilaisia oppimisyhdistelmiä, joiden avulla saadaan parannettua yksittäisen mallin monimuotoisuutta ja ennusteiden tarkkuutta. Tutkielmassa vertailtiin erilaisia oppimisyhdistelmiä, erityisesti Bagging ja Boosting-algoritmeihin ja päätöspuihin perustuvia menetelmiä. Oppimisyhdistelmistä tutkielmaan valittiin Bagging-algoritmi yhdessä päätöspuiden kanssa, Real AdaBoost, Gradient Boosting sekä satunnaismetsä-algoritmit. Menetelmistä tehokkaimmiksi osoittautuivat Gradient Boosting ja satunnaismetsä riippuen käytettävän opetusaineiston painottamisesta.
Asiakasvaihtuvuuden tuomien kustannusten vuoksi operaattorit pyrkivät kohdentamaan asiakassuhteiden hoitamista erityisesti vaihtumassa oleviin asiakkaisiin. Kohderyhmän löytäminen asiakaskannasta ei kuitenkaan ole helppoa, sillä asiakas- vaihtuvuus on tilastollisesti hyvin haasteellinen tutkimuksen kohde. Asiakasvaihtuvuuden tarkastelu kuukausitasolla on haasteellista, koska vaihtuvuus on yleensä alle 2%. Tällöin yksittäisten tilastollisten mallien ongelmana on, että ne sovittuvat huonosti aineistoon. Ongelmaan on kehitetty erilaisia oppimisyhdistelmiä, joiden avulla saadaan parannettua yksittäisen mallin monimuotoisuutta ja ennusteiden tarkkuutta. Tutkielmassa vertailtiin erilaisia oppimisyhdistelmiä, erityisesti Bagging ja Boosting-algoritmeihin ja päätöspuihin perustuvia menetelmiä. Oppimisyhdistelmistä tutkielmaan valittiin Bagging-algoritmi yhdessä päätöspuiden kanssa, Real AdaBoost, Gradient Boosting sekä satunnaismetsä-algoritmit. Menetelmistä tehokkaimmiksi osoittautuivat Gradient Boosting ja satunnaismetsä riippuen käytettävän opetusaineiston painottamisesta.