Asiakaspoistuman tutkiminen koneoppimisen avulla
Ylitalo, Ville (2022)
Ylitalo, Ville
2022
Johtamisen ja tietotekniikan DI-ohjelma - Master's Programme in Management and Information Technology
Johtamisen ja talouden tiedekunta - Faculty of Management and Business
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2022-10-17
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:tuni-202210147615
https://urn.fi/URN:NBN:fi:tuni-202210147615
Tiivistelmä
Valtavasti kasvaneet datamäärät, tallennuskapasiteetin kasvu sekä tekoälyn kehitys ovat mahdollistaneet data-analyysin entistä monipuolisemman hyödyntämisen asiakassuhteen laadun tutkimisessa. Yritykset ovat heränneet siihen, että uusien asiakkaiden hankkiminen on huomattavasti kalliimpaa kuin vanhoista kiinnipitäminen. Tämän vuoksi moni yritys on alkanut tutkia asiakaspoistumaa. Kohdeyritys toimii rautakauppa-alalla, ja yrityksellä oli tarve luoda automatisoitu malli asiakaspoistuman tunnistamiseksi. Tutkittavan asiakasryhmän kauppa ei perustu hankintasopimuksiin, joten asiakkailla ei ole velvollisuutta ilmoittaa, mikäli he siirtävät ostonsa muualle. Kohdeyritys haluaa päästä hyvissä ajoin selville hiipuvista asiakkaista, jotta ne voidaan yrittää voittaa takaisin, ennen kuin ostot loppuvat kokonaan. Tarkoituksena on luoda koneoppimiseen perustuva malli, joka tuottaisi helposti tulkittavan poistumisriskiprosentin suoraan kohdeyrityksen CRM-järjestelmään.
Työssä keskitytään koneoppimisen mallin muuttujien määrittelyyn sekä mallin toimivuuden validointiin. Yleisimmät muuttujat asiakaspoistuman tutkimisessa ovat niin sanotut RFM-muuttujat, jotka määrittelevät aikaa viimeisestä ostoksesta (recency), ostostiheyttä (frequency) sekä rahallista arvoa (monetary). Aluksi määritettiin tilastollinen asiakaspoistuma. Kohdeyrityksen myyntihistoriadataa tutkimalla määriteltiin varmasti poistuneet asiakkaat. Tilastollisen asiakaspoistuman määrittelyyn käytettävien muuttujien parametrejä säätämällä malli oppi tunnistamaan poistuneet asiakkaat riittävän hyvin, jotta mallia voidaan käyttää varsinaisten poistumaennusteiden tekemiseen. Tilastollisen asiakaspoistuman määrittelyyn muuttujina käytettiin ostostiheyttä sekä painotettua ostostiheyden ja viimeisestä ostoksesta kuluneen ajan avulla laskettua pistelukua (RF- score).
Varsinaisessa ennustemallissa aineisto jaettiin opetus-, validointi- ja testiaineistoon, jotka ovat kaikki eri ajanjaksoilta. Malli koulutettiin opetusaineiston avulla, tulokset vahvistettiin validointiaineiston avulla ja ennuste tehtiin testiaineistolla. Testiaineisto on aina uutta, mallille entuudestaan tuntematonta dataa. Mallia testattiin kolmella eri koneoppimisen algoritmilla, ja niiden tuottamat tarkkuusarvot olivat kaikki kahden prosenttiyksikön sisällä toisistaan. Tarkin algoritmi oli XGboost, joka saavutti testiaineistolla ROC-AUC-arvon 0,8998 sekä F1-scoren 0,8218. Kummatkin arvot osoittavat, että mallin suorituskyky on hyvä ei-sopimuspohjaisessa asiakaspoistuman tutkimisessa.
Mallin tuottama poistumariskiprosentti näkyy suoraan yrityksen CRM-järjestelmässä, ja mikäli prosentti ylittää ennalta määrätyn kynnysarvon, myyjälle lähtee ilmoitus asiakkaan poistumariskistä. Tämän jälkeen myyjä soittaa asiakkaalle ja yrittää selvittää, onko riski todellinen. Ensisijaisena tarkoituksena on tavoittaa asiakas ennen kuin ostot loppuvat kokonaan. Ensimmäiseen koneoppimisen mallin kehitysversioon ei vielä saatu kaikkia toivottuja muuttujia mukaan. Jatkokehityksenä malliin olisi hyvä saada lisättyä muuttujiksi vastuumyyjän vaihtuminen, aika myyjän viimeisestä yhteydenotosta sekä asiakkaan tuoteryhmäkohtaiset ostokäyttäytymismuutokset. Nämä muuttujat lisäämällä voitaisiin parantaa mallin tarkkuutta ja ennustuskykyä. Laajemmin tarkastellen kohdeyrityksen kannattaa myös tarkastella asiakaskannattavuutta, jotta kannattamattomia asiakkaita ei yritetä houkutella takaisin. Lisäksi yrityksen kannattaa pyrkiä hyödyntämään keräämäänsä dataa esimerkiksi asiakohtaisten kampanjoiden suunnitteluun sekä asiakkaan elinkaaren arvon määrittelyyn. Tekoälyä hyödyntämällä kohdeyrityksen on mahdollista tehostaa asiakassuhteiden hoitoa ja saavuttaa kannattavampi asiakaspohja.
Työssä keskitytään koneoppimisen mallin muuttujien määrittelyyn sekä mallin toimivuuden validointiin. Yleisimmät muuttujat asiakaspoistuman tutkimisessa ovat niin sanotut RFM-muuttujat, jotka määrittelevät aikaa viimeisestä ostoksesta (recency), ostostiheyttä (frequency) sekä rahallista arvoa (monetary). Aluksi määritettiin tilastollinen asiakaspoistuma. Kohdeyrityksen myyntihistoriadataa tutkimalla määriteltiin varmasti poistuneet asiakkaat. Tilastollisen asiakaspoistuman määrittelyyn käytettävien muuttujien parametrejä säätämällä malli oppi tunnistamaan poistuneet asiakkaat riittävän hyvin, jotta mallia voidaan käyttää varsinaisten poistumaennusteiden tekemiseen. Tilastollisen asiakaspoistuman määrittelyyn muuttujina käytettiin ostostiheyttä sekä painotettua ostostiheyden ja viimeisestä ostoksesta kuluneen ajan avulla laskettua pistelukua (RF- score).
Varsinaisessa ennustemallissa aineisto jaettiin opetus-, validointi- ja testiaineistoon, jotka ovat kaikki eri ajanjaksoilta. Malli koulutettiin opetusaineiston avulla, tulokset vahvistettiin validointiaineiston avulla ja ennuste tehtiin testiaineistolla. Testiaineisto on aina uutta, mallille entuudestaan tuntematonta dataa. Mallia testattiin kolmella eri koneoppimisen algoritmilla, ja niiden tuottamat tarkkuusarvot olivat kaikki kahden prosenttiyksikön sisällä toisistaan. Tarkin algoritmi oli XGboost, joka saavutti testiaineistolla ROC-AUC-arvon 0,8998 sekä F1-scoren 0,8218. Kummatkin arvot osoittavat, että mallin suorituskyky on hyvä ei-sopimuspohjaisessa asiakaspoistuman tutkimisessa.
Mallin tuottama poistumariskiprosentti näkyy suoraan yrityksen CRM-järjestelmässä, ja mikäli prosentti ylittää ennalta määrätyn kynnysarvon, myyjälle lähtee ilmoitus asiakkaan poistumariskistä. Tämän jälkeen myyjä soittaa asiakkaalle ja yrittää selvittää, onko riski todellinen. Ensisijaisena tarkoituksena on tavoittaa asiakas ennen kuin ostot loppuvat kokonaan. Ensimmäiseen koneoppimisen mallin kehitysversioon ei vielä saatu kaikkia toivottuja muuttujia mukaan. Jatkokehityksenä malliin olisi hyvä saada lisättyä muuttujiksi vastuumyyjän vaihtuminen, aika myyjän viimeisestä yhteydenotosta sekä asiakkaan tuoteryhmäkohtaiset ostokäyttäytymismuutokset. Nämä muuttujat lisäämällä voitaisiin parantaa mallin tarkkuutta ja ennustuskykyä. Laajemmin tarkastellen kohdeyrityksen kannattaa myös tarkastella asiakaskannattavuutta, jotta kannattamattomia asiakkaita ei yritetä houkutella takaisin. Lisäksi yrityksen kannattaa pyrkiä hyödyntämään keräämäänsä dataa esimerkiksi asiakohtaisten kampanjoiden suunnitteluun sekä asiakkaan elinkaaren arvon määrittelyyn. Tekoälyä hyödyntämällä kohdeyrityksen on mahdollista tehostaa asiakassuhteiden hoitoa ja saavuttaa kannattavampi asiakaspohja.