Koneoppimisen tulevaisuus vakuutusyhtiöiden työvälineenä
Rantakangas, Aliina (2021)
Rantakangas, Aliina
2021
Master's Programme in Computational Big Data Analytics
Informaatioteknologian ja viestinnän tiedekunta - Faculty of Information Technology and Communication Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2021-12-01
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:tuni-202112018834
https://urn.fi/URN:NBN:fi:tuni-202112018834
Tiivistelmä
Vahinkovakuuttamisen perusperiaate on kattaa vakuutusmaksutuotoilla liiketoiminnan harjoittamisesta muodostuneiden kulujen lisäksi asiakkaille sattuvista vahinkotapahtumista koituneet kustannukset. Saavuttaakseen vakuutusten optimaalisen hinnoittelun, on yhtiöiden mallinnettava odotettavissa olevien korvauskustannusten suuruutta, ja korvausten syntyyn vaikuttavia tekijöitä. Tässä tutkielmassa selvitetään, tuovatko alati kehittyvät koneoppimismallit etuja asiakkaan keskivahingon ennustamiseen peilaten niitä perinteisiin yleistettyihin lineaarisiin malleihin, pohtien samalla menetelmien liiketoiminnallista kyvykkyyttä.
Käytetyt menetelmät korvausmenon ennustamiseen ovat yleistetyt lineaariset mallit sekä koneoppimismenetelmistä neuroverkot, tarkemmin monikerroksinen perseptroni, sekä gradienttitehostamisen sovellutus XGBoost. Tutkielmassa käytettävä data koostuu erään vakuutusyhtiön henkilöasiakkaiden henkilö- ja pakettiautojen liikenteen omaisuuskorvauksista vuosilta 2018-2020.
Mallien testausta varten aineisto jaetaan opetus- ja testiaineistoon suhteella 70%-30%, jonka lisäksi käytetään 10-kertaista ristiinvalidointia mallien tarkkuuden arvioinnissa. Menetelmien välinen numeerinen vertailu tehdään käyttämällä muun muassa mallien keskineliövirheitä, keskivirheen itseisarvoa sekä määrityskertoimia.
Tutkimustulokset osoittavat, että vertailuun valittujen mittareiden perusteella XGBoost suoriutui tehokkaimmin, saaden R^2-mittarin arvoksi 0,92. Kokonaisuudessaan luotujen mallien tarkkuus, etenkin lineaaristen mallien osalta jää melko heikoksi, mutta tutkimusongelman kannalta on olennaisempaa luoda luotettava keino vertailla menetelmiä yksittäisten mallien tulosten optimoinnin sijaan.
Saatujen tulosten perusteella voidaan päätellä, että koneoppimismenetelmät hallitsevat hyvin vakuutusalan suurten aineistojen kokonaisuuksien analysoinnin ja muuttujien luotettavan ennustamisen. Toisaalta, tulevaisuudessa on kiinnitettävä huomiota menetelmien läpinäkyvyyteen ja alalle kohdistuvaan sääntelyyn niin asiakastietojen käsittelyn kuin menetelmien käytön osalta.
Käytetyt menetelmät korvausmenon ennustamiseen ovat yleistetyt lineaariset mallit sekä koneoppimismenetelmistä neuroverkot, tarkemmin monikerroksinen perseptroni, sekä gradienttitehostamisen sovellutus XGBoost. Tutkielmassa käytettävä data koostuu erään vakuutusyhtiön henkilöasiakkaiden henkilö- ja pakettiautojen liikenteen omaisuuskorvauksista vuosilta 2018-2020.
Mallien testausta varten aineisto jaetaan opetus- ja testiaineistoon suhteella 70%-30%, jonka lisäksi käytetään 10-kertaista ristiinvalidointia mallien tarkkuuden arvioinnissa. Menetelmien välinen numeerinen vertailu tehdään käyttämällä muun muassa mallien keskineliövirheitä, keskivirheen itseisarvoa sekä määrityskertoimia.
Tutkimustulokset osoittavat, että vertailuun valittujen mittareiden perusteella XGBoost suoriutui tehokkaimmin, saaden R^2-mittarin arvoksi 0,92. Kokonaisuudessaan luotujen mallien tarkkuus, etenkin lineaaristen mallien osalta jää melko heikoksi, mutta tutkimusongelman kannalta on olennaisempaa luoda luotettava keino vertailla menetelmiä yksittäisten mallien tulosten optimoinnin sijaan.
Saatujen tulosten perusteella voidaan päätellä, että koneoppimismenetelmät hallitsevat hyvin vakuutusalan suurten aineistojen kokonaisuuksien analysoinnin ja muuttujien luotettavan ennustamisen. Toisaalta, tulevaisuudessa on kiinnitettävä huomiota menetelmien läpinäkyvyyteen ja alalle kohdistuvaan sääntelyyn niin asiakastietojen käsittelyn kuin menetelmien käytön osalta.