Zero-inflated-mallit ratkaisuna vastemuuttujan nolla-arvojen yliedustukseen
Hakamäki, Taru (2020)
Hakamäki, Taru
2020
Matematiikan ja tilastotieteen kandidaattiohjelma - Bachelor's Degree Programme in Mathematics and Statistics
Informaatioteknologian ja viestinnän tiedekunta - Faculty of Information Technology and Communication Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2020-05-04
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:tuni-202004243711
https://urn.fi/URN:NBN:fi:tuni-202004243711
Tiivistelmä
Tämän tutkielman tarkoituksena on esitellä zero-inflated-Poissonin jakauma ja zero-inflated-negatiivinen binomijakauma. Näillä jakaumilla voidaan mallintaa lukumäärävasteisia aineistoja, joissa vastemuuttujassa on suuri määrä nolla-arvon saavia havaintoja. Vastemuuttujan nolla-arvojen yliedustuksen ymmärtäminen ehkäisee virheellisiä tulkintoja ja auttaa ymmärtämään havaintojen muodostumista.
Perinteisiä tapoja mallintaa lukumäärävasteita ovat Poissonin jakauma ja negatiivinen binomijakauma. Poissonin jakauma olettaa vastemuuttujan odotusarvon ja varianssin yhtä suuriksi. Jos tämä oletus ei toteudu, aineistossa sanotaan olevan ylihajontaa, ja negatiivinen binomijakauma on parempi valinta mallintamaan aineistoa. Zero-inflated-malleja voidaan soveltaa perinteisten menetelmien sijaan, kun vastemuuttuja sisältää ylihajonnan lisäksi runsaasti nolla-arvoja. Nämä mallit jakavat vastemuuttujan arvot kahteen kuvitteelliseen ryhmään. Toinen ryhmä muodostuu lukumääristä, jotka noudattavat Poissonin jakaumaa tai negatiivista binomijakaumaa. Tässä ryhmässä mahdollisia arvoja ovat kaikki luonnolliset luvut. Toinen ryhmä muodostuu ainoastaan rakenteellisista nolla-arvoista, jotka syntyvät usein aineistonkeruun puutteista. Tällaiset nollat eivät ole seurausta satunnaisvaihtelusta, vaan ne saavat aina arvon nolla. Rakenteellisten nollien todennäköisyyttä mallinnetaan logistisella regressiolla.
Edellä esiteltyjä jakaumia sovelletaan esimerkkitutkimuksessa työntekijöiden sairauspoissaolokertojen lukumääriä kuvaavaan aineistoon. Yleisen periaatteen mukaan parhaaksi malliksi valitaan mahdollisimman yksinkertainen malli, joka selittää vastemuuttujan arvoja riittävän hyvin. Tässä tutkimuksessa ei voida valita yksiselitteisesti yhtä parasta mallia kuvaamaan tutkittua aineistoa. Sovitetuista malleista zero-inflated-negatiivinen binomijakauma näyttää olevan paras, kun vertaillaan Akaiken informaatiokriteerejä. Ero ei kuitenkaan ole suuri verrattuna negatiiviseen binomijakaumaan, joka on yksinkertaisempi ja helpommin tulkittava.
Perinteisiä tapoja mallintaa lukumäärävasteita ovat Poissonin jakauma ja negatiivinen binomijakauma. Poissonin jakauma olettaa vastemuuttujan odotusarvon ja varianssin yhtä suuriksi. Jos tämä oletus ei toteudu, aineistossa sanotaan olevan ylihajontaa, ja negatiivinen binomijakauma on parempi valinta mallintamaan aineistoa. Zero-inflated-malleja voidaan soveltaa perinteisten menetelmien sijaan, kun vastemuuttuja sisältää ylihajonnan lisäksi runsaasti nolla-arvoja. Nämä mallit jakavat vastemuuttujan arvot kahteen kuvitteelliseen ryhmään. Toinen ryhmä muodostuu lukumääristä, jotka noudattavat Poissonin jakaumaa tai negatiivista binomijakaumaa. Tässä ryhmässä mahdollisia arvoja ovat kaikki luonnolliset luvut. Toinen ryhmä muodostuu ainoastaan rakenteellisista nolla-arvoista, jotka syntyvät usein aineistonkeruun puutteista. Tällaiset nollat eivät ole seurausta satunnaisvaihtelusta, vaan ne saavat aina arvon nolla. Rakenteellisten nollien todennäköisyyttä mallinnetaan logistisella regressiolla.
Edellä esiteltyjä jakaumia sovelletaan esimerkkitutkimuksessa työntekijöiden sairauspoissaolokertojen lukumääriä kuvaavaan aineistoon. Yleisen periaatteen mukaan parhaaksi malliksi valitaan mahdollisimman yksinkertainen malli, joka selittää vastemuuttujan arvoja riittävän hyvin. Tässä tutkimuksessa ei voida valita yksiselitteisesti yhtä parasta mallia kuvaamaan tutkittua aineistoa. Sovitetuista malleista zero-inflated-negatiivinen binomijakauma näyttää olevan paras, kun vertaillaan Akaiken informaatiokriteerejä. Ero ei kuitenkaan ole suuri verrattuna negatiiviseen binomijakaumaan, joka on yksinkertaisempi ja helpommin tulkittava.
Kokoelmat
- Kandidaatintutkielmat [8261]