Mallinvalintamenetelmät lineaarisessa regressiossa
Heikkiniemi, Ronja (2024)
Heikkiniemi, Ronja
2024
Matematiikan ja tilastotieteen kandidaattiohjelma - Bachelor's Programme in Mathematics and Statistics
Informaatioteknologian ja viestinnän tiedekunta - Faculty of Information Technology and Communication Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2024-05-13
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:tuni-202404254628
https://urn.fi/URN:NBN:fi:tuni-202404254628
Tiivistelmä
Lineaarinen regressioanalyysi on perinteinen ja monikäyttöinen tilastollinen menetelmä, jonka avulla selvitetään vastemuuttujan ja selittävien muuttujien välistä suhdetta. Lineaarisen regressiomallin avulla voidaan myös ennustaa tulevia havaintoja tai samankaltaisten aineistojen tuloksia. Edellytyksenä on löytää lineaariseen regressiomalliin oikeat selittävät muuttujat, jotka selittävät vastemuuttujaa sekä tilastollisesti että tutkimuskysymyksen kannalta merkitsevästi. Tämän tutkielman tavoitteena on esitellä lineaarisen regressiomallin selittävien muuttujien valintaan liittyviä menetelmiä.
Keskeisenä haasteena mallin muodostuksessa on riittävän selitysasteen saavuttaminen lisäämättä tarpeettomasti mallin kompleksisuutta. Haasteen ratkaisemiseksi erilaiset mallinvalintamenetelmät tarjoavat erilaisia lähestymistapoja. Tässä kandidaatintutkielmassa käsitellään näistä mallinvalintamenetelmistä askeltava regressio sekä sääntelymenetelmät harjaregressio (engl. ridge regression) ja LASSO (engl. Least Absolute Shrinkage and Selection Operator). Lisäksi tarkastellaan informaatiokriteereitä, jotka ovat keskeinen työkalu mallin sopivuuden arvioinnissa.
Alkuun esitellään konteksti eli lineaarinen regressiomalli ja siihen liittyvät lähtöoletukset. Mallinvalintamenetelmien tarkastelu aloitetaan perehtymällä perinteisempiin menetelmiin askeltavan regression sekä informaatiokriteereiden kautta. Askeltavan regression alustuksena esitellään lyhyesti parhaan osajoukon valinnan teoriaa, joka tarjoaa intuitiivisen pohjan askeltavan regression algoritmeille. Askeltavaan regressioon liittyen esitellään etenevä valinta ja poistovalinta. Informaatiokriteereistä esitellään Akaiken informaatiokriteeri (AIC), bayesilainen informaatiokriteeri (BIC) ja sovitettu selitysaste (sovitettu R2).
Perinteisempiä menetelmiä syvemmin perehdytään tuoreempiin mallinvalintamenetelmiin, harjaregressioon ja LASSO:on, joita kutsutaan sääntelymenetelmiksi tai kutistusmenetelmiksi. Näitä menetelmiä tarkastellaan pääosin erikseen, mutta niiden ominaisuuksia havainnollistetaan myös vertailemalla menetelmiä keskenään.
Edellä mainittujen menetelmien teoreettisen tarkastelun tukena menetelmiä havainnollistetaan analysoimalla Tilastokeskuksen Paavo-postinumeroaluetilastoihin (2023) perustuvaa valmisaineistoa R-ohjelmiston avulla. Teorian ja käytännön analyysin perusteella esitetään lopuksi johtopäätöksiä selittävien muuttujien valinnan optimoinnista esiteltyihin menetelmiin pohjaten, ja käydään vielä läpi onnistuneen mallinvalinnan edellytyksiä.
Avainsanat: lineaarinen regressiomalli, askeltava regressio, informaatiokriteeri, harjaregressio, LASSO
Keskeisenä haasteena mallin muodostuksessa on riittävän selitysasteen saavuttaminen lisäämättä tarpeettomasti mallin kompleksisuutta. Haasteen ratkaisemiseksi erilaiset mallinvalintamenetelmät tarjoavat erilaisia lähestymistapoja. Tässä kandidaatintutkielmassa käsitellään näistä mallinvalintamenetelmistä askeltava regressio sekä sääntelymenetelmät harjaregressio (engl. ridge regression) ja LASSO (engl. Least Absolute Shrinkage and Selection Operator). Lisäksi tarkastellaan informaatiokriteereitä, jotka ovat keskeinen työkalu mallin sopivuuden arvioinnissa.
Alkuun esitellään konteksti eli lineaarinen regressiomalli ja siihen liittyvät lähtöoletukset. Mallinvalintamenetelmien tarkastelu aloitetaan perehtymällä perinteisempiin menetelmiin askeltavan regression sekä informaatiokriteereiden kautta. Askeltavan regression alustuksena esitellään lyhyesti parhaan osajoukon valinnan teoriaa, joka tarjoaa intuitiivisen pohjan askeltavan regression algoritmeille. Askeltavaan regressioon liittyen esitellään etenevä valinta ja poistovalinta. Informaatiokriteereistä esitellään Akaiken informaatiokriteeri (AIC), bayesilainen informaatiokriteeri (BIC) ja sovitettu selitysaste (sovitettu R2).
Perinteisempiä menetelmiä syvemmin perehdytään tuoreempiin mallinvalintamenetelmiin, harjaregressioon ja LASSO:on, joita kutsutaan sääntelymenetelmiksi tai kutistusmenetelmiksi. Näitä menetelmiä tarkastellaan pääosin erikseen, mutta niiden ominaisuuksia havainnollistetaan myös vertailemalla menetelmiä keskenään.
Edellä mainittujen menetelmien teoreettisen tarkastelun tukena menetelmiä havainnollistetaan analysoimalla Tilastokeskuksen Paavo-postinumeroaluetilastoihin (2023) perustuvaa valmisaineistoa R-ohjelmiston avulla. Teorian ja käytännön analyysin perusteella esitetään lopuksi johtopäätöksiä selittävien muuttujien valinnan optimoinnista esiteltyihin menetelmiin pohjaten, ja käydään vielä läpi onnistuneen mallinvalinnan edellytyksiä.
Avainsanat: lineaarinen regressiomalli, askeltava regressio, informaatiokriteeri, harjaregressio, LASSO
Kokoelmat
- Kandidaatintutkielmat [8996]