Bootstrap-menetelmän käyttö lineaarisessa regressiossa
Linjamäki, Markus (2021)
Linjamäki, Markus
2021
Matematiikan ja tilastotieteen kandidaattiohjelma - Bachelor's Programme in Mathematics and Statistics
Informaatioteknologian ja viestinnän tiedekunta - Faculty of Information Technology and Communication Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2021-05-18
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:tuni-202105034293
https://urn.fi/URN:NBN:fi:tuni-202105034293
Tiivistelmä
Tietokoneiden kehittyessä ja niiden laskentatehon kasvaessa erilaiset simulaatiomenetelmät ovat yleistyneet tilastotieteessä osana tilastollista päättelyä. Yksi näistä simulaatiomenetelmistä on nimeltään bootstrap, joka muodostaa palauttaen tehtyjä otoksia satunnaisotoksen estimoidusta kertymäfunktiosta. Bootstrap-menetelmän avulla voidaan muodostaa parametrin estimaatin bootstrap-jakauma, jonka avulla voidaan laskea esimerkiksi estimaatin harha tai varianssi. Tutkimuksessa esitellään aluksi bootstrap-menetelmän perusteita ja johdetaan muutama tärkeä tulos bootstrap-jakaumasta.
Regressioanalyysi tarkastelee vastemuuttujan ja selittävien muuttujien välistä suhdetta. Lineaarinen regressioanalyysi olettaa tämän suhteen olevan lineaarinen. Tässä tutkimuksessa esitellään yksinkertainen lineaarinen regressiomalli, joka soveltuu vastemuuttujan ja yhden selittävän muuttujan väliseen tarkasteluun. Mallin parametrien estimoimiseen esitellään pienimmän neliösumman menetelmä.
Tutkimuksessa esitellään aluksi kaksi eri tapaa bootstrap-menetelmän hyödyntämiseen lineaarisessa regressiossa. Menetelmät ovat bootstrap pareille ja bootstrap residuaaleille. Menetelmien välisessä vertailussa hyödynnetään aluksi havaintoaineistoa, joka todetaan soveltuvan erittäin hyvin lineaariseen regressioanalyysiin. Sen jälkeen tarkastelua jatketaan simuloidun havaintoaineiston avulla, jossa yksi regressiomalliin liittyvä oletus ei ole kunnossa. Oletus koskee regressiomallin virhetermien varianssia, ja tulosten tarkastelussa painottuukin estimaattien varianssien vertailu. Tutkimuksessa havaitaan, että bootstrap residuaaleille -menetelmä toimii toista menetelmää paremmin tilanteessa, jossa kaikki regressiomallille asetetut oletukset ovat kunnossa. Bootstrap pareille -menetelmän havaitaan taas toimivan toista menetelmää paremmin tilanteessa, jossa kaikki regressiomalliin liittyvät oletukset eivät ole kunnossa. Menetelmien tuottamat erot eri havaintoaineistoissa todetaan johtuvan niiden tavasta muodostaa vastemuuttujat ennen varsinaista bootstrap-jakauman muodostamista. Lopuksi tutkimuksessa esitellään wild-bootstrap -menetelmä ja havaitaan sen tuottavan parhaimman tuloksen aiemmin esitellyssä simuloidussa havaintoaineistossa.
Regressioanalyysi tarkastelee vastemuuttujan ja selittävien muuttujien välistä suhdetta. Lineaarinen regressioanalyysi olettaa tämän suhteen olevan lineaarinen. Tässä tutkimuksessa esitellään yksinkertainen lineaarinen regressiomalli, joka soveltuu vastemuuttujan ja yhden selittävän muuttujan väliseen tarkasteluun. Mallin parametrien estimoimiseen esitellään pienimmän neliösumman menetelmä.
Tutkimuksessa esitellään aluksi kaksi eri tapaa bootstrap-menetelmän hyödyntämiseen lineaarisessa regressiossa. Menetelmät ovat bootstrap pareille ja bootstrap residuaaleille. Menetelmien välisessä vertailussa hyödynnetään aluksi havaintoaineistoa, joka todetaan soveltuvan erittäin hyvin lineaariseen regressioanalyysiin. Sen jälkeen tarkastelua jatketaan simuloidun havaintoaineiston avulla, jossa yksi regressiomalliin liittyvä oletus ei ole kunnossa. Oletus koskee regressiomallin virhetermien varianssia, ja tulosten tarkastelussa painottuukin estimaattien varianssien vertailu. Tutkimuksessa havaitaan, että bootstrap residuaaleille -menetelmä toimii toista menetelmää paremmin tilanteessa, jossa kaikki regressiomallille asetetut oletukset ovat kunnossa. Bootstrap pareille -menetelmän havaitaan taas toimivan toista menetelmää paremmin tilanteessa, jossa kaikki regressiomalliin liittyvät oletukset eivät ole kunnossa. Menetelmien tuottamat erot eri havaintoaineistoissa todetaan johtuvan niiden tavasta muodostaa vastemuuttujat ennen varsinaista bootstrap-jakauman muodostamista. Lopuksi tutkimuksessa esitellään wild-bootstrap -menetelmä ja havaitaan sen tuottavan parhaimman tuloksen aiemmin esitellyssä simuloidussa havaintoaineistossa.
Kokoelmat
- Kandidaatintutkielmat [8800]