Regressioanalyysin virhepäätelmät
Satalahti, Aino (2021)
Satalahti, Aino
2021
Matematiikan ja tilastotieteen kandidaattiohjelma - Bachelor's Programme in Mathematics and Statistics
Informaatioteknologian ja viestinnän tiedekunta - Faculty of Information Technology and Communication Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2021-05-18
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:tuni-202104263587
https://urn.fi/URN:NBN:fi:tuni-202104263587
Tiivistelmä
Regressioanalyysi on tilastollinen menetelmä, jolla voidaan tarkastella muuttujien välisiä syy- ja seuraussuhteita. Tässä tutkielmassa käsitellään lineaarisessa regressioanalyysissä mahdollisia virhepäätelmiä sekä niihin johtavia tekijöitä. Aiheita mallinnetaan kuvaajien sekä sanallisten esimerkkien avulla, jotka on muodostettu julkisista aineistoista sekä tutkielmaa varten luoduista kuvitteellisista aineistoista.
Tutkielman alussa määritellään regressioanalyysi käsitteenä, esitellään pienimmän neliösumman menetelmä, jolla regressiomalli estimoidaan, sekä esitellään regressioanalyysin vaiheet. Sen jälkeen esitellään yhdeksän oletusta, joiden tulee päteä, jotta virheellisiltä tutkimustuloksilta vältyttäisiin regressioanalyysissä. Virhepäätelmiin johtavien tekijöiden käsittely eli regressiodiagnostiikka on jaettu neljään aihepiiriin.
Ensimmäinen aihepiiri on jäännöksiin liittyvät rikkomukset. Niitä ovat asetetun normaalisuusoletuksen rikkoutuminen ja jäännösten odotusarvon virheellisyys. Myös aineiston heteroskedastisuus eli jäännösvarianssin eriävyys selittävän muuttujan luokkien välillä sekä autokorrelaatio eli jäännösten välinen systemaattisuus ovat jäännöksiin liittyvää regressiodiagnostiikkaa.
Toiseksi käsitellään mallin muuttujien oikeellisuutta. Regressiomallista ei saa löytyä multikollineaarisuutta eli muuttujien välistä korrelaatiota. Mallin muuttujien oletetaan myös olevan virheettömästi muodostettuja.
Kolmanneksi käsitellään regressiomallin oikeellisuuteen liittyviä oletuksia. Lineaarisuusoletuksen mukaan malli tulee voida esittää muodossa, joka mallintaa suoraviivaisia kausaalisuhteita muuttujien välillä. Puuttuvan muuttujan harha taas nimensä mukaisesti tarkoittaa mallista puuttuvan tarpeellisen muuttujan aiheuttamaa virheellistä tulosta. Lisäksi mallin käyttöön liittyy mallin tulkinnan vaiheessa ekologisen virhepäätelmän mahdollisuus, mikä tarkoittaa korrelaation virheellistä yleistämistä.
Viimeinen regressiodiagnostiikan aihepiiri on havaintojen rooli virhepäätelmien aiheuttajana. Havaintojen oletetaan olevan virheettömästi kerättyjä ja tallennettuja ja täten luotettavia. Lisäksi tutkielmassa käsitellään poikkeuksellisen suurten tai pienten havaintojen oikeaoppista tarkastelua, sekä niiden aiheuttaman vipuvaikutuksen huomioimista.
Tutkielman alussa määritellään regressioanalyysi käsitteenä, esitellään pienimmän neliösumman menetelmä, jolla regressiomalli estimoidaan, sekä esitellään regressioanalyysin vaiheet. Sen jälkeen esitellään yhdeksän oletusta, joiden tulee päteä, jotta virheellisiltä tutkimustuloksilta vältyttäisiin regressioanalyysissä. Virhepäätelmiin johtavien tekijöiden käsittely eli regressiodiagnostiikka on jaettu neljään aihepiiriin.
Ensimmäinen aihepiiri on jäännöksiin liittyvät rikkomukset. Niitä ovat asetetun normaalisuusoletuksen rikkoutuminen ja jäännösten odotusarvon virheellisyys. Myös aineiston heteroskedastisuus eli jäännösvarianssin eriävyys selittävän muuttujan luokkien välillä sekä autokorrelaatio eli jäännösten välinen systemaattisuus ovat jäännöksiin liittyvää regressiodiagnostiikkaa.
Toiseksi käsitellään mallin muuttujien oikeellisuutta. Regressiomallista ei saa löytyä multikollineaarisuutta eli muuttujien välistä korrelaatiota. Mallin muuttujien oletetaan myös olevan virheettömästi muodostettuja.
Kolmanneksi käsitellään regressiomallin oikeellisuuteen liittyviä oletuksia. Lineaarisuusoletuksen mukaan malli tulee voida esittää muodossa, joka mallintaa suoraviivaisia kausaalisuhteita muuttujien välillä. Puuttuvan muuttujan harha taas nimensä mukaisesti tarkoittaa mallista puuttuvan tarpeellisen muuttujan aiheuttamaa virheellistä tulosta. Lisäksi mallin käyttöön liittyy mallin tulkinnan vaiheessa ekologisen virhepäätelmän mahdollisuus, mikä tarkoittaa korrelaation virheellistä yleistämistä.
Viimeinen regressiodiagnostiikan aihepiiri on havaintojen rooli virhepäätelmien aiheuttajana. Havaintojen oletetaan olevan virheettömästi kerättyjä ja tallennettuja ja täten luotettavia. Lisäksi tutkielmassa käsitellään poikkeuksellisen suurten tai pienten havaintojen oikeaoppista tarkastelua, sekä niiden aiheuttaman vipuvaikutuksen huomioimista.
Kokoelmat
- Kandidaatintutkielmat [8354]