Ennustetarkkuuden mittaaminen lineaariselle regressiomallille
Latvala, Matleena (2023)
Latvala, Matleena
2023
Matematiikan ja tilastotieteen kandidaattiohjelma - Bachelor's Programme in Mathematics and Statistics
Informaatioteknologian ja viestinnän tiedekunta - Faculty of Information Technology and Communication Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2023-05-16
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:tuni-202304254442
https://urn.fi/URN:NBN:fi:tuni-202304254442
Tiivistelmä
Tämän tutkielman tarkoituksena on esitellä, miten lineaarisen regressiomallin ennustetarkkuutta voidaan mitata. Tutkielmassa esitellään ensin regressioanalyysin perusteet, kuten yhden ja usean selittäjän lineaariset regressiomallit, jäännöstermit sekä luottamus- ja ennustevälit. Lisäksi esitellään, miten muodostaa mahdollisimman tarkka malli hyvän ennustetarkkuuden kannalta. Koska ennustetarkkuuden mittaaminen perustuu mallin sopivuuteen, esitellään myös kaksi tapaa millä tutkia mallin sopivuutta aineistoon.
Seuraavaksi tutkielmassa käsitellään lineaarisella regressiomallilla ennustamista sekä ennustetarkkuuden mittaamista. Jotta lineaarisen regressiomallin ennustetarkkuuden mittaaminen olisi mahdollisimman todenmukaista, tulee käytettävä aineisto jakaa kahteen osaan. Toisella osalla estimoidaan malli ja toisella testataan mallin ennustetarkkuutta. Ennustetarkkuuden mittareita on useita. Ne perustuvat ennustettujen sekä todellisten arvojen välisiin erotuksiin. Ennustetarkkuuden mittareita käytetään yleensä yhdessä, sillä yksinään mikään mittari ei kuvaa täysin ennustetarkkuutta. Yleisimmät ennustetarkkuuden mitat ovat keskimääräinen absoluuttinen virhe MAE sekä keskimääräinen neliövirhe MSE. Tutkielmassa esitellään lisäksi myös prosenttivirheet.
Viimeisenä tutkielmassa käytetään aiemmin esiteltyjä menetelmiä eturauhastutkimusaineistoon. Aineisto sisältää eturauhassyöpäpotilailta kerättyjä tietoja, kuten esimerkiksi potilaan pituus, paino, ikä sekä eturauhasen koko. Lisäksi aineistossa on paljon erilaisia veriarvoja. Kohdemuuttuja, jota tässä tutkimuksessa pyritään ennustamaan, on potilaan PSA-arvo, joka kuvaa eturauhassyövän mahdollisuutta. Aineisto jaetaan kahteen osaan. Toisella osalla muodostetaan viisi lineaarista regressiomallia, joissa käytetään selittävinä muuttujina kolmea tilastollisesti merkitsevää muuttujaa. Nämä muuttujat ovat potilaan BMI-arvo, eturauhasen pituus sekä alkalinen fosfataasi. Toisella osalla testataan mallien ennustetarkkuutta käyttämällä aiemmin esiteltyjä ennustetarkkuuden mittareita. Tuloksista huomataan, että millään mallilla ei ole erityisen hyvä ennustetarkkuus, eli PSA-arvoa ei pysty hyvin ennustamaan aineiston muuttujien avulla. Tuloksista saadaan myös selville, että muodostetuista viidestä mallista kaikista yksinkertaisimmilla malleilla on paras ennustetarkkuus.
Seuraavaksi tutkielmassa käsitellään lineaarisella regressiomallilla ennustamista sekä ennustetarkkuuden mittaamista. Jotta lineaarisen regressiomallin ennustetarkkuuden mittaaminen olisi mahdollisimman todenmukaista, tulee käytettävä aineisto jakaa kahteen osaan. Toisella osalla estimoidaan malli ja toisella testataan mallin ennustetarkkuutta. Ennustetarkkuuden mittareita on useita. Ne perustuvat ennustettujen sekä todellisten arvojen välisiin erotuksiin. Ennustetarkkuuden mittareita käytetään yleensä yhdessä, sillä yksinään mikään mittari ei kuvaa täysin ennustetarkkuutta. Yleisimmät ennustetarkkuuden mitat ovat keskimääräinen absoluuttinen virhe MAE sekä keskimääräinen neliövirhe MSE. Tutkielmassa esitellään lisäksi myös prosenttivirheet.
Viimeisenä tutkielmassa käytetään aiemmin esiteltyjä menetelmiä eturauhastutkimusaineistoon. Aineisto sisältää eturauhassyöpäpotilailta kerättyjä tietoja, kuten esimerkiksi potilaan pituus, paino, ikä sekä eturauhasen koko. Lisäksi aineistossa on paljon erilaisia veriarvoja. Kohdemuuttuja, jota tässä tutkimuksessa pyritään ennustamaan, on potilaan PSA-arvo, joka kuvaa eturauhassyövän mahdollisuutta. Aineisto jaetaan kahteen osaan. Toisella osalla muodostetaan viisi lineaarista regressiomallia, joissa käytetään selittävinä muuttujina kolmea tilastollisesti merkitsevää muuttujaa. Nämä muuttujat ovat potilaan BMI-arvo, eturauhasen pituus sekä alkalinen fosfataasi. Toisella osalla testataan mallien ennustetarkkuutta käyttämällä aiemmin esiteltyjä ennustetarkkuuden mittareita. Tuloksista huomataan, että millään mallilla ei ole erityisen hyvä ennustetarkkuus, eli PSA-arvoa ei pysty hyvin ennustamaan aineiston muuttujien avulla. Tuloksista saadaan myös selville, että muodostetuista viidestä mallista kaikista yksinkertaisimmilla malleilla on paras ennustetarkkuus.
Kokoelmat
- Kandidaatintutkielmat [8800]