Lasso-estimointi logistisessa regressiossa rintasyöpäaineiston analyysissä
Leinonen, Siiri (2025)
Leinonen, Siiri
2025
Matematiikan ja tilastollisen data-analyysin kandidaattiohjelma - Bachelor's Programme in Mathematics and Statistical Data Analysis
Informaatioteknologian ja viestinnän tiedekunta - Faculty of Information Technology and Communication Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2025-12-16
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:tuni-2025121611755
https://urn.fi/URN:NBN:fi:tuni-2025121611755
Tiivistelmä
Logistinen regressio on dikotomisen vasteen analysoinnissa käytettävä tilastollinen menetelmä, jonka avulla mallinnetaan todennäköisyyttä, että vaste kuuluu tiettyyn luokkaan. Selitettävä muuttuja usein muokataan saamaan arvoja 0 ja 1. Logistisessa regressiomallissa selittävien muuttujien kertoimet, eli regressiokertoimet, kuvaavat logistista vedonlyöntisuhdetta (log odds ratio).
Lasso (least absolute shrinkage and selection operator) on tilastollinen menetelmä, jota hyödynnetään etenkin mallinvalinnassa. Lasso-estimointi lisää tavalliseen logistiseen regressioon sakkotermin, jonka avulla se asettaa osan regressiokertoimista nollaksi. Sakkoparametrin arvoa muokkaamalla voidaan valita, kuinka paljon muuttujia jää lopulliseen malliin.
Tutkielman tarkoituksena on hyödyntää lasso-estimointia logistisessa regressiomallissa ja verrata sen tuloksia askeltavan menetelmän avulla saatuihin tuloksiin. Lasso-estimoinnissa käytetään apuna myös ristiinvalidointia (cross-validation), jonka avulla voidaan löytää sakkoparametrille optimaalinen arvo. Tutkielmassa tarkastellaan myös lasso-estimoinnin avulla saatujen mallien vedonlyöntisuhteita. Logistisessa mallissa vedonlyöntisuhde kertoo, kuinka paljon vedonlyöntikerroin (odds) muuttuu, kun selittävä muuttuja kasvaa yhden yksikön verran. Tutkimusaineistona käytetään Gravier et al. 2010 -tutkimukseen liittyvää rintasyöpädataa.
Aineiston suuren koon vuoksi havaitaan, että askeltava menetelmä ei sovellu mallinvalintaan yhtä hyvin kuin lasso-estimointi. Yhteisiä muuttujia menetelmien avulla saaduilla malleilla on yhteensä viisi kappaletta, joista yksi muuttuja esiintyy jokaisessa mallissa. AIC- ja BIC-arvojen vertailussa parhaaksi malliksi saatiin lasso-estimoinnin avulla saatu malli. Vedonlyöntisuhteiden kohdalla arvot menevät erittäin suuriksi tai pieniksi ilman lasso-estimoinnin lisäämää sakotusta.
Lasso (least absolute shrinkage and selection operator) on tilastollinen menetelmä, jota hyödynnetään etenkin mallinvalinnassa. Lasso-estimointi lisää tavalliseen logistiseen regressioon sakkotermin, jonka avulla se asettaa osan regressiokertoimista nollaksi. Sakkoparametrin arvoa muokkaamalla voidaan valita, kuinka paljon muuttujia jää lopulliseen malliin.
Tutkielman tarkoituksena on hyödyntää lasso-estimointia logistisessa regressiomallissa ja verrata sen tuloksia askeltavan menetelmän avulla saatuihin tuloksiin. Lasso-estimoinnissa käytetään apuna myös ristiinvalidointia (cross-validation), jonka avulla voidaan löytää sakkoparametrille optimaalinen arvo. Tutkielmassa tarkastellaan myös lasso-estimoinnin avulla saatujen mallien vedonlyöntisuhteita. Logistisessa mallissa vedonlyöntisuhde kertoo, kuinka paljon vedonlyöntikerroin (odds) muuttuu, kun selittävä muuttuja kasvaa yhden yksikön verran. Tutkimusaineistona käytetään Gravier et al. 2010 -tutkimukseen liittyvää rintasyöpädataa.
Aineiston suuren koon vuoksi havaitaan, että askeltava menetelmä ei sovellu mallinvalintaan yhtä hyvin kuin lasso-estimointi. Yhteisiä muuttujia menetelmien avulla saaduilla malleilla on yhteensä viisi kappaletta, joista yksi muuttuja esiintyy jokaisessa mallissa. AIC- ja BIC-arvojen vertailussa parhaaksi malliksi saatiin lasso-estimoinnin avulla saatu malli. Vedonlyöntisuhteiden kohdalla arvot menevät erittäin suuriksi tai pieniksi ilman lasso-estimoinnin lisäämää sakotusta.
Kokoelmat
- Kandidaatintutkielmat [10837]
