Hyppää sisältöön
    • Suomeksi
    • In English
Trepo
  • Suomeksi
  • In English
  • Kirjaudu
Näytä viite 
  •   Etusivu
  • Trepo
  • Kandidaatintutkielmat
  • Näytä viite
  •   Etusivu
  • Trepo
  • Kandidaatintutkielmat
  • Näytä viite
JavaScript is disabled for your browser. Some features of this site may not work without it.

Lasso-estimointi logistisessa regressiossa rintasyöpäaineiston analyysissä

Leinonen, Siiri (2025)

 
Avaa tiedosto
LeinonenSiiri.pdf (335.4Kt)
Lataukset: 



Leinonen, Siiri
2025

Matematiikan ja tilastollisen data-analyysin kandidaattiohjelma - Bachelor's Programme in Mathematics and Statistical Data Analysis
Informaatioteknologian ja viestinnän tiedekunta - Faculty of Information Technology and Communication Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2025-12-16
Näytä kaikki kuvailutiedot
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:tuni-2025121611755
Tiivistelmä
Logistinen regressio on dikotomisen vasteen analysoinnissa käytettävä tilastollinen menetelmä, jonka avulla mallinnetaan todennäköisyyttä, että vaste kuuluu tiettyyn luokkaan. Selitettävä muuttuja usein muokataan saamaan arvoja 0 ja 1. Logistisessa regressiomallissa selittävien muuttujien kertoimet, eli regressiokertoimet, kuvaavat logistista vedonlyöntisuhdetta (log odds ratio).

Lasso (least absolute shrinkage and selection operator) on tilastollinen menetelmä, jota hyödynnetään etenkin mallinvalinnassa. Lasso-estimointi lisää tavalliseen logistiseen regressioon sakkotermin, jonka avulla se asettaa osan regressiokertoimista nollaksi. Sakkoparametrin arvoa muokkaamalla voidaan valita, kuinka paljon muuttujia jää lopulliseen malliin.

Tutkielman tarkoituksena on hyödyntää lasso-estimointia logistisessa regressiomallissa ja verrata sen tuloksia askeltavan menetelmän avulla saatuihin tuloksiin. Lasso-estimoinnissa käytetään apuna myös ristiinvalidointia (cross-validation), jonka avulla voidaan löytää sakkoparametrille optimaalinen arvo. Tutkielmassa tarkastellaan myös lasso-estimoinnin avulla saatujen mallien vedonlyöntisuhteita. Logistisessa mallissa vedonlyöntisuhde kertoo, kuinka paljon vedonlyöntikerroin (odds) muuttuu, kun selittävä muuttuja kasvaa yhden yksikön verran. Tutkimusaineistona käytetään Gravier et al. 2010 -tutkimukseen liittyvää rintasyöpädataa.

Aineiston suuren koon vuoksi havaitaan, että askeltava menetelmä ei sovellu mallinvalintaan yhtä hyvin kuin lasso-estimointi. Yhteisiä muuttujia menetelmien avulla saaduilla malleilla on yhteensä viisi kappaletta, joista yksi muuttuja esiintyy jokaisessa mallissa. AIC- ja BIC-arvojen vertailussa parhaaksi malliksi saatiin lasso-estimoinnin avulla saatu malli. Vedonlyöntisuhteiden kohdalla arvot menevät erittäin suuriksi tai pieniksi ilman lasso-estimoinnin lisäämää sakotusta.
Kokoelmat
  • Kandidaatintutkielmat [10837]
Kalevantie 5
PL 617
33014 Tampereen yliopisto
oa[@]tuni.fi | Tietosuoja | Saavutettavuusseloste
 

 

Selaa kokoelmaa

TekijätNimekkeetTiedekunta (2019 -)Tiedekunta (- 2018)Tutkinto-ohjelmat ja opintosuunnatAvainsanatJulkaisuajatKokoelmat

Omat tiedot

Kirjaudu sisäänRekisteröidy
Kalevantie 5
PL 617
33014 Tampereen yliopisto
oa[@]tuni.fi | Tietosuoja | Saavutettavuusseloste