Rintasyöpäaineiston analysointi tukivektorikoneen ja logistisen regression avulla
Pirilä, Janette (2025)
Pirilä, Janette
2025
Matematiikan ja tilastollisen data-analyysin kandidaattiohjelma - Bachelor's Programme in Mathematics and Statistical Data Analysis
Informaatioteknologian ja viestinnän tiedekunta - Faculty of Information Technology and Communication Sciences
Hyväksymispäivämäärä
2025-06-13
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:tuni-202506107066
https://urn.fi/URN:NBN:fi:tuni-202506107066
Tiivistelmä
Tässä kandidaattitutkielmassa logistisen regression ja tukivektorikoneen avulla etsitään rintasyövän diagnoosin kannalta parasta mallia sekä luokitellaan rintasyövän laatua. Tarkoituksena on verrata näiden mallien antamia luokittelutuloksia. Aineistona käytetään UC Irvine koneoppimisen tietokannan aineistoa Breast Cancer Wisconsin (Diagnostics).
Aluksi esitellään logistisen regression perusteet sekä suurimman uskottavuuden menetelmä ja kertoimien estimointi, jonka jälkeen esitellään hypertaso, maksimaalisen marginaalin luokittelija sekä tukivektoriluokittelija. Näiden jälkeen esitellään aineisto sekä etsitään parhaat mallit molempien menetelmien avulla. Logistisessa regressiossa parhaan mallin valintaan käytetään poistovalintaa ja tukivektorikoneessa tukivektorikoneen rekursiivisista piirrepoistoa. Lopuksi luokitellaan syövän laatua parhaiden mallien avulla sekä vertaillaan tuloksia. Menetelmien antamat parhaat mallit ja niiden sisältämät muuttujat olivat hieman erilaiset, kun taas luokittelutulokset olivat kaikissa luokitteluissa lähes identtiset.
Aluksi esitellään logistisen regression perusteet sekä suurimman uskottavuuden menetelmä ja kertoimien estimointi, jonka jälkeen esitellään hypertaso, maksimaalisen marginaalin luokittelija sekä tukivektoriluokittelija. Näiden jälkeen esitellään aineisto sekä etsitään parhaat mallit molempien menetelmien avulla. Logistisessa regressiossa parhaan mallin valintaan käytetään poistovalintaa ja tukivektorikoneessa tukivektorikoneen rekursiivisista piirrepoistoa. Lopuksi luokitellaan syövän laatua parhaiden mallien avulla sekä vertaillaan tuloksia. Menetelmien antamat parhaat mallit ja niiden sisältämät muuttujat olivat hieman erilaiset, kun taas luokittelutulokset olivat kaikissa luokitteluissa lähes identtiset.
Kokoelmat
- Kandidaatintutkielmat [10016]