Neuroverkkojen ja logistisen regressiomallinnuksen vertailuja päihteiden käyttöaineistolla
Puttonen, Iina (2025)
Puttonen, Iina
2025
Matematiikan ja tilastollisen data-analyysin kandidaattiohjelma - Bachelor's Programme in Mathematics and Statistical Data Analysis
Informaatioteknologian ja viestinnän tiedekunta - Faculty of Information Technology and Communication Sciences
Hyväksymispäivämäärä
2025-10-20
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:tuni-202510189977
https://urn.fi/URN:NBN:fi:tuni-202510189977
Tiivistelmä
Tässä tutkielmassa vertaillaan logistista regressiomallia ja neuroverkkoja päihteiden käyttöaineistolla. Tutkimuksen tarkoituksena on selvittää, kumpi menetelmä soveltuu paremmin kannabiksen käytön luokitteluun, ja arvioida näiden menetelmien eroja luokittelutarkkuudessa ja tulkittavuudessa.
Aineistona käytettiin UCI Machine Learning Repository -sivuston Drug Consumption -aineistoa, joka sisältää 1885 havaintoa vastaajien taustatiedoista, persoonallisuuspiirteistä ja päihteiden käytöstä. Alkuperäinen seitsemänluokkainen käyttömuuttuja luokiteltiin uudelleen kaksiluokkaiseksi. Analyysissä muodostettiin ensin yksinkertainen malli, jossa selittävinä muuttujina olivat ikä, sukupuoli ja koulutus. Tämän jälkeen tarkasteltiin laajempaa mallia, johon sisällytettiin myös persoonallisuuspiirteet. Logistisen regressiomallin parametrit estimoitiin suurimman uskottavuuden menetelmällä. Neuroverkkona käytettiin feedforward-verkkoa, jota testattiin useilla hyperparametriyhdistelmillä. Mallien suorituskykyä arvioitiin herkkyyden, spesifisyyden, ROC-käyrän alle jäävän pinta-alan (AUC) sekä väärin luokiteltujen havaintojen määrän perusteella.
Tulosten perusteella logistinen regressio osoittautuu tässä aineistossa käyttökelpoisemmaksi menetelmäksi. Vaikka neuroverkko saavutti hieman korkeamman herkkyyden ja AUC-arvon laajemmassa mallissa, logistinen regressio erotteli ei-käyttäjät selvästi tarkemmin ja teki kokonaisuudessaan vähemmän virheitä luokittelussa. Mallien erot jäävät kokonaisuudessaan pieniksi, eikä neuroverkon monimutkaisuus tuota merkittävää etua. Tulkittavampi ja yksinkertaisempi logistinen regressio näyttäytyy siksi perustellumpana valintana tämän tyyppisen aineiston analyysissä.
Aineistona käytettiin UCI Machine Learning Repository -sivuston Drug Consumption -aineistoa, joka sisältää 1885 havaintoa vastaajien taustatiedoista, persoonallisuuspiirteistä ja päihteiden käytöstä. Alkuperäinen seitsemänluokkainen käyttömuuttuja luokiteltiin uudelleen kaksiluokkaiseksi. Analyysissä muodostettiin ensin yksinkertainen malli, jossa selittävinä muuttujina olivat ikä, sukupuoli ja koulutus. Tämän jälkeen tarkasteltiin laajempaa mallia, johon sisällytettiin myös persoonallisuuspiirteet. Logistisen regressiomallin parametrit estimoitiin suurimman uskottavuuden menetelmällä. Neuroverkkona käytettiin feedforward-verkkoa, jota testattiin useilla hyperparametriyhdistelmillä. Mallien suorituskykyä arvioitiin herkkyyden, spesifisyyden, ROC-käyrän alle jäävän pinta-alan (AUC) sekä väärin luokiteltujen havaintojen määrän perusteella.
Tulosten perusteella logistinen regressio osoittautuu tässä aineistossa käyttökelpoisemmaksi menetelmäksi. Vaikka neuroverkko saavutti hieman korkeamman herkkyyden ja AUC-arvon laajemmassa mallissa, logistinen regressio erotteli ei-käyttäjät selvästi tarkemmin ja teki kokonaisuudessaan vähemmän virheitä luokittelussa. Mallien erot jäävät kokonaisuudessaan pieniksi, eikä neuroverkon monimutkaisuus tuota merkittävää etua. Tulkittavampi ja yksinkertaisempi logistinen regressio näyttäytyy siksi perustellumpana valintana tämän tyyppisen aineiston analyysissä.
Kokoelmat
- Kandidaatintutkielmat [10747]
