Katoanalyysi nuorten terveystutkimuksessa
Korhonen, Mikko (2017)
Korhonen, Mikko
2017
Matematiikan ja tilastotieteen tutkinto-ohjelma - Degree Programme in Mathematics and Statistics
Luonnontieteiden tiedekunta - Faculty of Natural Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2017-06-16
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:uta-201706292165
https://urn.fi/URN:NBN:fi:uta-201706292165
Tiivistelmä
Tutkielmassa tarkastellaan puuttuvaa tietoa Pirkanmaan sairaanhoitopiirin tutkimuksessa, joka käsittelee nuorten mielenterveyteen liittyviä ominaisuuksia. Analysoitavana aineistona on Pirkanmaan sairaanhoitopiirin teettämät kyselyt tamperelaisille ja vantaalaisille nuorille vuosina 2002, 2004 ja 2010. Tutkimus on kolmiosainen, ja siihen vastaaminen on vapaaehtoista. Kyselyn vastausprosentti oli 2004 63,1 % ja 2010 39,2 %. Tutkielmassa tavoitteena on löytää millaiset ominaisuudet riippuvat siitä, jättivätkö haastateltavat myöhemmin vastaamatta yhteen tai useampaan kyselyyn. Tällöin käytetään analyysissä haastateltavan aiempia vastauksia. Vastaajat jakautuvat kolmeen ryhmään sen mukaan, jättivätkö he vastaamatta yhteen tai useampaan kyselyyn.
Aineiston analysointi aloitettiin tarkastelemalla kaikkia kolmea vastaajaryhmää yhtäaikaisesti. Tällöin käytettiin ainoastaan ensimmäisen kyselyn vastauksia, kun tutkittiin erosavatko ryhmien vastaukset toisistaan. Kruskal-Wallisin testillä havaittiin useiden muuttujien jakaumien eroavan ryhmien välillä tilastollisesti merkittävän paljon. Merkitseviin muuttujiin kuuluivat muun muassa päihteiden käyttöä kuvaavat muuttujat humalahakuinen juominen ja hasiksen käyttö, sekä nuoren terveyden tilaa kuvaavat rikekäyttäytyminen ja sosiaalinen tuki. Testaamisen lisäksi tarkasteltiin tilastollisia tunnuslukuja, joiden perusteella vaikutti, että useissa ryhmien välillä eroavissa muuttujissa oli trendiä, kun ohitettujen kyselyiden määrä kasvoi.
Analysoinnin toisessa osassa tutkittiin vastaajaryhmän riippuvuutta haastateltavien vastausten kanssa, kun vertailtiin lopettaneiden vastaajaryhmiä erikseen kaikkiin vastanneiden ryhmän kanssa. Tässä käytettiin etenevää valintaa lineaariselle ja neliölliselle luokitteluanalyysille sekä ristiinvalidointia. Tulosten tarkastelussa hyödynnettiin merkkitestiä, jolla selvitettiin, voitiinko aineiston muuttujia pitää tilastollisesti merkitsevästi parempina kuin generoitua satunnaismuuttujaa. Tällöin tutkittiin, sijoittuiko muuttuja generoitua muuttujaa paremmin etenevissä valinnoissa. Lisäksi tarkasteltiin, miten hyvin malleilla voitiin ennustaa haastateltavan vastaajaryhmä.
Tarkasteltaessa ensimmäisen vaiheen jälkeen lopettaneita kaikkiin vastanneiden kanssa havaittiin useiden muuttujien olevan satunnaisuutta parempia. Vähintään toisessa luokitteluanalyysissä tärkeitä muuttujia olivat muun muassa humalahakuinen juominen, huumausaineiden käyttö viimeisen kuukauden aikana ja sosiaalinen tuki. Lisäksi mallien ennustustarkkuutta tarkastellessa ryhmiteltiin mallit sen mukaan, montako selittäjää niissä oli. Tällöin havaittiin mallien ennustavan satunnaisuutta paremmin kaikilla muuttujien lukumäärillä, kun tutkittiin ryhmien keskimääräisiä prosentteja. Lineaarisen ja neliöllisen luokitteluanalyysin mallien välillä ei pääasiassa ollut tilastollisesti merkitseviä eroja, vaikka lineaarinen luokitteluanalyysi antoikin otoksessa hieman korkeamman prosentin.
Tutkittaessa toisessa vaiheessa lopettaneita kaikkiin vastanneiden kanssa havaittiin jossain määrin vastaavia riippuvuuksia kuin edellisessä analyysissä. Merkittäviä muuttujia olivat muun muassa humalahakuinen juominen, aggressiivinen käytös, huumausaineiden käyttö viimeisen kuukauden aikana ja toimettomuus. Ensimmäinen muuttuja oli merkittävä sekä ensimmäisessä että toisessa kyse- lyssä, ja muut mainitut olivat toisesta kyselystä. Tässäkin tarkastelussa mallit antoivat keskimäärin satunnaisuutta parempia ennusteita. Lineaarisen ja neliöllisen luokitinten ennustustarkkuudet eivät eronneet tilastollisesti merkitsevästi toisistaan.
Analyysin lopulla tarkasteltiin haastateltavien vastausten vaihtelua pääkomponenttianalyysillä ja Sammon kartalla. Tällöin tutkittiin ensin ensimmäisen kyselyn vastauksia ja sitten toisen. Kummassakaan tarkastelussa ei havaittu vastaajaryhmien välillä selvää erottuvuutta. Sen sijaan humalahakuinen juominen jakautui molempien kyselyiden kaksiulotteisessa Sammon kartassa kahdeksi ryhmäksi.
Aineiston analysointi aloitettiin tarkastelemalla kaikkia kolmea vastaajaryhmää yhtäaikaisesti. Tällöin käytettiin ainoastaan ensimmäisen kyselyn vastauksia, kun tutkittiin erosavatko ryhmien vastaukset toisistaan. Kruskal-Wallisin testillä havaittiin useiden muuttujien jakaumien eroavan ryhmien välillä tilastollisesti merkittävän paljon. Merkitseviin muuttujiin kuuluivat muun muassa päihteiden käyttöä kuvaavat muuttujat humalahakuinen juominen ja hasiksen käyttö, sekä nuoren terveyden tilaa kuvaavat rikekäyttäytyminen ja sosiaalinen tuki. Testaamisen lisäksi tarkasteltiin tilastollisia tunnuslukuja, joiden perusteella vaikutti, että useissa ryhmien välillä eroavissa muuttujissa oli trendiä, kun ohitettujen kyselyiden määrä kasvoi.
Analysoinnin toisessa osassa tutkittiin vastaajaryhmän riippuvuutta haastateltavien vastausten kanssa, kun vertailtiin lopettaneiden vastaajaryhmiä erikseen kaikkiin vastanneiden ryhmän kanssa. Tässä käytettiin etenevää valintaa lineaariselle ja neliölliselle luokitteluanalyysille sekä ristiinvalidointia. Tulosten tarkastelussa hyödynnettiin merkkitestiä, jolla selvitettiin, voitiinko aineiston muuttujia pitää tilastollisesti merkitsevästi parempina kuin generoitua satunnaismuuttujaa. Tällöin tutkittiin, sijoittuiko muuttuja generoitua muuttujaa paremmin etenevissä valinnoissa. Lisäksi tarkasteltiin, miten hyvin malleilla voitiin ennustaa haastateltavan vastaajaryhmä.
Tarkasteltaessa ensimmäisen vaiheen jälkeen lopettaneita kaikkiin vastanneiden kanssa havaittiin useiden muuttujien olevan satunnaisuutta parempia. Vähintään toisessa luokitteluanalyysissä tärkeitä muuttujia olivat muun muassa humalahakuinen juominen, huumausaineiden käyttö viimeisen kuukauden aikana ja sosiaalinen tuki. Lisäksi mallien ennustustarkkuutta tarkastellessa ryhmiteltiin mallit sen mukaan, montako selittäjää niissä oli. Tällöin havaittiin mallien ennustavan satunnaisuutta paremmin kaikilla muuttujien lukumäärillä, kun tutkittiin ryhmien keskimääräisiä prosentteja. Lineaarisen ja neliöllisen luokitteluanalyysin mallien välillä ei pääasiassa ollut tilastollisesti merkitseviä eroja, vaikka lineaarinen luokitteluanalyysi antoikin otoksessa hieman korkeamman prosentin.
Tutkittaessa toisessa vaiheessa lopettaneita kaikkiin vastanneiden kanssa havaittiin jossain määrin vastaavia riippuvuuksia kuin edellisessä analyysissä. Merkittäviä muuttujia olivat muun muassa humalahakuinen juominen, aggressiivinen käytös, huumausaineiden käyttö viimeisen kuukauden aikana ja toimettomuus. Ensimmäinen muuttuja oli merkittävä sekä ensimmäisessä että toisessa kyse- lyssä, ja muut mainitut olivat toisesta kyselystä. Tässäkin tarkastelussa mallit antoivat keskimäärin satunnaisuutta parempia ennusteita. Lineaarisen ja neliöllisen luokitinten ennustustarkkuudet eivät eronneet tilastollisesti merkitsevästi toisistaan.
Analyysin lopulla tarkasteltiin haastateltavien vastausten vaihtelua pääkomponenttianalyysillä ja Sammon kartalla. Tällöin tutkittiin ensin ensimmäisen kyselyn vastauksia ja sitten toisen. Kummassakaan tarkastelussa ei havaittu vastaajaryhmien välillä selvää erottuvuutta. Sen sijaan humalahakuinen juominen jakautui molempien kyselyiden kaksiulotteisessa Sammon kartassa kahdeksi ryhmäksi.