Machine Learning methods to build prediction models for mental well-being indicators in healthcare workers
Mähönen, Helka (2024)
Mähönen, Helka
2024
Bioteknologian ja biolääketieteen tekniikan maisteriohjelma - Master's Programme in Biotechnology and Biomedical Engineering
Lääketieteen ja terveysteknologian tiedekunta - Faculty of Medicine and Health Technology
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2024-09-18
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:tuni-202409018475
https://urn.fi/URN:NBN:fi:tuni-202409018475
Tiivistelmä
The main objectives of the work are to build prediction models with machine learning methods to predict dropouts from online intervention and to cluster the dropouts to provide more information about them. The dropouts are predicted from a web-based Personal COVID intervention. The intervention consists of nine core modules and three complementary modules. Before starting the intervention, the participants answered different questionnaires. The participants were selected to the intervention based on their answers to specific questionnaires. The data used in this work consists of preintervention data and module data. The preintervention data refers to the data collected before starting the intervention (demographic data and answers to the questionnaires related to mental health, sleep and professional life quality), and the module data refers to the actions made by the participant during the intervention. Exploratory data analysis was performed to get a good overview of the data, but also to find meaningful information about the dropouts. The data set is small, it contains in total 64 participants, and there is a high imbalance between dropouts and non-dropouts. Exploratory data analysis also contained statistical analysis of the preintervention variables and principal component analysis.
The prediction models were built for modules 1-4 because they had most dropouts. Models were built by trying out different data set combinations and different machine learning algorithms (logistic regression, decision tree, gradient boosting, support vector machine and random forest). Due to a high number of different combinations, 180 models were trained with moderate results considering the small data size. Overfitting occured especially in the models of modules 2 and 4 where there were fewer dropouts, so threshold adjustment was applied to these models. Two of the best-performing models of each module were selected for hyperparameter optimization, but in general it didn't significantly affect their performance. Only one model's performance improved noticeably. The average balanced accuracy of the best-performing model in each module is 0.735 and the average sensitivity is 0.743. These results are reasonable considering the characteristics of the data. All four models use the preintervention data for prediction, indicating that it is enough for predicting dropouts.
Clustering was performed on modules 1 and 3 due to their higher dropout rates. The data were classified into dropouts and non-dropouts using the best-performing model of the module, and then both groups were clustered. Two different methods were tried, k-means and hierarchical clustering. Based on the statistical analysis, the clusters are different enough but k-means resulted in clusters with more internal statistical differences. For these clusters, profiling information was provided by calculating average and standard deviations for each variable. Diplomityön päätavoitteena on rakentaa koneoppimismenetelmillä ennustemalleja, jotka ennustavat keskeytyksiä verkossa toimivassa terapiassa sekä klusteroida keskeyttäneet osallistujat, jotta keskeytyksistä saataisiin enemmän tietoa. Mallit rakennettiin ennustamaan keskeytyksiä verkkopohjaisesta Personal COVID -terapiasta. Terapia sisältää yhdeksän ydinmoduulia sekä kolme täydentävää moduulia. Ennen terapian aloittamista henkilöt ovat vastanneet eri kyselyihin, joiden perusteella osallistujat ovat valittu terapiaan. Tässä työssä käytetty data koostuu terapiaa edeltävistä tiedoista sekä moduulidatasta. Terapiaa edeltävät tiedot sisältävät osallistujan demografiset tiedot sekä vastaukset kyselyihin, jotka liittyvät mielenterveydeen, uneen sekä työelämän laatuun. Moduulidata koostuu osallistujan liikkeistä verkkoalustalla terapian aikana. Tutkiva data-analyysi suoritettiin, jotta tietoaineistosta voitaisiin muodostaa hyvä yleiskuva sekä löytää keskeytyksiin liittyvää, merkityksellistä tietoa. Tietoaineisto on pieni, sillä se sisältää 64 osallistujaa. Keskeyttäneiden ja keskeyttämättä jättäneiden välillä datassa on korkea epätasapaino. Tutkiva data-analyysi sisälsi myös terapiaa edeltävien tietojen tilastollisen analyysin sekä pääkomponenttianalyysin.
Ennustemallit rakennettiin moduuleille 1-4, koska niissä tapahtui eniten keskeytyksiä. Mallit rakennettiin testaamalla eri datakombinaatioita sekä eri koneoppimisalgoritmeja (logistinen regressio, päätöspuu (decision tree), gradienttitehostus (gradient boosting), tukivektorikone (support vector machine) ja satunnaismetsä (random forest)). Lopputuloksena koulutettiin yhteensä 180 mallia kohtuullisin tuloksin, kun otetaan huomioon vähäinen datan määrä. Ylisovittumista esiintyi erityisesti moduulien 2 ja 4 malleissa. Niissä tapahtui vähemmän keskeytyksiä, joten päätöksen kynnyssäätöä (decision threshold adjustment) sovellettiin näiden moduulien malleihin. Kaksi parhaiten suoriutuvaa mallia kustakin moduulista valittiin hyperparametrien optimointiin. Optimointi ei yleisesti kasvattanut mallien suorituskykyä, paitsi yhden mallin kohdalla. Jokaisen moduulin parhaan mallin tasapainotetun tarkkuuden keskiarvo on 0,735 ja herkkyysarvojen keskiarvo on 0,743. Nämä ovat tyydyttäviä tuloksia dataan nähden. Parhaiten suoriutuvat mallit käyttävät terapiaa edeltävää dataa ennustamiseen, joka viittaa siihen, että terapiaa edeltävä data on riittävä ennustusten tekemiseen.
Klusterointi suoritettiin moduuleille 1 ja 3, sillä niissä tapahtui eniten keskeytyksiä. Data luokiteltiin keskeyttäneisiin sekä ei-keskeyttäneisiin moduulin parhaimmalla mallilla, ja molemmat ryhmät klusteroitiin. Kahta eri klusterointimenetelmää testattiin, k-keskiarvoja (k-means) sekä hierarkkista klusterointia. Tilastollisen analyysin mukaan klusterit erosivat tarpeeksi ja k-keskiarvot-algoritmi muodosti klustereita, joilla oli enemmän tilastollisia eroavaisuuksia sisäisesti. Näiden klustereiden jokaiselle muuttujalle laskettiin keskiarvo sekä keskihajonta profilointitietoja varten.
The prediction models were built for modules 1-4 because they had most dropouts. Models were built by trying out different data set combinations and different machine learning algorithms (logistic regression, decision tree, gradient boosting, support vector machine and random forest). Due to a high number of different combinations, 180 models were trained with moderate results considering the small data size. Overfitting occured especially in the models of modules 2 and 4 where there were fewer dropouts, so threshold adjustment was applied to these models. Two of the best-performing models of each module were selected for hyperparameter optimization, but in general it didn't significantly affect their performance. Only one model's performance improved noticeably. The average balanced accuracy of the best-performing model in each module is 0.735 and the average sensitivity is 0.743. These results are reasonable considering the characteristics of the data. All four models use the preintervention data for prediction, indicating that it is enough for predicting dropouts.
Clustering was performed on modules 1 and 3 due to their higher dropout rates. The data were classified into dropouts and non-dropouts using the best-performing model of the module, and then both groups were clustered. Two different methods were tried, k-means and hierarchical clustering. Based on the statistical analysis, the clusters are different enough but k-means resulted in clusters with more internal statistical differences. For these clusters, profiling information was provided by calculating average and standard deviations for each variable.
Ennustemallit rakennettiin moduuleille 1-4, koska niissä tapahtui eniten keskeytyksiä. Mallit rakennettiin testaamalla eri datakombinaatioita sekä eri koneoppimisalgoritmeja (logistinen regressio, päätöspuu (decision tree), gradienttitehostus (gradient boosting), tukivektorikone (support vector machine) ja satunnaismetsä (random forest)). Lopputuloksena koulutettiin yhteensä 180 mallia kohtuullisin tuloksin, kun otetaan huomioon vähäinen datan määrä. Ylisovittumista esiintyi erityisesti moduulien 2 ja 4 malleissa. Niissä tapahtui vähemmän keskeytyksiä, joten päätöksen kynnyssäätöä (decision threshold adjustment) sovellettiin näiden moduulien malleihin. Kaksi parhaiten suoriutuvaa mallia kustakin moduulista valittiin hyperparametrien optimointiin. Optimointi ei yleisesti kasvattanut mallien suorituskykyä, paitsi yhden mallin kohdalla. Jokaisen moduulin parhaan mallin tasapainotetun tarkkuuden keskiarvo on 0,735 ja herkkyysarvojen keskiarvo on 0,743. Nämä ovat tyydyttäviä tuloksia dataan nähden. Parhaiten suoriutuvat mallit käyttävät terapiaa edeltävää dataa ennustamiseen, joka viittaa siihen, että terapiaa edeltävä data on riittävä ennustusten tekemiseen.
Klusterointi suoritettiin moduuleille 1 ja 3, sillä niissä tapahtui eniten keskeytyksiä. Data luokiteltiin keskeyttäneisiin sekä ei-keskeyttäneisiin moduulin parhaimmalla mallilla, ja molemmat ryhmät klusteroitiin. Kahta eri klusterointimenetelmää testattiin, k-keskiarvoja (k-means) sekä hierarkkista klusterointia. Tilastollisen analyysin mukaan klusterit erosivat tarpeeksi ja k-keskiarvot-algoritmi muodosti klustereita, joilla oli enemmän tilastollisia eroavaisuuksia sisäisesti. Näiden klustereiden jokaiselle muuttujalle laskettiin keskiarvo sekä keskihajonta profilointitietoja varten.