Longitudinal Mixture Modeling With Box-Cox Transformation : The Effects of Box-Cox Transformation on Latent Class Identification in Trajectory Analysis
Väkeväinen, Pasi (2022)
Väkeväinen, Pasi
2022
Master's Programme in Computational Big Data Analytics
Informaatioteknologian ja viestinnän tiedekunta - Faculty of Information Technology and Communication Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2022-05-12
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:tuni-202204213372
https://urn.fi/URN:NBN:fi:tuni-202204213372
Tiivistelmä
This thesis examined Box-Cox transformation as a method to improve the performance of longitudinal mixture models with non-normal data. Mixture models are know to over-estimate the number of classes when the assumption of normality is violated. In a simulation experiment, the transformation was found to significantly improve the accuracy of the estimation of the number of latent classes compared to assuming normality with the non-normal data. With the transformation, the models were better at producing clusters that resemble the latent classes. The computational cost of the transformation was quite high.
In another simulation experiment, trajectory analysis with Box-Cox transformation was compared to skew-t growth mixture models, which have been the most popular method for mixture modeling longitudinal non-normal data. After optimizing the transformation, computations were only slightly slower than the skew-t GMMs. The transformation method was much better at finding the number of latent classes with small sample size (n = 200 with 6 measurements) or uneven class proportions (π = {0.8, 0.2}). The clusters produced by the transformation method were closer to the latent classes than the skew-t method’s across the board. Tässä tutkielmassa tutkittiin Box-Cox-transformaatiota mahdollisuutena sekoitemallien suorituskyvyn parantamiseksi ei-normaalijakautuneella pitkittäisaineistolla. Sekoitemallien tiedetään yliarvioivan luokkien määrää silloin, kun oletus aineiston normaalisuudesta ei pidä. Simulaatiokokeessa transformaatio paransi merkittävästi latenttien luokkien määrän estimoinnin tarkkuutta verrattuna normaalisuuden olettamiseen vinoutuneessa aineistossa. Transformaation kanssa sekoitemallien tuottamat klusterit olivat enemmän latenttien luokkien kaltaisia. Suoritusaikaa transformaatio nosti selvästi.
Toisessa simulaatiokokeessa trajektorianalyysiä Box-Cox-transformaation kanssa verrattiin kasvusekoitemalleihin (GMM) skew-t -jakaumalla, jotka ovat olleet suosituin menetelmä ei-normaalijakautuneen pitkittäisaineiston sekoitemallinnuksessa. Transformaation optimoinnin jälkeen suoritusajat olivat hieman pidempiä kuin skew-t -malleilla. Transformaatiomenetelmä oli selvästi parempi latenttien luokkien määrän arvioimisessa pienellä otoskoolla (n = 200 ja 6 mittauspistettä) tai epätasaisilla luokkasuhteilla (π = {0.8, 0.2}). Transformaation kanssa muodostetut klusterit olivat kaikissa vertailuissa lähempänä latentteja luokkia kuin skew-t -mallien klusterit.
In another simulation experiment, trajectory analysis with Box-Cox transformation was compared to skew-t growth mixture models, which have been the most popular method for mixture modeling longitudinal non-normal data. After optimizing the transformation, computations were only slightly slower than the skew-t GMMs. The transformation method was much better at finding the number of latent classes with small sample size (n = 200 with 6 measurements) or uneven class proportions (π = {0.8, 0.2}). The clusters produced by the transformation method were closer to the latent classes than the skew-t method’s across the board.
Toisessa simulaatiokokeessa trajektorianalyysiä Box-Cox-transformaation kanssa verrattiin kasvusekoitemalleihin (GMM) skew-t -jakaumalla, jotka ovat olleet suosituin menetelmä ei-normaalijakautuneen pitkittäisaineiston sekoitemallinnuksessa. Transformaation optimoinnin jälkeen suoritusajat olivat hieman pidempiä kuin skew-t -malleilla. Transformaatiomenetelmä oli selvästi parempi latenttien luokkien määrän arvioimisessa pienellä otoskoolla (n = 200 ja 6 mittauspistettä) tai epätasaisilla luokkasuhteilla (π = {0.8, 0.2}). Transformaation kanssa muodostetut klusterit olivat kaikissa vertailuissa lähempänä latentteja luokkia kuin skew-t -mallien klusterit.