Prediction of children's overweight using supervised learning
Mikkola, Heidi (2023)
Mikkola, Heidi
2023
Master's Programme in Computational Big Data Analytics
Informaatioteknologian ja viestinnän tiedekunta - Faculty of Information Technology and Communication Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2023-05-19
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:tuni-202304244252
https://urn.fi/URN:NBN:fi:tuni-202304244252
Tiivistelmä
Being overweight is a massive problem all over the world, and it affects developed countries also, including Finland. The aim of this thesis is to investigate whether is it possible to predict if a child is at risk to become overweight later in life using longitudinal data on a child's BMI. The data that was used in this thesis were collected in the Pirkanmaa area in Finland and it contains anthropometric measurements from 4223 children that were born in 1974, 1981, 1991, and 2001. The measurements were taken from birth up to 15 years of age, except for children who were born in 2001. They were measured only up to 11 years of age. Supervised learning, specifically discriminant analysis was used to cluster children into two groups depending are they at a risk to become overweight at 15 years of age. Being overweight was defined as BMI equal to or over 25. Randomly selected 70% of the whole data was used as a training set and the remaining 30% of the data was used as a test set. The mixed models were created by using the training set and it was applied to the test set which contains data from 1 year of age up to 7 years of age. This thesis used and compared three different prediction approaches, marginal, conditional, and random effect predictions, to predict children who are at risk to become overweight at 15 years of age. The results were compared to actual values. Marginal and conditional predictions gave similar results but the random effect prediction approach seemed to work worse than marginal and conditional predictions. The results indicated that the older a child is the easier is to see if the child will be overweight. Thus, it is really difficult to predict possible future overweight with very young children whose maximum age is 2 years. In the girls' and boys' groups were no big differences, although there could be seen as slightly better predictable in the girls' group with very young children. Nevertheless, the improvement of predictability was better in the boys' group than in the girls' group. Ylipaino on valtava ongelma ympäri maailmaa, ja se koskettaa myös kehittyneitä valtioita, kuten Suomea. Tämän työn tarkoituksena on tutkia, pystyykö lasten BMI-tiedoista ennustamaan, tulevatko he olemaan ylipainoriskissä myöhemmin elämässään. Aineistona käytettiin Suomessa Pirkanmaalla kerättyä pitkittäisaineistoa, joka sisälsi 4223 lapsen antropometrisia tietoja. Aineistossa oli kerätty vuosina 1974, 1981, 1991, 1995 ja 2001 syntyneiltä lapsilta muun muassa pituutta ja painoa. Dataa oli kerätty syntymästä 15-vuotiaaksi asti, lukuunottamatta 2001 syntyneitä, joilla mittauksia oli tehty vain 11-vuotiaaksi asti. Tässä työssä käytettiin ohjattua oppimista ja diskriminanttianalyysiä klusterointiin. Lapset luokiteltiin kahteen eri ryhmään, ylipainoisiin ja normaalipainoisiin, sen perusteella tulevatko he olemaan 15-vuotiaina ylipainoisia vai ei. Ylipaino määriteltiin painoindeksin ollessa 25 tai sen yli. Opetusjoukkona käytettiin satunnaisesti valittua 70 prosenttia koko aineistosta, ja testijoukkona loppua 30 prosenttia. Opetusjoukon avulla mallinnettuja sekamalleja käytettiin testijoukkoon, jossa oli lapsilta dataa 1-vuotiaasta 7-vuotiaaksi saakka. Testijoukon lapset luokiteltiin kahteen ryhmään heidän todennäköisyyden olla 15-vuotiaina ylipainoisia perusteella. Tässä työssä käytettiin ja verrattiin kolmea eri ennustemenetelmää, marginaaliennuste, ehdollinen ennuste sekä satunnaisvaikutusennuste. Tuloksia verrattiin oikeisiin arvoihin ja tulokset osoittivat, että marginaaliennuste sekä ehdollinen ennuste antoivat samanlaisia tuloksia, mutta satunnaisvaikutusennuste toimi näitä kahta muuta ennustetapaa huonommin. Tuloksista nähtiin, että mitä vanhempi lapsi on, sitä helpompi on nähdä tuleeko hänestä ylipainoinen vai ei. Aivan pieniltä lapsilta, joiden ikä oli maksimissaan 2 vuotta, oli vaikea ennustaa mahdollista tulevaa ylipainoa. Tyttöjen ja poikien välillä ei ollut suuria eroja, joskin tytöillä oli aivan nuorena havaittavissa hieman parempaa ennustettavuutta kuin pojilla, mutta poikien ennustettavuus parani selkeämmin ajan myötä.