Korrespondenssianalyysin käyttö puuttuvia tietoja sisältävässä pitkittäisaineistossa
Perälä, Jori (2023)
Perälä, Jori
2023
Master's Programme in Computational Big Data Analytics
Informaatioteknologian ja viestinnän tiedekunta - Faculty of Information Technology and Communication Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2023-01-17
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:tuni-202211288692
https://urn.fi/URN:NBN:fi:tuni-202211288692
Tiivistelmä
Tässä työssä tutkittiin korrespondenssianalyysin käyttöä pitkittäisaineistossa, joka oli kerätty laajasta väestötutkimuksesta liittyen miesten eturauhasen terveydentilaan liittyen ja aineisto sisälsi puuttuvia tietoja. Aineistosta pyrittiin löytämään, mitkä vaivat ja ongelmat vastaajien kesken olisivat yleisimpiä ja miten vaivat muuttuivat ajan myötä. Aineistoa tarkasteltiin ensin poikittaisaineistona, jolloin jokainen yksittäinen aineiston vastaus käsiteltiin muista riippumattomana. Näin pystyttiin tarkastelemaan korrespondenssianalyysiä käyttäen yleisellä tasolla, mikä oli ollut kyselyssä kaikkien vastausten kesken yleinen vaiva, ja mikä puolestaan ei ollut aiheuttanut kyselyyn vastanneille ongelmia. Tämän jälkeen aineiston pitkittäisyysominaisuus otettiin myös huomioon siten, että verrattiin samoilta henkilöiltä vastauksia kahdelta eri ajankohdalta sekä Burtin matriisia käyttäen että muodostamalla aineistosta kontingenssitaulukko, joka keskittyi vastausten sijaan taulukoimaan tietoa siitä, kuinka vastaus oli kahden ajankohdan välillä muuttunut.
Kun aineistoa tarkasteltiin poikittaisasetelmaa käyttäen, aineistossa muutama kysymys nousi yleisemmäksi vaivaksi muihin verrattuna, mutta kun aineiston pitkittäisominaisuus otettiin käyttöön, muutaman vaivan osalta nähtiin tilanne, että nämä olivat ajan mittaan heikentyneet muihin kysymyksiin verraten sen verran, että korrespondenssianalyysin kanssa tämä oli selkeästi huomattavissa. Burtin matriisin avulla tehdyn tarkastelun perusteella todettiin, että suurin osa vastaajista oli kahden ajankohdan välillä pitänyt vastauksensa muuttumattomina, jolloin kuvaajan pisteillä oli taipumusta kasaantua yhdeksi isoksi massaksi. In this master’s thesis the main idea was to study use of correspondence analysis in a longitudinal dataset with missing values that was collected for vast medical research as a survey. From the dataset the aim was to find out which of the ailments were more common compared to others and what ailments changed over time. The dataset was about the health situation of a group of males preselected based on prostate condition. In the beginning the dataset was treated as a cross-sectional study and all the replies were assumed to be independent. Now it was possible to notice by using correspondence analysis what was the most common ailment among all answers, and it was possible to see, which ailments were rare. After this the data was treated as longitudinal data and the aim was to compare how the survey answers differ between two time points from same survey responders by using Burt matrix that included one time point as rows and another time point as columns. As another method, all the differences between answers of two time points were tabulated as a contingency table and correspondence analysis was performed on this table as well.
When the dataset was used as a cross-sectional study, a couple of ailments were found to be more common compared to others. When the longitudinal feature of the dataset was taken into account in the analysis, some of these ailments changed so that ailments worsened between time points. However, the majority of the survey responders gave answers according to which the severity of their ailments did not change between two time points and the correspondence analysis that was performed based on the Burt matrix gave similar results by placing majority of the plotted points in a tight area and leaving only a few outliers.
Kun aineistoa tarkasteltiin poikittaisasetelmaa käyttäen, aineistossa muutama kysymys nousi yleisemmäksi vaivaksi muihin verrattuna, mutta kun aineiston pitkittäisominaisuus otettiin käyttöön, muutaman vaivan osalta nähtiin tilanne, että nämä olivat ajan mittaan heikentyneet muihin kysymyksiin verraten sen verran, että korrespondenssianalyysin kanssa tämä oli selkeästi huomattavissa. Burtin matriisin avulla tehdyn tarkastelun perusteella todettiin, että suurin osa vastaajista oli kahden ajankohdan välillä pitänyt vastauksensa muuttumattomina, jolloin kuvaajan pisteillä oli taipumusta kasaantua yhdeksi isoksi massaksi.
When the dataset was used as a cross-sectional study, a couple of ailments were found to be more common compared to others. When the longitudinal feature of the dataset was taken into account in the analysis, some of these ailments changed so that ailments worsened between time points. However, the majority of the survey responders gave answers according to which the severity of their ailments did not change between two time points and the correspondence analysis that was performed based on the Burt matrix gave similar results by placing majority of the plotted points in a tight area and leaving only a few outliers.