Evaluation of the suitability of Finnish national patient data repository for cardiovascular disease risk prediction
Urhonen, Henna (2024)
Urhonen, Henna
2024
Tietojohtamisen DI-ohjelma - Master's Programme in Information and Knowledge Management
Johtamisen ja talouden tiedekunta - Faculty of Management and Business
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2024-04-23
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:tuni-202404033279
https://urn.fi/URN:NBN:fi:tuni-202404033279
Tiivistelmä
Cardiovascular diseases (CVDs) are a significant public health challenge both in Finland and abroad. With medical risk calculators, it is possible to estimate the risk of developing a CVD in the next 10 years, for example, which can help to identify high-risk individuals. Targeting treatment to these individuals would improve the use of healthcare resources, reduce the costs caused by CVDs, and have a positive impact on the quality of life of these persons.
Since 2014, health information from an increasing number of Finnish citizens has been stored in electronic format into the patient data repository (PDR) of the Finnish Kanta Services. The growing amount of readily available health data would be an attractive data source for automated risk prediction. However, the practical opportunities and challenges of risk calculation based on the data in the Kanta PDR are still to be clarified.
The main goal of this thesis was to find out how suitable the data in the Kanta PDR would be for CVD risk prediction. For this purpose, input values of three existing CVD risk calculators were searched from 96 200 persons’ health data that had been recorded in structured format into the Kanta PDR. CVD risk scores were then calculated for all persons who belonged to the target groups of the risk calculators. The risk scores were validated by comparing them with CVD diagnoses after the prediction date. The performance of the risk calculators was evaluated using receiver operating characteristic (ROC), precision-recall (PR), and calibration curves.
Only a few input values were found for most individuals. Using the most commonly available input values, the risk calculators reached moderate level discrimination (AUC ≈ 0.7) based on the ROC curves. When more input values were available, the risk calculators’ performance improved with some combinations of input values and worsened with others. The reliability of the results is affected by the fact that a higher number of input values were not available for many persons. All the risk calculators mostly overestimated the risk of CVDs. This is partly due to the low prevalence of positive cases in the dataset, which also complicated the interpretation of the PR curves. It was also of interest to find out what kind of restrictions can currently be observed for the use of Kanta PDR data in medical risk prediction. The identified limitations were missing input values and death information, short length of medical histories, and complexity and heterogeneity of the data.
Based on the results of this thesis, it is possible to predict CVD risks from the Kanta PDR data, but there is still room for improvement in the accuracy of the risk predictions. The risk predictions could be improved, e.g., through an increase in the amount of structured data in the Kanta PDR or by utilizing more advanced analysis methods. Sydän- ja verisuonisairaudet ovat merkittävä kansanterveydellinen haaste niin Suomessa kuin muualla maailmalla. Lääketieteellisten riskilaskurien avulla voidaan arvioida henkilön riskiä sairastua johonkin sydän- ja verisuonisairauteen esimerkiksi seuraavan 10 vuoden aikana, jolloin korkean riskin omaavien henkilöiden tunnistaminen on mahdollista. Hoidon kohdentaminen riskipotilaisiin tehostaisi terveydenhuollon resurssien käyttöä, jolloin voitaisiin vähentää sydän- ja verisuonisairauksista aiheutuvia kustannuksia ja vaikuttaa positiivisesti potilaiden elämänlaatuun.
Vuodesta 2014 alkaen yhä useamman suomalaisen sähköisiä terveystietoja on talletettu Kanta-palveluihin kuuluvaan potilastiedon arkistoon (Kanta-arkisto). Kasvavaa määrää olemassa olevaa terveysdataa olisi houkuttelevaa hyödyntää automatisoidussa riskilaskennassa. Kanta-arkistoon pohjautuvan riskilaskennan käytännön mahdollisuudet ja haasteet ovat kuitenkin vielä tutkimatta.
Tämän diplomityön päätavoitteena oli selvittää, kuinka soveltuvaa Kanta-arkiston data olisi käytettäväksi sydän- ja verisuonisairausriskien ennustamiseen. Tätä varten analysoitiin yhteensä 96 200:lta henkilöltä Kanta-arkistoon rakenteisessa muodossa kirjattuja terveystietoja ja etsittiin niistä syötearvoja kolmelle olemassa olevalle sydän- ja verisuonisairauksien riskilaskurille. Riskiarvot laskettiin löydetyillä syötearvoilla kaikille riskilaskurien kohderyhmiin kuuluneille henkilöille. Riskiarvoja validoitiin vertaamalla niitä ennustuspäivän jälkeisiin sydän- ja verisuonisairausdiagnooseihin. Riskilaskurien suoriutumiskykyä arvioitiin ROC- (receiver operating characteristic), PR- (precision-recall) ja kalibraatiokäyrien avulla.
Suurimmalle osalle henkilöistä löytyi vain muutamia syötearvoja. Useimmin saatavilla olleiden syötearvojen perusteella saatiin laskettua keskimäärin kohtalaisia riskiarvioita (AUC ≈ 0.7). Kun useampia syötearvoja oli saatavilla, ennustustarkkuus toisinaan parani mutta välillä syötearvojen lisääminen heikensi ennustuksia. Tulosten luotettavuuteen vaikuttaa se, että vain pieneltä osalta henkilöistä löytyi lukuisia syötearvoja. Kaikki riskilaskurit pääasiassa yliarvioivat henkilöiden riskitason. Osasyynä tähän on positiivisten tapauksien vähäinen määrä, joka vaikeutti myös PR-käyrien tulkintaa. Työssä haluttiin myös selvittää, millaisia rajoitteita Kanta-arkiston datan hyödyntämiseen riskien laskennassa voidaan havaita tällä hetkellä. Rajoitteiksi tunnistettiin puuttuvat syötearvot ja kuolintiedot, potilashistorioiden lyhyt ajallinen pituus sekä datan kompleksisuus.
Tämän diplomityön tulokset osoittavat, että sydän- ja verisuonisairausriskien ennustaminen on mahdollista Kanta-arkiston datan pohjalta mutta riskiennusteiden tarkkuudessa on vielä parantamisen varaa. Tuloksia voisi parantaa mm. Kanta-arkiston rakenteisen datan määrän kasvu tai kehittyneempien analyysimenetelmien hyödyntäminen.
Since 2014, health information from an increasing number of Finnish citizens has been stored in electronic format into the patient data repository (PDR) of the Finnish Kanta Services. The growing amount of readily available health data would be an attractive data source for automated risk prediction. However, the practical opportunities and challenges of risk calculation based on the data in the Kanta PDR are still to be clarified.
The main goal of this thesis was to find out how suitable the data in the Kanta PDR would be for CVD risk prediction. For this purpose, input values of three existing CVD risk calculators were searched from 96 200 persons’ health data that had been recorded in structured format into the Kanta PDR. CVD risk scores were then calculated for all persons who belonged to the target groups of the risk calculators. The risk scores were validated by comparing them with CVD diagnoses after the prediction date. The performance of the risk calculators was evaluated using receiver operating characteristic (ROC), precision-recall (PR), and calibration curves.
Only a few input values were found for most individuals. Using the most commonly available input values, the risk calculators reached moderate level discrimination (AUC ≈ 0.7) based on the ROC curves. When more input values were available, the risk calculators’ performance improved with some combinations of input values and worsened with others. The reliability of the results is affected by the fact that a higher number of input values were not available for many persons. All the risk calculators mostly overestimated the risk of CVDs. This is partly due to the low prevalence of positive cases in the dataset, which also complicated the interpretation of the PR curves. It was also of interest to find out what kind of restrictions can currently be observed for the use of Kanta PDR data in medical risk prediction. The identified limitations were missing input values and death information, short length of medical histories, and complexity and heterogeneity of the data.
Based on the results of this thesis, it is possible to predict CVD risks from the Kanta PDR data, but there is still room for improvement in the accuracy of the risk predictions. The risk predictions could be improved, e.g., through an increase in the amount of structured data in the Kanta PDR or by utilizing more advanced analysis methods.
Vuodesta 2014 alkaen yhä useamman suomalaisen sähköisiä terveystietoja on talletettu Kanta-palveluihin kuuluvaan potilastiedon arkistoon (Kanta-arkisto). Kasvavaa määrää olemassa olevaa terveysdataa olisi houkuttelevaa hyödyntää automatisoidussa riskilaskennassa. Kanta-arkistoon pohjautuvan riskilaskennan käytännön mahdollisuudet ja haasteet ovat kuitenkin vielä tutkimatta.
Tämän diplomityön päätavoitteena oli selvittää, kuinka soveltuvaa Kanta-arkiston data olisi käytettäväksi sydän- ja verisuonisairausriskien ennustamiseen. Tätä varten analysoitiin yhteensä 96 200:lta henkilöltä Kanta-arkistoon rakenteisessa muodossa kirjattuja terveystietoja ja etsittiin niistä syötearvoja kolmelle olemassa olevalle sydän- ja verisuonisairauksien riskilaskurille. Riskiarvot laskettiin löydetyillä syötearvoilla kaikille riskilaskurien kohderyhmiin kuuluneille henkilöille. Riskiarvoja validoitiin vertaamalla niitä ennustuspäivän jälkeisiin sydän- ja verisuonisairausdiagnooseihin. Riskilaskurien suoriutumiskykyä arvioitiin ROC- (receiver operating characteristic), PR- (precision-recall) ja kalibraatiokäyrien avulla.
Suurimmalle osalle henkilöistä löytyi vain muutamia syötearvoja. Useimmin saatavilla olleiden syötearvojen perusteella saatiin laskettua keskimäärin kohtalaisia riskiarvioita (AUC ≈ 0.7). Kun useampia syötearvoja oli saatavilla, ennustustarkkuus toisinaan parani mutta välillä syötearvojen lisääminen heikensi ennustuksia. Tulosten luotettavuuteen vaikuttaa se, että vain pieneltä osalta henkilöistä löytyi lukuisia syötearvoja. Kaikki riskilaskurit pääasiassa yliarvioivat henkilöiden riskitason. Osasyynä tähän on positiivisten tapauksien vähäinen määrä, joka vaikeutti myös PR-käyrien tulkintaa. Työssä haluttiin myös selvittää, millaisia rajoitteita Kanta-arkiston datan hyödyntämiseen riskien laskennassa voidaan havaita tällä hetkellä. Rajoitteiksi tunnistettiin puuttuvat syötearvot ja kuolintiedot, potilashistorioiden lyhyt ajallinen pituus sekä datan kompleksisuus.
Tämän diplomityön tulokset osoittavat, että sydän- ja verisuonisairausriskien ennustaminen on mahdollista Kanta-arkiston datan pohjalta mutta riskiennusteiden tarkkuudessa on vielä parantamisen varaa. Tuloksia voisi parantaa mm. Kanta-arkiston rakenteisen datan määrän kasvu tai kehittyneempien analyysimenetelmien hyödyntäminen.