Genetic risk estimation model for breast cancer in the Finnish population
Mettinen, Nita (2021)
Mettinen, Nita
2021
Bioteknologian ja biolääketieteen tekniikan maisteriohjelma - Master's Programme in Biotechnology and Biomedical Engineering
Lääketieteen ja terveysteknologian tiedekunta - Faculty of Medicine and Health Technology
This publication is copyrighted. Only for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2021-05-19
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:tuni-202104233358
https://urn.fi/URN:NBN:fi:tuni-202104233358
Tiivistelmä
Polygenic risk score (PRS) is a new genomics based tool for assessing risk of breast cancer. PRS summarizes the effect of multiple common genetic variants on the outcome of interest. The aim of this study was to test suitability of a PRS containing 5 218 SNPs for use in the Finnish population to model ten-year breast cancer risk. The risk was modeled in a subset of FINRISK data containing 11 770 women in total, 234 of whom were diagnosed with incident breast cancer during the ten-year follow-up. The impact of the PRS to the ten-year risk estimation together with common risk factors of breast cancer, including hormonal, reproductive and lifestyle related factors, was also examined. Because of future intention to make better use of genetic information in Finnish healthcare, the potential connection between high PRS and earlier onset of the disease was examined in clinically relevant groups. Since 50 years is the general starting age of mammographic screening in Finland, women diagnosed with breast cancer at the age of 50 years or earlier formed one group and women diagnosed with breast cancer after the age of 50 years formed another group.
The PRS values were calculated for the FINRISK participants, and the utility of the PRS in the Finnish population was validated by fitting a Cox proportional hazards model for period of ten years using PRS as the only covariate. The response variable common to all Cox models was breast cancer risk during the tenyear follow-up based on baseline age, age change before getting breast cancer or during the ten-year followup and incident breast cancer status. The effect of the PRS to the ten-year risk prediction with traditional risk factors was studied by fitting ten-year risk models with varying combinations of covariates with and without the PRS. Model fit to the ten-year risk models was evaluated based on null hypothesis tests of covariates, testing equivalence of expected and observed cases, and testing the proportionality of hazards assumption. Models containing traditional risk factors without and with the PRS were also compared by the ratio of model complexity and maximum likelihood. Classification accuracy and risk stratification capacity of the models were estimated using concordance index, area under the curve, and net reclassification improvement. Since the PRS turned out to be an effective risk stratifier, usefulness of the other risk factors in the risk assessment was also tested. To study the clinical significance of the PRS, the PRS distribution was divided into five groups corresponding approximately to quintiles, and into three groups; 10% lowest, 10–90% intermediate and 10% highest risk. The breast cancer proportions of the highest two of the five groups and the highest 10% risk groups were compared between the age of onset groups.
The selected PRS was normally distributed in the data and, with increasing value, statistically significantly associated with breast cancer risk with p-value of 2.46*10-12 and HR of 1.58 (95% CI 1.39–1.79). Classification accuracy of the PRS according to the C-index was 0.64 (0.60–0.67). The addition of the PRS to the models containing traditional risk factors improved the risk prediction in every model candidate, but inclusion of the other covariates was also useful. Best classification accuracy with C-index of 0.68 (0.63–0.72) together with the best net reclassification improvement of 17.8% was achieved by the model containing all the available traditional risk factors and the PRS. However, of the covariates only alcohol consumption and PRS were reliably associated with the response variable, while the other risk factors did not have significant p-values, and wide confidence intervals indicated inaccuracy in the hazard ratios. PRS distributions in the two age of onset groups indicated some difference in the breast cancer incidence. Statistically significant difference in the cancer proportions, measured by χ2-test or Fisher’s exact test, was not observed between the highest 10% PRS risk groups of the compared age of onset groups, but the difference found in the comparison of highest two of the five PRS risk groups, containing about 30% of all the women, between the age of onset groups was almost statistically significant. Thus, almost statistically significantly higher proportion of women diagnosed before or at the age of 50 belonged to the 30% of the women at the highest risk end of the PRS distribution compared to those diagnosed after the age of 50 years. The topic may be worth further research since some earlier studies have already found evidence about the connection between high PRS and certain breast cancer risk limits achieved at earlier ages. Monigeeninen riskisumma (eng. polygenic risk score, PRS) on uusi genetiikkaan perustuva työkalu rintasyöpäriskin arviointiin. PRS on kuvaa monen yleisen variantin vaikutusten yhteistulosta tutkittavaan ominaisuuteen. Tässä tutkimuksessa tutkittiin 5 218 geneettistä varianttia sisältävän PRS:n soveltuvuutta käytettäväksi suomalaisessa väestössä mallintamaan kymmenen vuoden rintasyöpäriskiä. Mallinnuksessa käytettiin FINRISKI-aineistoa, johon sisältyi 11 770 naista, joista 234 tiedettiin sairastuneen rintasyöpään 10 vuoden seurannan aikana. Lisäksi PRS:n vaikutusta 10 vuoden rintasyöpäriskin ennustamiseen perinteisillä riskitekijöillä tutkittiin lisäämällä PRS muiden tunnettujen rintasyövän riskitekijöiden erilaisista yhdistelmistä muodostettuihin malleihin. Rintasyövän perinteiset riskitekijät liittyivät esimerkiksi hormonitoimintaan ja elintapoihin. Koska geneettistä tietoa haluttaisiin hyödyntää tulevaisuudessa paremmin Suomen terveydenhuollossa, korkean PRS:n ja aikaisemman sairastumisiän välistä yhteyttä tutkittiin kliinisesti merkityksellisissä ryhmissä. Koska Suomessa rintasyövän yleinen mammografiaseulonta alkaa 50-vuotiaana, rintasyöpäpotilaat jaettiin sairastumisiän mukaan alle tai tasan 50-vuotiaana ja yli 50-vuotiaana sairastuneisiin.
PRS-arvot laskettiin FINRISKI-aineistolle, ja PRS:n soveltuvuutta suomalaisessa populaatiossa käytettäväksi testattiin sovittamalla Coxin malli kymmenen vuoden rintasyöpäriskille käyttäen PRS:a ainoana kovariaattina mallissa. Vastemuuttujana käytettiin kymmenen vuoden rintasyöpäriskiä, jota määrittivät ikä tutkimukseen osallistuessa, mahdollinen rintasyöpään sairastuminen ja siihen kuluva aika kymmenen vuoden sisällä. PRS:n vaikutuksia riskimallinnukseen perinteisillä riskitekijöillä tutkittiin sovittamalla Coxin malleja erilaisilla kovariaatiyhdistelmillä ilman PRS:a ja PRS:n kanssa. Kaikkien mallien kelpoisuutta arvioitiin testaamalla kovariaattien nollahypoteesia, havaittujen ja odotettujen tapausten suhdetta ja riskien suhteellisuusoletusta. Rintasyövän perinteisiä riskitekijöitä sisältäviä malleja vertailtiin myös maksimi todennäköisyyden ja muuttujien määrän aiheuttaman kompleksisuuden suhteesta kertovilla arvoilla. Mallien kykyä erotella rintasyöpään sairastuneet ja sairastumattomat arvioitiin vastaavuusindeksillä ja reklassifikaation nettoparannuksen perusteella vertailtaessa eri malleja keskenään. PRS:n osoittautuessa jo yksittäisenä riskitekijänä tehokkaaksi tapaus- ja kontrollinäytteiden erottelijaksi kokeiltiin lisäksi, onko muiden riskitekijöiden lisääminen PRS-malliin hyödyllistä. PRS:n kliinistä merkitystä arvioitiin jakamalla PRSjakauma viiteen suunnilleen kvintiilejä vastaavaan osaan, joista ryhmiin neljä ja viisi sijoittuvien syöpäpotilaiden osuuksia vertailtiin sairastumisikäryhmien välillä, ja kolmeen osaan, jotka olivat matalin 10%, keskelle jäävä 10–90% ja korkein 10% PRS:n jakaumalta, ja joista päädyttiin vertaamaan korkeimman 10% ryhmien syöpäpotilasmäärien eroja sairastumisikäryhmien välillä.
PRS oli tilastollisesti merkittävästi assosioinut vastemuuttujaan P-arvolla 2.46*10-12, ja vaikutuksen suuruutta kuvaava riskisuhde oli 1.58 (95% CI 1.39–1.79). Pelkän PRS:n sisältävän mallin erottelukyky oli vastaavuusindeksillä mitattuna 0.64 (0.60–0.67), ja PRS:n lisääminen kovariaatiksi paransi jokaista riskiennustusmallia. Havaittiin myös, että riskimalliin on hyödyllistä sisällyttää perinteisiä riskitekijöitä PRS:n lisäksi. Paras erottelukyky vastaavuusindeksin arvolla 0.68 (0.63–0.72) ja nettoreklassifikaation arvolla 17.8% mitattuna osoittautui olevan mallilla, joka sisälsi kaikki tutkimukseen käytettävissä olevat perinteiset riskitekijät ja PRS:n. Kovariaateista kuitenkin vain alkoholinkulutus ja PRS olivat systemaattisesti tilastollisesti merkittävästi assosioituneita vastemuuttujaan, ja assosioitumattomien riskitekijöiden riskisuhdearvojen luottamusvälit olivat laajoja. Sairastumisikäryhmien PRS-jakaumissa havaittiin eroavaisuuksia, mutta korkeimman 10% PRS-riskiryhmissä sairastumisikäryhmien välillä ei χ2-testin ja Fisherin testin mukaan ollut tilastollisesti merkittävää eroa syöpään sairastuneiden osuuksissa. Lähes tilastollisesti merkittävä ero kuitenkin havaittiin ikäryhmien välillä tarkasteltaessa kahteen suurimpaan PRSkvintiiliin, jotka sisältävät kaikista naisista noin 30%, sijoittuneiden syöpäpotilaiden osuuksia. Alle tai tasan 50-vuotiaana sairastuneista lähes tilastollisesti merkittävästi suurempi osa sijoittui PRS:n aiheuttaman riskin puolesta korkeimmassa riskissä olevien 30% joukkoon verrattuna yli 50-vuotiaana sairastuneisiin. Koska aiemmissa tutkimuksissa on havaittu, yhteys korkeamman PRS-arvon ja aiemman riskirajojen saavuttamisen välillä, kliinsesti tärkeiden ryhmien välisiä PRS:n eroja voisi olla hyödyllistä tutkia lisää.
The PRS values were calculated for the FINRISK participants, and the utility of the PRS in the Finnish population was validated by fitting a Cox proportional hazards model for period of ten years using PRS as the only covariate. The response variable common to all Cox models was breast cancer risk during the tenyear follow-up based on baseline age, age change before getting breast cancer or during the ten-year followup and incident breast cancer status. The effect of the PRS to the ten-year risk prediction with traditional risk factors was studied by fitting ten-year risk models with varying combinations of covariates with and without the PRS. Model fit to the ten-year risk models was evaluated based on null hypothesis tests of covariates, testing equivalence of expected and observed cases, and testing the proportionality of hazards assumption. Models containing traditional risk factors without and with the PRS were also compared by the ratio of model complexity and maximum likelihood. Classification accuracy and risk stratification capacity of the models were estimated using concordance index, area under the curve, and net reclassification improvement. Since the PRS turned out to be an effective risk stratifier, usefulness of the other risk factors in the risk assessment was also tested. To study the clinical significance of the PRS, the PRS distribution was divided into five groups corresponding approximately to quintiles, and into three groups; 10% lowest, 10–90% intermediate and 10% highest risk. The breast cancer proportions of the highest two of the five groups and the highest 10% risk groups were compared between the age of onset groups.
The selected PRS was normally distributed in the data and, with increasing value, statistically significantly associated with breast cancer risk with p-value of 2.46*10-12 and HR of 1.58 (95% CI 1.39–1.79). Classification accuracy of the PRS according to the C-index was 0.64 (0.60–0.67). The addition of the PRS to the models containing traditional risk factors improved the risk prediction in every model candidate, but inclusion of the other covariates was also useful. Best classification accuracy with C-index of 0.68 (0.63–0.72) together with the best net reclassification improvement of 17.8% was achieved by the model containing all the available traditional risk factors and the PRS. However, of the covariates only alcohol consumption and PRS were reliably associated with the response variable, while the other risk factors did not have significant p-values, and wide confidence intervals indicated inaccuracy in the hazard ratios. PRS distributions in the two age of onset groups indicated some difference in the breast cancer incidence. Statistically significant difference in the cancer proportions, measured by χ2-test or Fisher’s exact test, was not observed between the highest 10% PRS risk groups of the compared age of onset groups, but the difference found in the comparison of highest two of the five PRS risk groups, containing about 30% of all the women, between the age of onset groups was almost statistically significant. Thus, almost statistically significantly higher proportion of women diagnosed before or at the age of 50 belonged to the 30% of the women at the highest risk end of the PRS distribution compared to those diagnosed after the age of 50 years. The topic may be worth further research since some earlier studies have already found evidence about the connection between high PRS and certain breast cancer risk limits achieved at earlier ages.
PRS-arvot laskettiin FINRISKI-aineistolle, ja PRS:n soveltuvuutta suomalaisessa populaatiossa käytettäväksi testattiin sovittamalla Coxin malli kymmenen vuoden rintasyöpäriskille käyttäen PRS:a ainoana kovariaattina mallissa. Vastemuuttujana käytettiin kymmenen vuoden rintasyöpäriskiä, jota määrittivät ikä tutkimukseen osallistuessa, mahdollinen rintasyöpään sairastuminen ja siihen kuluva aika kymmenen vuoden sisällä. PRS:n vaikutuksia riskimallinnukseen perinteisillä riskitekijöillä tutkittiin sovittamalla Coxin malleja erilaisilla kovariaatiyhdistelmillä ilman PRS:a ja PRS:n kanssa. Kaikkien mallien kelpoisuutta arvioitiin testaamalla kovariaattien nollahypoteesia, havaittujen ja odotettujen tapausten suhdetta ja riskien suhteellisuusoletusta. Rintasyövän perinteisiä riskitekijöitä sisältäviä malleja vertailtiin myös maksimi todennäköisyyden ja muuttujien määrän aiheuttaman kompleksisuuden suhteesta kertovilla arvoilla. Mallien kykyä erotella rintasyöpään sairastuneet ja sairastumattomat arvioitiin vastaavuusindeksillä ja reklassifikaation nettoparannuksen perusteella vertailtaessa eri malleja keskenään. PRS:n osoittautuessa jo yksittäisenä riskitekijänä tehokkaaksi tapaus- ja kontrollinäytteiden erottelijaksi kokeiltiin lisäksi, onko muiden riskitekijöiden lisääminen PRS-malliin hyödyllistä. PRS:n kliinistä merkitystä arvioitiin jakamalla PRSjakauma viiteen suunnilleen kvintiilejä vastaavaan osaan, joista ryhmiin neljä ja viisi sijoittuvien syöpäpotilaiden osuuksia vertailtiin sairastumisikäryhmien välillä, ja kolmeen osaan, jotka olivat matalin 10%, keskelle jäävä 10–90% ja korkein 10% PRS:n jakaumalta, ja joista päädyttiin vertaamaan korkeimman 10% ryhmien syöpäpotilasmäärien eroja sairastumisikäryhmien välillä.
PRS oli tilastollisesti merkittävästi assosioinut vastemuuttujaan P-arvolla 2.46*10-12, ja vaikutuksen suuruutta kuvaava riskisuhde oli 1.58 (95% CI 1.39–1.79). Pelkän PRS:n sisältävän mallin erottelukyky oli vastaavuusindeksillä mitattuna 0.64 (0.60–0.67), ja PRS:n lisääminen kovariaatiksi paransi jokaista riskiennustusmallia. Havaittiin myös, että riskimalliin on hyödyllistä sisällyttää perinteisiä riskitekijöitä PRS:n lisäksi. Paras erottelukyky vastaavuusindeksin arvolla 0.68 (0.63–0.72) ja nettoreklassifikaation arvolla 17.8% mitattuna osoittautui olevan mallilla, joka sisälsi kaikki tutkimukseen käytettävissä olevat perinteiset riskitekijät ja PRS:n. Kovariaateista kuitenkin vain alkoholinkulutus ja PRS olivat systemaattisesti tilastollisesti merkittävästi assosioituneita vastemuuttujaan, ja assosioitumattomien riskitekijöiden riskisuhdearvojen luottamusvälit olivat laajoja. Sairastumisikäryhmien PRS-jakaumissa havaittiin eroavaisuuksia, mutta korkeimman 10% PRS-riskiryhmissä sairastumisikäryhmien välillä ei χ2-testin ja Fisherin testin mukaan ollut tilastollisesti merkittävää eroa syöpään sairastuneiden osuuksissa. Lähes tilastollisesti merkittävä ero kuitenkin havaittiin ikäryhmien välillä tarkasteltaessa kahteen suurimpaan PRSkvintiiliin, jotka sisältävät kaikista naisista noin 30%, sijoittuneiden syöpäpotilaiden osuuksia. Alle tai tasan 50-vuotiaana sairastuneista lähes tilastollisesti merkittävästi suurempi osa sijoittui PRS:n aiheuttaman riskin puolesta korkeimmassa riskissä olevien 30% joukkoon verrattuna yli 50-vuotiaana sairastuneisiin. Koska aiemmissa tutkimuksissa on havaittu, yhteys korkeamman PRS-arvon ja aiemman riskirajojen saavuttamisen välillä, kliinsesti tärkeiden ryhmien välisiä PRS:n eroja voisi olla hyödyllistä tutkia lisää.