Variants in transcription factor binding sites altering gene expression in prostate cancer
Salokorpi, Noora (2022)
Salokorpi, Noora
2022
Bioteknologian ja biolääketieteen tekniikan maisteriohjelma - Master's Programme in Biotechnology and Biomedical Engineering
Lääketieteen ja terveysteknologian tiedekunta - Faculty of Medicine and Health Technology
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2022-12-20
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:tuni-202211288693
https://urn.fi/URN:NBN:fi:tuni-202211288693
Tiivistelmä
Prostate cancer is the 2nd most prevalent cancer and 5th most worldwide cause of death among men. There are several methods to treat prostate cancer, such as surgery, radiation therapy, hormone therapy, and chemotherapy. Non-lethal primary prostate cancer can develop into lethal castration-resistant prostate cancer. Prostate cancer development is caused by environmental and genetic factors. One promising explanation for prostate cancer development is transcription factor binding in cis-regulatory regions, which promotes or inhibits gene expression. Variants in these cis-regulatory elements can change the binding of transcription factors and, therefore, alter gene expression.
In many cases, the effects of noncoding regions of the genome on gene expression are unclear. Noncoding regions include many essential parts of gene expression regulation, such as promoters, enhancers, and silencers. ATAC-sequencing is a sequencing method used to study chromatin accessibility genome-wide. Open chromatin peaks accessed by ATAC-sequencing contain active parts of the genome, which is why it is a suitable method to study active noncoding regions.
The first aim of this Master’s thesis was to perform variant calling with suitable parameters to ATAC-seq. The second aim was to discover common variants within different TFBSs. The third aim was to find out how variants affect the ability of TF to bind to its binding site. This aim was accomplished by comparing PWM scores of wild types and mutated sequences. The main objective, to discover if and which variants in TFBS can change the gene expression close to these regulatory areas, was accomplished by the three aims.
Variant calling was performed with sufficient quality, with the median percentage of ATAC-sequencing variants found from whole genome sequencing variants to be 91.4 %. The five most common transcription factor binding sites for all cell lines and prostate cell lines were CTCF, AR, ESR1, FOXA1, and MYC, and AR, FOXA1, ERG, CTCF, and E2F1, respec-tively. After running Wilcoxon rank-sum test and Benjamini-Hochberg multiple testing correction for each gene in samples with and without the variant, 443 genes had a p-value less than 0.05. Out of these, eight were considered significant in three transcription factors and 112 in two transcription factors. The eight genes present in three transcription factor binding sites were ZNF195, RFXANK, PTPN3, MAP4K5, KRIT1, ITGAL, DDX17, and AHCY. Previous studies of ITGAL, DDX17, and AHCY stated that these genes have a role in prostate cancer development.
To understand whether the variants in transcription factor binding sites were actually the cause of changes in gene expression, more studies would be required. These methods could be, for example, using STARR-sequencing to directly and quantitatively estimate enhancer activity. Eturauhassyöpä on toiseksi yleisin tapausmäärältään ja viidenneksi yleisin kuolinsyy maailmanlaajuisesti miehillä. Eturauhassyövän hoitoon on monia menetelmiä, kuten leikkaus, sädehoito, hormonaaliset hoidot tai kemoterapia. Ei-tappava primaarinen eturauhassyöpä voi kehittyä tappavaksi kastraatioresistentiksi eturauhassyöväksi. Eturauhassyövän kehitys johtuu sekä geneettisistä että ympäristötekijöistä. Yksi lupaava selittävä tekijä eturauhassyövän kehityksessä on cis-säätelyalueen transkriptiofaktorit, jotka edistävät tai vähentävät geeniekspressiota. Näiden cis-säätelyalueiden variantit voivat muuttaa transkriptiofaktorien sitoutumista ja täten muuttaa geeniekspressiota.
Genomin ei-koodaavien alueiden vaikutus geeniekspressioon on monissa tapauksissa epäselvä. Ei-koodaaviin alueisiin kuuluu monia geeniekspression säätelyn kannalta tärkeitä alueita, kuten promoottorit sekä tehostin- ja vaimenninalueet. ATAC-sekvensointi on sekvensointimenetelmä, jonka avulla voidaan tutkia kromatiinin avoimuutta genomin laajuisesti. Avoimet kromatiinikohdat, joita ATAC-sekvensoinnilla saavutetaan, sisältävät genomin aktiiviset alueet, minkä vuoksi se on hyvä menetelmä tutkia aktiivisia ei-koodaavia alueita.
Tämän tutkielman ensimmäisenä tavoitteena oli suorittaa varianttien kutsuminen sopivilla parametreillä ATAC-sekvensoidusta datasta. Toinen tavoite oli selvittää eri transkriptiofaktorien sitoutumisalueiden yleiset variantit. Kolmas tavoite oli selvittää, kuinka variantit vaikuttavat transkriptiofaktoreiden kykyyn sitoutua sitoutumisalueelle. Tämä tavoite saavutettiin vertaamalla PWM-arvoja normaalin sekvenssin ja mutatoituneen sekvenssin välillä. Päätavoite, joka oli selvittää, jos ja mitkä variantit transkriptiofaktorien sitoutumiskohdissa muuttavat geeniekspressiota, saavutettiin näiden tavoitteiden avulla.
Varianttien laatu oli riittävä. ATAC-sekvensoinnista saaduista varianteista mediaaniprosentiltaan 91,4 % löytyi myös koko genomin sekvensoinnin varianteista. Viisi yleisintä transkriptiofaktorin sitoutumiskohtaa kaikille solulinjoille oli CTCF, AR, ESR1, FOXA1 ja MYC ja eturauhasen solulinjoille AR, FOXA1, ERG, CTCF ja E2F1. Wilcoxonin järjestyssummatestin ja Benjamini-Hochbergin monen testin korjaamismenetelmän geenien näyteryhmille variantilla ja ilman jälkeen jäljelle jäi 443 geeniä, joiden p-arvo oli alle 0,05. Näistä geeneistä kahdeksaa pidettiin merkityksellisenä kolmessa transkriptiofaktorissa ja 112:ta kahdessa transkriptiofaktorissa. Kahdeksan geeniä, jotka löytyivät kolmesta transkriptiofaktorista, olivat ZNF195, RFXANK, PTPN3, MAP4K5, KRIT1, ITGAL, DDX17 ja AHCY. Aikaisempien tutkimusten mukaan ITGAL, DDX17 ja AHCY toimivat jonkinlaisessa roolissa eturauhassyövän kehityksessä.
Näiden transkriptiofaktorien sitoutumiskohtien varianttien merkityksen ymmärtäminen geeniekspression säätelyssä vaatisi lisätutkimuksia. Tämä voisi tarkoittaa esimerkiksi STARR-sekvensoinnin käyttämistä tutkiakseen tehostinalueita suoraan ja määrällisesti
In many cases, the effects of noncoding regions of the genome on gene expression are unclear. Noncoding regions include many essential parts of gene expression regulation, such as promoters, enhancers, and silencers. ATAC-sequencing is a sequencing method used to study chromatin accessibility genome-wide. Open chromatin peaks accessed by ATAC-sequencing contain active parts of the genome, which is why it is a suitable method to study active noncoding regions.
The first aim of this Master’s thesis was to perform variant calling with suitable parameters to ATAC-seq. The second aim was to discover common variants within different TFBSs. The third aim was to find out how variants affect the ability of TF to bind to its binding site. This aim was accomplished by comparing PWM scores of wild types and mutated sequences. The main objective, to discover if and which variants in TFBS can change the gene expression close to these regulatory areas, was accomplished by the three aims.
Variant calling was performed with sufficient quality, with the median percentage of ATAC-sequencing variants found from whole genome sequencing variants to be 91.4 %. The five most common transcription factor binding sites for all cell lines and prostate cell lines were CTCF, AR, ESR1, FOXA1, and MYC, and AR, FOXA1, ERG, CTCF, and E2F1, respec-tively. After running Wilcoxon rank-sum test and Benjamini-Hochberg multiple testing correction for each gene in samples with and without the variant, 443 genes had a p-value less than 0.05. Out of these, eight were considered significant in three transcription factors and 112 in two transcription factors. The eight genes present in three transcription factor binding sites were ZNF195, RFXANK, PTPN3, MAP4K5, KRIT1, ITGAL, DDX17, and AHCY. Previous studies of ITGAL, DDX17, and AHCY stated that these genes have a role in prostate cancer development.
To understand whether the variants in transcription factor binding sites were actually the cause of changes in gene expression, more studies would be required. These methods could be, for example, using STARR-sequencing to directly and quantitatively estimate enhancer activity.
Genomin ei-koodaavien alueiden vaikutus geeniekspressioon on monissa tapauksissa epäselvä. Ei-koodaaviin alueisiin kuuluu monia geeniekspression säätelyn kannalta tärkeitä alueita, kuten promoottorit sekä tehostin- ja vaimenninalueet. ATAC-sekvensointi on sekvensointimenetelmä, jonka avulla voidaan tutkia kromatiinin avoimuutta genomin laajuisesti. Avoimet kromatiinikohdat, joita ATAC-sekvensoinnilla saavutetaan, sisältävät genomin aktiiviset alueet, minkä vuoksi se on hyvä menetelmä tutkia aktiivisia ei-koodaavia alueita.
Tämän tutkielman ensimmäisenä tavoitteena oli suorittaa varianttien kutsuminen sopivilla parametreillä ATAC-sekvensoidusta datasta. Toinen tavoite oli selvittää eri transkriptiofaktorien sitoutumisalueiden yleiset variantit. Kolmas tavoite oli selvittää, kuinka variantit vaikuttavat transkriptiofaktoreiden kykyyn sitoutua sitoutumisalueelle. Tämä tavoite saavutettiin vertaamalla PWM-arvoja normaalin sekvenssin ja mutatoituneen sekvenssin välillä. Päätavoite, joka oli selvittää, jos ja mitkä variantit transkriptiofaktorien sitoutumiskohdissa muuttavat geeniekspressiota, saavutettiin näiden tavoitteiden avulla.
Varianttien laatu oli riittävä. ATAC-sekvensoinnista saaduista varianteista mediaaniprosentiltaan 91,4 % löytyi myös koko genomin sekvensoinnin varianteista. Viisi yleisintä transkriptiofaktorin sitoutumiskohtaa kaikille solulinjoille oli CTCF, AR, ESR1, FOXA1 ja MYC ja eturauhasen solulinjoille AR, FOXA1, ERG, CTCF ja E2F1. Wilcoxonin järjestyssummatestin ja Benjamini-Hochbergin monen testin korjaamismenetelmän geenien näyteryhmille variantilla ja ilman jälkeen jäljelle jäi 443 geeniä, joiden p-arvo oli alle 0,05. Näistä geeneistä kahdeksaa pidettiin merkityksellisenä kolmessa transkriptiofaktorissa ja 112:ta kahdessa transkriptiofaktorissa. Kahdeksan geeniä, jotka löytyivät kolmesta transkriptiofaktorista, olivat ZNF195, RFXANK, PTPN3, MAP4K5, KRIT1, ITGAL, DDX17 ja AHCY. Aikaisempien tutkimusten mukaan ITGAL, DDX17 ja AHCY toimivat jonkinlaisessa roolissa eturauhassyövän kehityksessä.
Näiden transkriptiofaktorien sitoutumiskohtien varianttien merkityksen ymmärtäminen geeniekspression säätelyssä vaatisi lisätutkimuksia. Tämä voisi tarkoittaa esimerkiksi STARR-sekvensoinnin käyttämistä tutkiakseen tehostinalueita suoraan ja määrällisesti