WORKFLOW FOR COMPUTATIONAL TOXICOGENOMICS DATA ANALYSIS - A study of chemical-induced gene expression using R/Bioconductor
JÄRVELIN, AINO (2009)
JÄRVELIN, AINO
2009
Biokemia - Biochemistry
Lääketieteellinen tiedekunta - Faculty of Medicine
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2009-12-07
Julkaisun pysyvä osoite on
https://urn.fi/urn:nbn:fi:uta-1-20246
https://urn.fi/urn:nbn:fi:uta-1-20246
Tiivistelmä
Background and aims: Toxicity is one of the major causes of failure of compounds in early stages of drug development. Toxicogenomics is a field coupling highthroughput methods and bioinformatics in an attempt of mechanistic understanding and early detection of toxicity. The aim of this thesis was to develop a biocomputational workflow for toxicogenomics data analysis, and, particularly, to test whether classification of toxicants and nontoxicants within a given dataset is possible on the basis of gene expression patterns. Suitability of public data for analyses was to be evaluated.
Methods: Requirements and challenges in the field were identified in the literature. R language and software by the Bioconductor project were used for computational implementation of the workflow. Two large toxicogenomics microarray datasets from the public domain were used for code development and testing.
Results: A toxicogenomics workflow consisting of four main steps is suggested. Cluster analysis supported the assumption that similar compounds produce similar effects on gene expression. Differential expression analysis can provide mechanistic insight into chemical action. Gene set enrichment analysis identified processes correlating well with known mechanisms of action of chemicals. Classification between toxins and nontoxins was not particularly successful but higher discrimination success was obtained with more precisepharmacological and toxicological classes.
Conclusions: Study of the test datasets yielded insight as to how toxicogenomic analyses may be facilitated through machine learning. Toxicity prediction remains challenging. The workflow and tools should be further tested with other datasets and compounds for which detailed toxicological data is available.
Tutkimuksen tausta ja tavoitteet: Toksisuus on yksi merkittävimmistä syistä yhdisteiden epäonnistumiseen lääkekehityksen alkuvaiheen kokeissa. Toksikogenomiikka pyrkii toksisten mekanismien ymmärtämiseen ja toksisuuden aikaiseen havaitsemiseen yhdistämällä highthroughputmenetelmiä ja bioinformatiikkaa. Tämän tutkielman tavoitteena oli kehittää biolaskennallinen protokolla toksikogenomisen datan analyysiin.Päätavoitteena oli tutkia, voidaanko toksiineja ja eitoksiineja luokitella geenien ilmentymistavan perusteella, ja arvioida julkisen aineiston soveltuvuutta tarkoitukseen. Tutkimusmenetelmät: Alan vaatimuksia ja haasteita kartoitettiin kirjallisuuskatsauksen perusteella. Kehitetty protokolla toteutettiin Rohjelmointikielellä ja hyödyntäen Bioconductorprojektin puitteissa kehitettyä ohjelmistoa. Kahta julkisesti saatavilla olevaa mikrosiruaineistoa käytettiin koodin kehittämisessä ja testauksessa.
Tulokset: Kehitetty toksikogenomiikan protokolla koostuu neljästä vaiheesta. Klusterointianalyysi tuki oletusta, että samanlaiset yhdisteet vaikuttavat samalla tavalla geeniekspressioon. Erilailla ilmentyvien geenien määrittäminen voi hyödyttää yhdisteiden vertailua. Tulokset yhdisteiden aiheuttamista muutoksista biologisissa prosesseissa sopivat yhteen niiden tunnettujen mekanismien kanssa. Toksisia ja eitoksisiaaineita ei pystytty erottamaan toisistaan luotettavasti. Sen sijaan tarkempien farmakologisten ja toksikologisten ryhmien ennustaminen oli selkeämpää.
Johtopäätökset: Testiaineistojen analyysi valotti koneoppimismenetelmien hyödyllisyyttä toksikogenomiikan tutkimuksessa. Toksisuuden ennustaminen vaikuttaa haasteelliselta. Protokollaa tulisi testata muilla aineistoilla ja toksikologisesti tarkasti tunnetuilla yhdisteillä.
Methods: Requirements and challenges in the field were identified in the literature. R language and software by the Bioconductor project were used for computational implementation of the workflow. Two large toxicogenomics microarray datasets from the public domain were used for code development and testing.
Results: A toxicogenomics workflow consisting of four main steps is suggested. Cluster analysis supported the assumption that similar compounds produce similar effects on gene expression. Differential expression analysis can provide mechanistic insight into chemical action. Gene set enrichment analysis identified processes correlating well with known mechanisms of action of chemicals. Classification between toxins and nontoxins was not particularly successful but higher discrimination success was obtained with more precisepharmacological and toxicological classes.
Conclusions: Study of the test datasets yielded insight as to how toxicogenomic analyses may be facilitated through machine learning. Toxicity prediction remains challenging. The workflow and tools should be further tested with other datasets and compounds for which detailed toxicological data is available.
Tutkimuksen tausta ja tavoitteet: Toksisuus on yksi merkittävimmistä syistä yhdisteiden epäonnistumiseen lääkekehityksen alkuvaiheen kokeissa. Toksikogenomiikka pyrkii toksisten mekanismien ymmärtämiseen ja toksisuuden aikaiseen havaitsemiseen yhdistämällä highthroughputmenetelmiä ja bioinformatiikkaa. Tämän tutkielman tavoitteena oli kehittää biolaskennallinen protokolla toksikogenomisen datan analyysiin.Päätavoitteena oli tutkia, voidaanko toksiineja ja eitoksiineja luokitella geenien ilmentymistavan perusteella, ja arvioida julkisen aineiston soveltuvuutta tarkoitukseen. Tutkimusmenetelmät: Alan vaatimuksia ja haasteita kartoitettiin kirjallisuuskatsauksen perusteella. Kehitetty protokolla toteutettiin Rohjelmointikielellä ja hyödyntäen Bioconductorprojektin puitteissa kehitettyä ohjelmistoa. Kahta julkisesti saatavilla olevaa mikrosiruaineistoa käytettiin koodin kehittämisessä ja testauksessa.
Tulokset: Kehitetty toksikogenomiikan protokolla koostuu neljästä vaiheesta. Klusterointianalyysi tuki oletusta, että samanlaiset yhdisteet vaikuttavat samalla tavalla geeniekspressioon. Erilailla ilmentyvien geenien määrittäminen voi hyödyttää yhdisteiden vertailua. Tulokset yhdisteiden aiheuttamista muutoksista biologisissa prosesseissa sopivat yhteen niiden tunnettujen mekanismien kanssa. Toksisia ja eitoksisiaaineita ei pystytty erottamaan toisistaan luotettavasti. Sen sijaan tarkempien farmakologisten ja toksikologisten ryhmien ennustaminen oli selkeämpää.
Johtopäätökset: Testiaineistojen analyysi valotti koneoppimismenetelmien hyödyllisyyttä toksikogenomiikan tutkimuksessa. Toksisuuden ennustaminen vaikuttaa haasteelliselta. Protokollaa tulisi testata muilla aineistoilla ja toksikologisesti tarkasti tunnetuilla yhdisteillä.