Concordance between Pathway Databases and Refinement of Pathways for Computational Analysis
LEVO, TIIA (2012)
LEVO, TIIA
2012
Biokemia - Biochemistry
Biolääketieteellisen teknologian yksikkö - Institute of Biomedical Technology
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2012-05-23
Julkaisun pysyvä osoite on
https://urn.fi/urn:nbn:fi:uta-1-22496
https://urn.fi/urn:nbn:fi:uta-1-22496
Tiivistelmä
Tutkimuksen tausta ja tavoitteet: Biologiassa tutkimus suuntautuu kokoajan kohti systeemitason tutkimusta. Enää ei tutkita vain yhtä tai muutamaa geeniä, vaan keskitytään kokonaisuuteen, jossa ne esiintyvät. Signalointireitit ovat hyödyllinen tapa kuvata tapahtumia, joita systeemissä ilmenee. Signalointireitit asettavat geenit suurempaan biologiseen kontekstiin, tämä on tärkeää, kun tehdään kvantitatiivista mallinnusta. Signalointireittejä on kerätty tietokantoihin, jotka voivat olla joko maksullisia tai ilmaisia käyttäjille. Ongelmana on kuitenkin, että tietokantojen välillä signalointireiteissä esiintyy paljon epäyhdenmukaisuuksia. Tutkielmani tarkoituksena oli käydä läpi näitä tietokantoja ja luoda kattava signalointireittien datasetti useista lähteistä. Toisena tavoitteena oli löytää soveltuvat laskennallinen mitta, jolla samankaltaiset signalointireitit voidaan yhdistää. Viimeinen tavoite oli klusteroida signalointireitit siten, että samankaltaiset reitit muodostavat yhtenäisen klusterin.
Tutkimusmenetelmät: Aineisto kerättiin kolmesta vapaasti saatavilla olevasta tietokannasta: KEGG:sta, PathwayCommonsista ja WikiPathwaysista. Tieto ei ollut lähteissä samankaltaisessa muodossa, vaan sitä täytyi käsitellä siten, että se voitiin esittää yhtenevässä muodossa yksittäisessä tiedostossa ja sitä voitiin käsitellä yhtenä. Signalointireiteissä geenejä kuvattiin virallisilla HUGO symboleilla. Kaikki käytetty aineisto oli kohdennettu ihmiseen.
Tutkimustulokset: Tutkimuksen tarkoituksena oli löytää sopiva etäisyysmittari, jolla signalointireitit, joilla on eniten yhteneväisyyksiä voitaisiin yhdistää. Sopivin etäisyysmitta löytyi, kun reittien yhteisten geenien määrä jaettiin erikseen kummankin reitin pituudella ja luvut laskettiin yhteen (kaava 3). Tulosta käytettiin signalointireittien hierarkiseen klusterointiin. Vaikuttaa siltä, että signalointireitit klusteroituvat hyvin.
Johtopäätökset: Havaitsimme, että tarjolla olevien tietokantojen yhteneväisyys on erittäin huonoa. Valitsemalla sopiva etäisyysmitta, onnistuimme yhdistämään eri tietokantojen samankaltaiset signalointireitit automaattisesti.
Tutkimusmenetelmät: Aineisto kerättiin kolmesta vapaasti saatavilla olevasta tietokannasta: KEGG:sta, PathwayCommonsista ja WikiPathwaysista. Tieto ei ollut lähteissä samankaltaisessa muodossa, vaan sitä täytyi käsitellä siten, että se voitiin esittää yhtenevässä muodossa yksittäisessä tiedostossa ja sitä voitiin käsitellä yhtenä. Signalointireiteissä geenejä kuvattiin virallisilla HUGO symboleilla. Kaikki käytetty aineisto oli kohdennettu ihmiseen.
Tutkimustulokset: Tutkimuksen tarkoituksena oli löytää sopiva etäisyysmittari, jolla signalointireitit, joilla on eniten yhteneväisyyksiä voitaisiin yhdistää. Sopivin etäisyysmitta löytyi, kun reittien yhteisten geenien määrä jaettiin erikseen kummankin reitin pituudella ja luvut laskettiin yhteen (kaava 3). Tulosta käytettiin signalointireittien hierarkiseen klusterointiin. Vaikuttaa siltä, että signalointireitit klusteroituvat hyvin.
Johtopäätökset: Havaitsimme, että tarjolla olevien tietokantojen yhteneväisyys on erittäin huonoa. Valitsemalla sopiva etäisyysmitta, onnistuimme yhdistämään eri tietokantojen samankaltaiset signalointireitit automaattisesti.