Yksittäisten solujen RNA-sekvensointidatan klusterointi
Salonen, Reko (2021)
Salonen, Reko
2021
Bioteknologian kandidaattiohjelma - Bachelor's Programme in Biotechnology
Lääketieteen ja terveysteknologian tiedekunta - Faculty of Medicine and Health Technology
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2021-05-03
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:tuni-202104263539
https://urn.fi/URN:NBN:fi:tuni-202104263539
Tiivistelmä
Yksittäisten solujen RNA-sekvensointidata (scRNA-sekvensointidata) on niukan RNA-lähtömateriaalin takia paljon häiriösignaaleja ja puuttuvaa tietoa sisältävä aineisto. Tämän tuoreen teknologian pohjalta voidaan kuitenkin tarkastella ihmisen elimistön kudoksia ennennäkemättömällä tarkkuudella. Ainutlaatuisen datatyypin hyödyntämiseksi on tärkeää kehittää tietokoneella tapahtuvaa analyysityönkuvaa. Siinä keskiössä on aineiston klusterointi, sillä siihen pohjautuu suuri osa jatkoanalyyseista, joiden perusteella tehdään lopullisia päätelmiä kudoksen toiminnasta. Klusterointi on hyvin tunnettu koneoppimisen tieteenalan menetelmä, jonka tarkoituksena on ryhmitellä samanlaiset aineiston havainnot yhteen. Yksittäisten solujen RNA-sekvensointidatan kohdalla tämä tarkoittaa transkriptomiltaan samanlaisten solujen, tyypillisesti samojen solutyyppien, ryhmittelemistä yhteen.
Tässä työssä tarkoituksena oli tutustua korkeaulotteisen eturauhasen scRNA-sekvensointidatan klusterointiin ja saada se onnistumaan niin, että klusterit edustaisivat kudoksen solubiologiaa. Tavoitteena oli siis saada klusteroinnilla muodostumaan solurykelmät, jotka vastaisivat eturauhasen solutyyppejä, eivätkä esimerkiksi teknistä tai biologista häiriösignaalia. Korkeaulotteisen datan käsittelyssä haasteena on solujen välisten etäisyyksien merkityksen pieneneminen, mikä hankaloittaa solujen eroavaisuuksien ja yhtäläisyyksien havaitsemista. Lisäksi korkeaulotteisen aineiston käyttäminen sellaisenaan vaatisi tietokoneelta paljon muistia ja laskentatehoa, ja joka tapauksessa analyysivaiheet kestäisivät huomattavan kauan. Tähän haasteeseen tässä työssä vastattiin ulotteisuuden pienentämisellä eli dimensioreduktiolla.
Ulotteisuutta aineistossa pienennettiin paljon varioivien geenien valinnalla, mikä myös vahvistaa biologisesti merkittävää signaalia. Keskeisimpänä menetelmänä dimensioreduktiossa käytettiin pääkomponenttianalyysia (PCA), joka pyrkii puristamaan alkuperäisessä aineistossa olevan informaation pienempään määrään muuttujia, joita kutsutaan pääkomponenteiksi. Näistä valittiin jatkoon informatiivisimmat, joiden avulla suoritettiin graafipohjainen klusterointi. Graafipohjainen klusterointi toteutettiin luomalla ensin jaetun lähimmän naapurin graafi eli verkkorakenne, joka sitten eroteltiin samankaltaisten solujen rykelmiksi Louvainin algoritmilla. Lopuksi klusteroinnin onnistumista tarkasteltiin kaksiulotteisesti epälineaarisen UMAP-dimensioreduktion avulla.
Käytetyllä työnkuvalla saatiin aikaiseksi onnistunut klusterointi, joka erotteli eturauhasen erilaiset solutyypit toisistaan. Tämä pystyttiin havaitsemaan geenimarkkereiden ilmenemisen visualisoinnilla kaksiulotteisessa UMAP-koordinaatistossa. Klustereiden vastaavuus tarkasteltavan kudoksen solubiologiaan onkin tärkeä varmistaa jälkikäteen. Koko klusterointiprosessin havaittiin olevan aikaa vievää ja osin subjektiivista. Tämä johtuu muun muassa yksikäsitteisen ratkaisun puuttumisesta dimensioreduktiolla saatujen pääkomponenttien ja klusterointiresoluutioarvon valinnassa. Tulevaisuudessa saadaan toivottavasti luotua yhtenäistettyä työnkuvaa erilaisilla scRNA-sekvensointiprotokollilla tuotetuille erikokoisille aineistoille, mikä nopeuttaisi analyysia ja tekisi tuloksista vertailukelpoisempia.
Tässä työssä tarkoituksena oli tutustua korkeaulotteisen eturauhasen scRNA-sekvensointidatan klusterointiin ja saada se onnistumaan niin, että klusterit edustaisivat kudoksen solubiologiaa. Tavoitteena oli siis saada klusteroinnilla muodostumaan solurykelmät, jotka vastaisivat eturauhasen solutyyppejä, eivätkä esimerkiksi teknistä tai biologista häiriösignaalia. Korkeaulotteisen datan käsittelyssä haasteena on solujen välisten etäisyyksien merkityksen pieneneminen, mikä hankaloittaa solujen eroavaisuuksien ja yhtäläisyyksien havaitsemista. Lisäksi korkeaulotteisen aineiston käyttäminen sellaisenaan vaatisi tietokoneelta paljon muistia ja laskentatehoa, ja joka tapauksessa analyysivaiheet kestäisivät huomattavan kauan. Tähän haasteeseen tässä työssä vastattiin ulotteisuuden pienentämisellä eli dimensioreduktiolla.
Ulotteisuutta aineistossa pienennettiin paljon varioivien geenien valinnalla, mikä myös vahvistaa biologisesti merkittävää signaalia. Keskeisimpänä menetelmänä dimensioreduktiossa käytettiin pääkomponenttianalyysia (PCA), joka pyrkii puristamaan alkuperäisessä aineistossa olevan informaation pienempään määrään muuttujia, joita kutsutaan pääkomponenteiksi. Näistä valittiin jatkoon informatiivisimmat, joiden avulla suoritettiin graafipohjainen klusterointi. Graafipohjainen klusterointi toteutettiin luomalla ensin jaetun lähimmän naapurin graafi eli verkkorakenne, joka sitten eroteltiin samankaltaisten solujen rykelmiksi Louvainin algoritmilla. Lopuksi klusteroinnin onnistumista tarkasteltiin kaksiulotteisesti epälineaarisen UMAP-dimensioreduktion avulla.
Käytetyllä työnkuvalla saatiin aikaiseksi onnistunut klusterointi, joka erotteli eturauhasen erilaiset solutyypit toisistaan. Tämä pystyttiin havaitsemaan geenimarkkereiden ilmenemisen visualisoinnilla kaksiulotteisessa UMAP-koordinaatistossa. Klustereiden vastaavuus tarkasteltavan kudoksen solubiologiaan onkin tärkeä varmistaa jälkikäteen. Koko klusterointiprosessin havaittiin olevan aikaa vievää ja osin subjektiivista. Tämä johtuu muun muassa yksikäsitteisen ratkaisun puuttumisesta dimensioreduktiolla saatujen pääkomponenttien ja klusterointiresoluutioarvon valinnassa. Tulevaisuudessa saadaan toivottavasti luotua yhtenäistettyä työnkuvaa erilaisilla scRNA-sekvensointiprotokollilla tuotetuille erikokoisille aineistoille, mikä nopeuttaisi analyysia ja tekisi tuloksista vertailukelpoisempia.
Kokoelmat
- Kandidaatintutkielmat [8996]