Solutyyppien annotointi Scanpy-ohjelmistolla
Paltemaa, Lotta-Kaisa (2025)
Paltemaa, Lotta-Kaisa
2025
Bioteknologian ja biolääketieteen tekniikan kandidaattiohjelma - Bachelor's Programme in Biotechnology and Biomedical Engineering
Lääketieteen ja terveysteknologian tiedekunta - Faculty of Medicine and Health Technology
Hyväksymispäivämäärä
2025-01-08
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:tuni-202501081226
https://urn.fi/URN:NBN:fi:tuni-202501081226
Tiivistelmä
Tässä kandidaatintutkielmassa tarkastellaan Scanpy-ohjelmiston tehokkuutta yksisolusekvensointidatan solutyyppien määrittelemisessä eturauhassyöpäpotilaiden näytteistä. Yksisolu-RNA-sekvensoinnilla saadaan hyödyllistä informaatiota solujen geneettisistä profiileista sekä toiminnasta, mikä on tärkeää sairauksien biologisen taustan ja patogeneesin ymmärtämisessä. Useissa sairauksissa kuten eturauhassyövässä kudos on heterogeeninen eli sisältää useita solutyyppejä. Yksisolusekvensoinnilla saadaan tarkasteltua yksittäisten solujen geneettistä profiilia, jonka avulla voidaan määritellä kudoksesta näitä erilaisia solutyyppejä ja tutkia kudoksen heterogeenisyyttä. Näin saadaan määriteltyä eri solutyyppien osuus eturauhaskudoksessa.
Työssä yksisolusekvensointidatan analysointiin ja visualisointiin käytettiin Scanpy-ohjelmistoa. Scanpy on Python-pohjainen kirjasto, joka tarjoaa algoritmeja yksisolusekvensointidatan käsittelyyn ja analysoimiseen. Yksisolusekvensointidata sisältää kohinaa, on luonteeltaan vaihtelevaa ja korkeaulotteista. Tämän takia tarvitsee dataa ensiksi käsitellä, jotta sen analysoiminen onnistuu. Datalle täytyy suorittaa normalisointi, jonka avulla saadaan poistettua kohinaa. Kohina voi johtua solujen eri ilmentymistasoista, sekvensointisyvyydestä tai sen tehokkuudesta. Normalisointi suoritettiin siirretyllä logaritmilla. Yksisolusekvensointidata on korkeaulotteista, koska yksi näyte sisältää kymmeniä tuhansia soluja ja yksi solu sisältää tuhansia geenejä. Jotta data olisi analysoitavaa, täytyy ulottuvuuksia vähentää kahteen tai kolmeen ulottuvuuteen. Tämä suoritettiin työssä PCA-analyysillä ja matalampi ulottuvuus visualisoitiin t-SNE-menetelmällä. Geneettisesti samankaltaiset solut ryhmiteltiin klustereiksi Leidenin-algoritmilla. Klustereille määritettiin solutyypit niiden merkkigeenien eli muista klustereista erottavien geenien perusteella Wilcoxonin järjestyssummatestillä.
Työ osoitti, että Scanpy toimii tehokkaasti ja luotettavasti yksisolusekvensointidatan käsittelyssä, visualisoinnissa ja analysoinnissa. Scanpyllä pystytään määrittelemään selkeät ja suhteellisen hyvin erottuvat klusterit sekä niille merkkigeenit, jotka vastaavat eturauhassyövän merkkigeenejä. Scanpyllä voidaan käsitellä myös tehokkaasti laajoja tietoaineistoja, kuten tietokantoja, jotka sisältävät tietoja soluista ja niiden merkkigeeneistä. Tietokannan laatu vaikuttaa, kuinka tyypillisiä eturauhasen solutyyppejä saadaan annotoitua. Kuitenkin Scanpyllä määritetyt merkkigeenit ovat eturauhassyöpäsoluille tyypillisiä merkkigeenejä, ja lopullisissa tuloksissa saatiin klustereille määriteltyä odotetut solutyypit. Tutkielma osoittaa Scanpyn tehokkuuden ja potentiaalin yksisolusekvensointidatan analysoinnissa, kuten solutyyppien määrittämisessä.
Työssä yksisolusekvensointidatan analysointiin ja visualisointiin käytettiin Scanpy-ohjelmistoa. Scanpy on Python-pohjainen kirjasto, joka tarjoaa algoritmeja yksisolusekvensointidatan käsittelyyn ja analysoimiseen. Yksisolusekvensointidata sisältää kohinaa, on luonteeltaan vaihtelevaa ja korkeaulotteista. Tämän takia tarvitsee dataa ensiksi käsitellä, jotta sen analysoiminen onnistuu. Datalle täytyy suorittaa normalisointi, jonka avulla saadaan poistettua kohinaa. Kohina voi johtua solujen eri ilmentymistasoista, sekvensointisyvyydestä tai sen tehokkuudesta. Normalisointi suoritettiin siirretyllä logaritmilla. Yksisolusekvensointidata on korkeaulotteista, koska yksi näyte sisältää kymmeniä tuhansia soluja ja yksi solu sisältää tuhansia geenejä. Jotta data olisi analysoitavaa, täytyy ulottuvuuksia vähentää kahteen tai kolmeen ulottuvuuteen. Tämä suoritettiin työssä PCA-analyysillä ja matalampi ulottuvuus visualisoitiin t-SNE-menetelmällä. Geneettisesti samankaltaiset solut ryhmiteltiin klustereiksi Leidenin-algoritmilla. Klustereille määritettiin solutyypit niiden merkkigeenien eli muista klustereista erottavien geenien perusteella Wilcoxonin järjestyssummatestillä.
Työ osoitti, että Scanpy toimii tehokkaasti ja luotettavasti yksisolusekvensointidatan käsittelyssä, visualisoinnissa ja analysoinnissa. Scanpyllä pystytään määrittelemään selkeät ja suhteellisen hyvin erottuvat klusterit sekä niille merkkigeenit, jotka vastaavat eturauhassyövän merkkigeenejä. Scanpyllä voidaan käsitellä myös tehokkaasti laajoja tietoaineistoja, kuten tietokantoja, jotka sisältävät tietoja soluista ja niiden merkkigeeneistä. Tietokannan laatu vaikuttaa, kuinka tyypillisiä eturauhasen solutyyppejä saadaan annotoitua. Kuitenkin Scanpyllä määritetyt merkkigeenit ovat eturauhassyöpäsoluille tyypillisiä merkkigeenejä, ja lopullisissa tuloksissa saatiin klustereille määriteltyä odotetut solutyypit. Tutkielma osoittaa Scanpyn tehokkuuden ja potentiaalin yksisolusekvensointidatan analysoinnissa, kuten solutyyppien määrittämisessä.
Kokoelmat
- Kandidaatintutkielmat [10827]
