Hiiren immuunisolujen luokittelu koneoppimisalgoritmeilla
Simola, Vili (2020)
Simola, Vili
2020
Bioteknologian tutkinto-ohjelma, luonnontieteiden kandidaatin tutkinto - Degree Programme in Biotechnology, Bachelor of Science
Lääketieteen ja terveysteknologian tiedekunta - Faculty of Medicine and Health Technology
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2020-05-18
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:tuni-202004294548
https://urn.fi/URN:NBN:fi:tuni-202004294548
Tiivistelmä
Yksittäisten solujen tuottamien lähetti-RNA:iden (scRNA) sekvensointi on melko uusi sekvensointimenetelmä. Tämän menetelmän avulla pystytään selvittämään tietystä kudoksesta saaduista soluista geenien ilmentyminen yksittäisten solujen tasolla. Tämä eroaa tavanomaisemmasta menetelmästä sekvensoida kaikkien kudoksen solujen tuottama RNA. Menetelmän ongelmana on vielä varmistettujen solutyyppien puuttuminen suurelle osalle sekvensoidusta datasta. Varmistettujen solutyyppien puuttuminen pystytään osittain ratkaisemaan käyttämällä koneoppimisen menetelmiä solutyyppien luokittelussa.
Tässä tutkimuksessa pyrittiin luokittelemaan hiiren dendriittisolujen, CD4+, ja CD8+ T-solujen tuottamaa RNA:ta koneoppimisen mallien avulla. Luokittelu toteutettiin ottamalla ensin aineistosta oleellisimmat vaihtelut pääkomponenttianalyysin avulla. Tämän jälkeen varsinainen luokittelu toteutettiin tukivektorikoneilla, joiden tarkkuutta oli parannettu adaptiivisen tehostuksen avulla. Lopulliseksi tarkkuudeksi kymmenkertaisen ristivalidaation perusteella saatiin parhaimmillaan 99,4% ja huonoimmillaan 95,9%. Tarkkuuden keskiarvoksi tutkimuksessa saatiin 98,4%. Eniten vääriä luokitteluja tapahtui CD4+ T-solujen ja dendriittisolujen välillä. Määrittämällä luokittelijan toiminta ristivalidaatiossa käyttämättömällä datalla saatiin tarkkuudeksi 98,69%. Käytetyillä menetelmillä saatiin siis hyviä tarkkuuksia kolmella eri solutyypillä ja melko pienellä näytekoolla. Tutkimus osoittaa, että luokittelussa voidaan saavuttaa hyvä tarkkuus hyödyntämällä yleisesti käytettyjä koneoppimisen menelmiä. Käytetyissä menetelmissä on kuitenkin myös ongelma. Tutkimuksessa käytetyn kouluttajan kouluttamisen kesto kasvaa suuresti solutyyppien määrän kasvaessa, sillä ilman adaptiivista tehostustakin tukivektorikoneita tarvitaan luokittelussa yksi jokaista solutyyppiä kohden. Tämän lisäksi tarkkuutta parantava adaptiivinen tehostus kasvattaa koulutettavien luokittelijoiden määrää entisestään. Käytetty lähestymistapa ei siis sovellu luokittelemaan suuria määriä eri solutyyppejä.
Tässä tutkimuksessa pyrittiin luokittelemaan hiiren dendriittisolujen, CD4+, ja CD8+ T-solujen tuottamaa RNA:ta koneoppimisen mallien avulla. Luokittelu toteutettiin ottamalla ensin aineistosta oleellisimmat vaihtelut pääkomponenttianalyysin avulla. Tämän jälkeen varsinainen luokittelu toteutettiin tukivektorikoneilla, joiden tarkkuutta oli parannettu adaptiivisen tehostuksen avulla. Lopulliseksi tarkkuudeksi kymmenkertaisen ristivalidaation perusteella saatiin parhaimmillaan 99,4% ja huonoimmillaan 95,9%. Tarkkuuden keskiarvoksi tutkimuksessa saatiin 98,4%. Eniten vääriä luokitteluja tapahtui CD4+ T-solujen ja dendriittisolujen välillä. Määrittämällä luokittelijan toiminta ristivalidaatiossa käyttämättömällä datalla saatiin tarkkuudeksi 98,69%. Käytetyillä menetelmillä saatiin siis hyviä tarkkuuksia kolmella eri solutyypillä ja melko pienellä näytekoolla. Tutkimus osoittaa, että luokittelussa voidaan saavuttaa hyvä tarkkuus hyödyntämällä yleisesti käytettyjä koneoppimisen menelmiä. Käytetyissä menetelmissä on kuitenkin myös ongelma. Tutkimuksessa käytetyn kouluttajan kouluttamisen kesto kasvaa suuresti solutyyppien määrän kasvaessa, sillä ilman adaptiivista tehostustakin tukivektorikoneita tarvitaan luokittelussa yksi jokaista solutyyppiä kohden. Tämän lisäksi tarkkuutta parantava adaptiivinen tehostus kasvattaa koulutettavien luokittelijoiden määrää entisestään. Käytetty lähestymistapa ei siis sovellu luokittelemaan suuria määriä eri solutyyppejä.
Kokoelmat
- Kandidaatintutkielmat [8918]