Generatiiviset mallit de novo -lääkekehityksessä : katsaus RNN-, AE- ja GAN-sovelluksiin
Kärnä, Joonas (2024)
Kärnä, Joonas
2024
Tietojenkäsittelytieteiden kandidaattiohjelma - Bachelor's Programme in Computer Sciences
Informaatioteknologian ja viestinnän tiedekunta - Faculty of Information Technology and Communication Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2024-12-11
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:tuni-2024112610525
https://urn.fi/URN:NBN:fi:tuni-2024112610525
Tiivistelmä
Lääkekehitys on kallis ja aikaa vievä prosessi. Lääkemäisiä molekyyliyhdisteitä arvellaan olevan 10³³. Prosessia voidaan helpottaa generatiivisten mallien avulla, joilla voidaan löytää sopivia molekyyliyhdisteitä halutuilla ominaisuuksilla. Generatiivisiin malleihin perustuvaa lääkekehitystä kutsutaan De Novo lääkekehitykseksi. Tässä työssä on tehty katsaus kolmeen generatiiviseen malliin: takaisinkytkeytyvät neuroverkot (RNN), generatiiviset kilpailevat verkot (GAN) ja autokooderit (AE). Työn tavoite on selvittää, kuinka malleja sovelletaan molekyylien löytämiseen.
Työssä ensin esitellään generatiiviset mallit. Takaisinkytkeytyvistä neuroverkoista esitetään perusominaisuudet, sekä esitellään pitkäkestoinen lyhytkestomuisti -arkkitehtuuri (LSTM) ja GRU porttiyksikkö -arkkitehtuuri. Lisäksi esitetään autokooderin perusominaisuudet, sekä tästä kehittyneempi versio variaationaalinen autokooderi (VAE), joka hyödyntää Bayesilaista todennäköisyyttä. Lisäksi esitetään generatiivisten kilpailevien verkkojen toiminta.
Työn toisessa osassa käydään läpi esiteltyjen mallien sovelluksia. Takaisinkytkeytyvistä neuroverkoista käytetyin arkkitehtuuri oli LSTM-arkkitehtuuri, joka oli myös tehokkain RNN, kun otetaan huomioon ominaisuudet kuten molekyylien uniikkius, kelvollisuus ja syntetisoitavuus. GAN-arkkitehtuurissa suurin ongelma on mode collapse, jossa neuroverkko ei tuota monimuotoisia molekyyliavaruuksia datamäärän kasvaessa. Tähän ongelmaan ei onnistuttu löytämään ratkaisua vaikkakin malli onnistui luomaan monimuotoisia molekyylejä. Autokoodereissa usein yhdisteltiin edellä esiteltyjä neuroverkkoja ja onnistuttiin luomaan molekyylejä tehokkaasti.
Kaikissa sovelluksissa molekyylejä kehiteltiin SMILES-merkkijonoina mutta tämä merkintätapa osoittautui puutteelliseksi eikä sillä voida esittää molekyylien rakenteita täydellisesti. Lisäksi huomattiin, että tieteellisissä julkaisuissa ei ole yhtenäistä tapaa vertailla mallien luomien molekyylien soveltuvuutta tai tapaa vertailla malleja keskenään.
Työssä ensin esitellään generatiiviset mallit. Takaisinkytkeytyvistä neuroverkoista esitetään perusominaisuudet, sekä esitellään pitkäkestoinen lyhytkestomuisti -arkkitehtuuri (LSTM) ja GRU porttiyksikkö -arkkitehtuuri. Lisäksi esitetään autokooderin perusominaisuudet, sekä tästä kehittyneempi versio variaationaalinen autokooderi (VAE), joka hyödyntää Bayesilaista todennäköisyyttä. Lisäksi esitetään generatiivisten kilpailevien verkkojen toiminta.
Työn toisessa osassa käydään läpi esiteltyjen mallien sovelluksia. Takaisinkytkeytyvistä neuroverkoista käytetyin arkkitehtuuri oli LSTM-arkkitehtuuri, joka oli myös tehokkain RNN, kun otetaan huomioon ominaisuudet kuten molekyylien uniikkius, kelvollisuus ja syntetisoitavuus. GAN-arkkitehtuurissa suurin ongelma on mode collapse, jossa neuroverkko ei tuota monimuotoisia molekyyliavaruuksia datamäärän kasvaessa. Tähän ongelmaan ei onnistuttu löytämään ratkaisua vaikkakin malli onnistui luomaan monimuotoisia molekyylejä. Autokoodereissa usein yhdisteltiin edellä esiteltyjä neuroverkkoja ja onnistuttiin luomaan molekyylejä tehokkaasti.
Kaikissa sovelluksissa molekyylejä kehiteltiin SMILES-merkkijonoina mutta tämä merkintätapa osoittautui puutteelliseksi eikä sillä voida esittää molekyylien rakenteita täydellisesti. Lisäksi huomattiin, että tieteellisissä julkaisuissa ei ole yhtenäistä tapaa vertailla mallien luomien molekyylien soveltuvuutta tai tapaa vertailla malleja keskenään.
Kokoelmat
- Kandidaatintutkielmat [8907]