Koneoppimismalli ennustamaan transmembraaniproteiinien partitioitumista faasiseparoituneessa solukalvomallissa
Liimatainen, Jarkko (2025)
Liimatainen, Jarkko
2025
Tekniikan ja luonnontieteiden kandidaattiohjelma - Bachelor's Programme in Engineering and Natural Sciences
Tekniikan ja luonnontieteiden tiedekunta - Faculty of Engineering and Natural Sciences
Hyväksymispäivämäärä
2025-05-05
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:tuni-202505054728
https://urn.fi/URN:NBN:fi:tuni-202505054728
Tiivistelmä
Eläinsolujen solukalvo koostuu lipidi- eli rasva-ainekaksoiskerroksesta, joka sisältää erilaisia proteiineja ja hiilihydraatteja. Lipidikaksoiskerros ei ole homogeeninen, vaan sisältää nanoskaalan heterogeenisuutta. Kokeissa ja simulaatioissa tätä mallinnettaan kahdella lipidifaasilla: järjestyneellä ja epäjärjestyneellä.
Solukalvon proteiinit vastaavat isolta osalta solujen aineenvaihdunnasta, viestinnästä ja esimerkiksi immuunivasteesta. Erityisesti solukalvon läpäisevät proteiinien osat, transmembraanipeptidit, näyttäisivät rakenteensa ja ominaisuuksien perusteella suosivan lipidifaaseista jompaa kumpaa tai niiden rajapintaa. Tällä proteiinien partitioitumisella solukalvon eri faaseilla uskotaan olevan merkittävä vaikutus niiden toiminnallisuuteen ja tehokkuuteen.
Partitioitumista on tutkittu yksittäisten peptidien tasolla ja joitain tekijöitä ilmiön taustalla on tunnistettu. Kuitenkaan kattavaa mallia tai mekanismia ei tunneta, eikä analyysiä partitioitumisesta ole juurikaan tehty isommille peptidijoukoille.
Tämän kandidaatintyön tarkoituksena on luoda koneoppimismalli ennustamaan transmembraanipeptidien partitioitumista faasiseparoituneessa solukalvomallissa. Mallin opetusdataksi on ajettu 3200 kahden lipidifaasin Martini-simulaatiota erilaisille peptideille. Simulaatioiden pohjalta partitioitumista arvioitiin tarkastelemalla peptidin lähiympäristöä. Kaikki simuloidut peptidit olivat sekvenssiltään samanpituisia koostuen 21:stä aminohaposta.
Pelkkä puhtaan simulaatiodatan analyysi osoittaa, ettei työssä löydetty selkeästi järjestyneeseen faasiin partitioituvia peptidejä. Vaihtoehtona on, ettei tutkittu peptidijoukko sisällä yhtäkään järjestyneeseen faasiin partitioituvaa peptidiä tai sitten kyseinen simulaatiomalli ei kykene niitä tunnistamaan. Laaja simulaatiodata vaatii tarkempaa analyysiä ja sen perusteella voitaisiin tutkia lisää esimerkiksi peptidien taitekulmaa ja hydrofobisuutta sekä solukalvon faasien rajapintoja ja ominaisuuksia.
Koneoppimismallina käytettiin \textit{multilayer perceptron} -neuroverkkoa. Työssä demonstroitiin mallin potentiaali tunnistaa partitioitumistekijöitä sekä yleistyä myös opetusdatan ulkopuolelle. Malli antaa loogisia ja fysikaalisesti mielekkäitä ennusteita, mutta johtuen opetusdatan kyseenalaisesta validiteetistä, se vaatii vielä jatkokehitystä. Selkeimpänä askeleena olisi laajentaa opetusdata käsittämään myös eri mittaisia peptidejä. Mammalian cell membranes consist of a lipid bilayer which includes various proteins and carbohydrates. The lipid bilayer is not homogeneous, but includes nanoscale heterogeneity, which is often modeled as two lipid phases, namely, liquid disordered and liquid ordered phases, also referred to as lipid rafts. Membrane proteins play a crucial role in cell metabolism, communication, and immune response. Especially, transmembrane domains of proteins or transmembrane peptides seem to favor either a certain lipid phase or the phase boundary. This preferential partitioning may, in turn, have a major impact on the functionality and effectiveness of transmembrane proteins.
Previous research has focused on single-peptide-level studies and some underlying partitioning factors have been identified. However, a complete understanding of the phenomenon or a comprehensive partitioning model remain to be discovered. Furthermore, analysis of larger sets of peptides is rare.
The scope of this thesis is to create a machine learning model to predict the partitioning of transmembrane peptides in the phase-separated cell membrane model. Training data is acquired from Martini-type molecular dynamic simulations of 3200 different peptides with sequence length fixed to 21 amino acids. The preferred lipid phase was determined by analyzing the neighboring lipid composition.
The analysis of pure simulation data shows that, in this study, no explicitly raft-partitioning peptides were observed. Either the set of fixed-length peptides does not include any raft partitioning samples, or the Martini model is not capable of identifying such structures. However, the large simulated data set requires further analysis and also offers the possibility to study, for example, the tilt angle and hydrophobicity of the peptides along with the properties of the lipid phases and phase boundaries.
For predicting peptide partitioning, a simple multilayer perceptron neural network structure was created and trained. The thesis demonstrates the significant potential and ability of the machine learning model to identify partitioning factors and generalize outside of the training data. The model provides logical and reasonable predictions, but due to the questionable validity of the simulated training data, it also requires further improvement. The natural next step is to generalize the model to various peptide sequence lengths.
Solukalvon proteiinit vastaavat isolta osalta solujen aineenvaihdunnasta, viestinnästä ja esimerkiksi immuunivasteesta. Erityisesti solukalvon läpäisevät proteiinien osat, transmembraanipeptidit, näyttäisivät rakenteensa ja ominaisuuksien perusteella suosivan lipidifaaseista jompaa kumpaa tai niiden rajapintaa. Tällä proteiinien partitioitumisella solukalvon eri faaseilla uskotaan olevan merkittävä vaikutus niiden toiminnallisuuteen ja tehokkuuteen.
Partitioitumista on tutkittu yksittäisten peptidien tasolla ja joitain tekijöitä ilmiön taustalla on tunnistettu. Kuitenkaan kattavaa mallia tai mekanismia ei tunneta, eikä analyysiä partitioitumisesta ole juurikaan tehty isommille peptidijoukoille.
Tämän kandidaatintyön tarkoituksena on luoda koneoppimismalli ennustamaan transmembraanipeptidien partitioitumista faasiseparoituneessa solukalvomallissa. Mallin opetusdataksi on ajettu 3200 kahden lipidifaasin Martini-simulaatiota erilaisille peptideille. Simulaatioiden pohjalta partitioitumista arvioitiin tarkastelemalla peptidin lähiympäristöä. Kaikki simuloidut peptidit olivat sekvenssiltään samanpituisia koostuen 21:stä aminohaposta.
Pelkkä puhtaan simulaatiodatan analyysi osoittaa, ettei työssä löydetty selkeästi järjestyneeseen faasiin partitioituvia peptidejä. Vaihtoehtona on, ettei tutkittu peptidijoukko sisällä yhtäkään järjestyneeseen faasiin partitioituvaa peptidiä tai sitten kyseinen simulaatiomalli ei kykene niitä tunnistamaan. Laaja simulaatiodata vaatii tarkempaa analyysiä ja sen perusteella voitaisiin tutkia lisää esimerkiksi peptidien taitekulmaa ja hydrofobisuutta sekä solukalvon faasien rajapintoja ja ominaisuuksia.
Koneoppimismallina käytettiin \textit{multilayer perceptron} -neuroverkkoa. Työssä demonstroitiin mallin potentiaali tunnistaa partitioitumistekijöitä sekä yleistyä myös opetusdatan ulkopuolelle. Malli antaa loogisia ja fysikaalisesti mielekkäitä ennusteita, mutta johtuen opetusdatan kyseenalaisesta validiteetistä, se vaatii vielä jatkokehitystä. Selkeimpänä askeleena olisi laajentaa opetusdata käsittämään myös eri mittaisia peptidejä.
Previous research has focused on single-peptide-level studies and some underlying partitioning factors have been identified. However, a complete understanding of the phenomenon or a comprehensive partitioning model remain to be discovered. Furthermore, analysis of larger sets of peptides is rare.
The scope of this thesis is to create a machine learning model to predict the partitioning of transmembrane peptides in the phase-separated cell membrane model. Training data is acquired from Martini-type molecular dynamic simulations of 3200 different peptides with sequence length fixed to 21 amino acids. The preferred lipid phase was determined by analyzing the neighboring lipid composition.
The analysis of pure simulation data shows that, in this study, no explicitly raft-partitioning peptides were observed. Either the set of fixed-length peptides does not include any raft partitioning samples, or the Martini model is not capable of identifying such structures. However, the large simulated data set requires further analysis and also offers the possibility to study, for example, the tilt angle and hydrophobicity of the peptides along with the properties of the lipid phases and phase boundaries.
For predicting peptide partitioning, a simple multilayer perceptron neural network structure was created and trained. The thesis demonstrates the significant potential and ability of the machine learning model to identify partitioning factors and generalize outside of the training data. The model provides logical and reasonable predictions, but due to the questionable validity of the simulated training data, it also requires further improvement. The natural next step is to generalize the model to various peptide sequence lengths.
Kokoelmat
- Kandidaatintutkielmat [10929]
