Impact of Dataset Size in Large Language Model-Based Food-Disease Relation Detection
Säike, Lassi (2024)
Säike, Lassi
2024
Tieto- ja sähkötekniikan kandidaattiohjelma - Bachelor's Programme in Computing and Electrical Engineering
Informaatioteknologian ja viestinnän tiedekunta - Faculty of Information Technology and Communication Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2024-05-27
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:tuni-202405266309
https://urn.fi/URN:NBN:fi:tuni-202405266309
Tiivistelmä
Understanding relations between nutrients and diseases is important for healthcare advice and public health policies. Large amounts of such information is available in different scientific papers, but it is not easily available in a centralized manner. Systems that could automatically extract and describe the relations would be beneficial.
In this thesis, food-disease relation detection is used to predict whether a food and a disease are correlated or not based on sentences extracted from biomedical abstracts. This is an important part of a fully automated system for relation analysis. The effect of dataset size is studied by comparing the performance of 3 different machine learning models in terms of F1-score, precision and recall in their ability to correctly characterize food-disease relations with different-sized datasets. A baseline model based on convolutional neural networks is compared against 2 state-of-the-art pre-trained large language models: RoBERTa, which is pre-trained on general-corpora text, and BiomedBERT, which is pre-trained on scientific text from biomedical abstracts. This thesis aims to answer how much data is required for good performance and how the performance of a general-corpora model compares to that of a biomedical model.
There is only little food-disease relation detection data available, so the models are trained on similar gene-disease data and the performance is measured on both gene-disease data and food-disease data. The datasets contain sentences from biomedical abstracts with annotated entities corresponding to diseases and genes or nutrients, and an associated label corresponding to whether the entities are correlated.
The results show that the models were unable to learn food-disease relation detection, likely because only using gene-disease training data is not enough for the models to generalize to a different relation type. In gene-disease relation detection, BiomedBERT performed the best regardless of dataset size, followed by RoBERTa and the baseline model. All of the models benefited from larger dataset sizes, but both language models were able to outperform the best baseline model with only around 1500 samples. With this dataset size, BiomedBERT reached an F1-score of 0.82 and RoBERTa reached 0.78. With larger dataset sizes, the models reached F1-scores of up to 0.85 and 0.81, respectively. Ruokien ja sairauksien välisten yhteyksien ymmärtäminen on tärkeää esimerkiksi terveysneuvonnan ja terveydenhoidon toimintaperiaatteiden suunnittelussa. Aiheesta on paljon tutkimustietoa, mutta se ei ole helposti saatavissa olevassa muodossa. Tämän takia automaattinen järjestelmä yhteyksien poimimiseen tutkielmista olisi hyödyllinen.
Tässä työssä tunnistetaan ruokien ja sairauksien välisiä korrelaatioita lääketieteellisten tutkielmien tiivistelmistä poimittujen lauseiden perusteella. Tämä on tärkeä osa järjestelmää, joka pystyy poimimaan yhteyksiä täysin automaattisesti. Tunnistus tehdään koneoppimismenetelmien avulla. Käytetyn tietoaineiston koon vaikutusta tutkitaan vertailemalla kolmen eri koneoppimismallin suorituskykyä F1-arvon (eng. F1-score), sisäisen tarkkuuden (eng. precision) ja herkkyyden (eng. recall) avulla erikokoisilla tietoaineistoilla. Konvoluutioneuroverkkoihin perustuvaa perusmallia vertaillaan kahta esikoulutettua suurta kielimallia vastaan, joista toinen on yleisellä kieliaineistolla esikoulutettu RoBERTa ja toinen lääketieteellisten tutkielmien tiivistelmien tekstillä esikoulutettu BiomedBERT. Työ pyrkii vastaamaan siihen, kuinka paljon dataa tarvitaan hyvän suorituskyvyn saavuttamiseksi, ja siihen, miten yleisellä kieliaineistolla koulutetun mallin suorituskyky vertautuu tieteellisellä tekstillä koulutetun mallin suorituskykyyn.
Koulutukseen soveltuvaa ruoka-sairausdataa on saatavilla vain pieni määrä, joten mallit koulutettiin samankaltaisella geeni-sairausdatalla. Mallien suorituskykyä mitattiin sekä geeni-sairaus- että ruoka-sairausdatalla. Tietoaineistot koostuivat lääketieteellisten tutkielmien tiivistelmien lauseista sekä lauseihin liittyvistä merkinnöistä, joissa oli tieto korrelaatioista. Lauseihin oli merkitty myös geenejä ja sairauksia tai ruokia ja sairauksia vastaavat entiteetit.
Tulokset osoittavat, että mallit eivät pysty oppimaan yhteyksien tunnistamista ruokien ja sairauksien välillä. Tämä johtuu todennäköisesti siitä, että ainoastaan geeni-sairausdatan käyttö koulutuksessa ei riitä siihen, että mallit pystyisivät yleistämään oppimaansa eri yhteystyypille. Geenien ja sairauksien välisten yhteyksien tunnistamisessa BiomedBERT suoriutui parhaiten tietoaineiston koosta riippumatta, jonka perässä seurasi RoBERTa ja viimeisenä perusmalli. Kaikki mallit hyötyivät suuremmista tietoaineistoista. Molemmat kielimallit suoriutuivat kuitenkin parasta perusmallia paremmin ainoastaan noin 1500 lauseen tietoaineistolla. Tämän kokoisella tietoaineistolla BiomedBERT saavutti F1-arvon 0.82 ja RoBERTa arvon 0.78. Suuremmilla tietoaineistoilla mallit saavuttivat korkeimmillaan F1-arvot 0.85 ja 0.81 edellä mainitussa järjestyksessä.
In this thesis, food-disease relation detection is used to predict whether a food and a disease are correlated or not based on sentences extracted from biomedical abstracts. This is an important part of a fully automated system for relation analysis. The effect of dataset size is studied by comparing the performance of 3 different machine learning models in terms of F1-score, precision and recall in their ability to correctly characterize food-disease relations with different-sized datasets. A baseline model based on convolutional neural networks is compared against 2 state-of-the-art pre-trained large language models: RoBERTa, which is pre-trained on general-corpora text, and BiomedBERT, which is pre-trained on scientific text from biomedical abstracts. This thesis aims to answer how much data is required for good performance and how the performance of a general-corpora model compares to that of a biomedical model.
There is only little food-disease relation detection data available, so the models are trained on similar gene-disease data and the performance is measured on both gene-disease data and food-disease data. The datasets contain sentences from biomedical abstracts with annotated entities corresponding to diseases and genes or nutrients, and an associated label corresponding to whether the entities are correlated.
The results show that the models were unable to learn food-disease relation detection, likely because only using gene-disease training data is not enough for the models to generalize to a different relation type. In gene-disease relation detection, BiomedBERT performed the best regardless of dataset size, followed by RoBERTa and the baseline model. All of the models benefited from larger dataset sizes, but both language models were able to outperform the best baseline model with only around 1500 samples. With this dataset size, BiomedBERT reached an F1-score of 0.82 and RoBERTa reached 0.78. With larger dataset sizes, the models reached F1-scores of up to 0.85 and 0.81, respectively.
Tässä työssä tunnistetaan ruokien ja sairauksien välisiä korrelaatioita lääketieteellisten tutkielmien tiivistelmistä poimittujen lauseiden perusteella. Tämä on tärkeä osa järjestelmää, joka pystyy poimimaan yhteyksiä täysin automaattisesti. Tunnistus tehdään koneoppimismenetelmien avulla. Käytetyn tietoaineiston koon vaikutusta tutkitaan vertailemalla kolmen eri koneoppimismallin suorituskykyä F1-arvon (eng. F1-score), sisäisen tarkkuuden (eng. precision) ja herkkyyden (eng. recall) avulla erikokoisilla tietoaineistoilla. Konvoluutioneuroverkkoihin perustuvaa perusmallia vertaillaan kahta esikoulutettua suurta kielimallia vastaan, joista toinen on yleisellä kieliaineistolla esikoulutettu RoBERTa ja toinen lääketieteellisten tutkielmien tiivistelmien tekstillä esikoulutettu BiomedBERT. Työ pyrkii vastaamaan siihen, kuinka paljon dataa tarvitaan hyvän suorituskyvyn saavuttamiseksi, ja siihen, miten yleisellä kieliaineistolla koulutetun mallin suorituskyky vertautuu tieteellisellä tekstillä koulutetun mallin suorituskykyyn.
Koulutukseen soveltuvaa ruoka-sairausdataa on saatavilla vain pieni määrä, joten mallit koulutettiin samankaltaisella geeni-sairausdatalla. Mallien suorituskykyä mitattiin sekä geeni-sairaus- että ruoka-sairausdatalla. Tietoaineistot koostuivat lääketieteellisten tutkielmien tiivistelmien lauseista sekä lauseihin liittyvistä merkinnöistä, joissa oli tieto korrelaatioista. Lauseihin oli merkitty myös geenejä ja sairauksia tai ruokia ja sairauksia vastaavat entiteetit.
Tulokset osoittavat, että mallit eivät pysty oppimaan yhteyksien tunnistamista ruokien ja sairauksien välillä. Tämä johtuu todennäköisesti siitä, että ainoastaan geeni-sairausdatan käyttö koulutuksessa ei riitä siihen, että mallit pystyisivät yleistämään oppimaansa eri yhteystyypille. Geenien ja sairauksien välisten yhteyksien tunnistamisessa BiomedBERT suoriutui parhaiten tietoaineiston koosta riippumatta, jonka perässä seurasi RoBERTa ja viimeisenä perusmalli. Kaikki mallit hyötyivät suuremmista tietoaineistoista. Molemmat kielimallit suoriutuivat kuitenkin parasta perusmallia paremmin ainoastaan noin 1500 lauseen tietoaineistolla. Tämän kokoisella tietoaineistolla BiomedBERT saavutti F1-arvon 0.82 ja RoBERTa arvon 0.78. Suuremmilla tietoaineistoilla mallit saavuttivat korkeimmillaan F1-arvot 0.85 ja 0.81 edellä mainitussa järjestyksessä.
Kokoelmat
- Kandidaatintutkielmat [8253]