Bert-pohjainen etävalvottu relaatioluokittelija suomenkieliselle tekstille
Tohni, Patrik (2020)
Tohni, Patrik
2020
Teknis-luonnontieteellinen DI-tutkinto-ohjelma - Degree Programme in Science and Engineering, MSc (Tech)
Tekniikan ja luonnontieteiden tiedekunta - Faculty of Engineering and Natural Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2020-08-24
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:tuni-202008196567
https://urn.fi/URN:NBN:fi:tuni-202008196567
Tiivistelmä
Tässä työssä tavoitteena oli selvittää BERT-pohjaisen neuroverkon kyky luokitella suomenkielisessä tekstissä esiintyviä kahden nimetyn entiteetin välisiä suhteita. Tällaista suomenkielistä relaatioluokittelua tekevää työkalua tai julkaisua ei ollut työn tekoaikaan olemassa.
Ratkaistu relaatioluokittelun ongelma on osa laajempaa relaatioekstraktoinnin tehtävää, jossa pyritään muuntamaan rakenteettomissa tekstidokumenteissa esiintyvää suhdetietoa rakenteelliseen muotoon tietokantaan tallentamista varten. Relaatioekstraktoinnilla pystytään automatisoimaan tekstidokumenttien käsittelyä ja Wikidatan kaltaisten tietokantojen populointia.
Työssä hyödynnettiin siirto-oppimista käyttämällä suomen kielelle esikoulutettua FinBERT-kielimallia. FinBERTin päälle rakennettiin englanninkielisellä materiaalilla menestynyt relaatioluokittelumenetelmä. Suomenkieliseen relaatioluokitteluun ei ollut saatavilla valmista materiaalia, joten koulutusmateriaali kerättiin työn tekemisen ohessa. Lähdemateriaalina käytettiin suomenkielisiä Wikipedia-artikkeleita ja esimerkit annotoitiin automaattisesti etävalvonnaksi kutsutulla menetelmällä.
Työssä koulutettu luokittelija kykeni luokittelemaan jopa 18 eri relaatioluokkaa saavuttaen F1-arvon 94,2 %. Koulutusaikana tarkasteltavien entiteettimainintojen maskituksella todettiin olevan suorituskykyä merkittävästi parantava vaikutus. Työssä kokeiltiin myös esikouluttaa luokittelijalle relaatioiden tunnistamista, minkä oletettiin vähentävän luokittelutehtävän kouluttamisessa tarvittavien esimerkkien määrää. Esikoulutuksella ei kuitenkaan ollut vaikutusta luokittelijan suorituskykyyn, minkä oletetaan johtuneen liian vähäisestä esikoulutuksen määrästä.
Ratkaistu relaatioluokittelun ongelma on osa laajempaa relaatioekstraktoinnin tehtävää, jossa pyritään muuntamaan rakenteettomissa tekstidokumenteissa esiintyvää suhdetietoa rakenteelliseen muotoon tietokantaan tallentamista varten. Relaatioekstraktoinnilla pystytään automatisoimaan tekstidokumenttien käsittelyä ja Wikidatan kaltaisten tietokantojen populointia.
Työssä hyödynnettiin siirto-oppimista käyttämällä suomen kielelle esikoulutettua FinBERT-kielimallia. FinBERTin päälle rakennettiin englanninkielisellä materiaalilla menestynyt relaatioluokittelumenetelmä. Suomenkieliseen relaatioluokitteluun ei ollut saatavilla valmista materiaalia, joten koulutusmateriaali kerättiin työn tekemisen ohessa. Lähdemateriaalina käytettiin suomenkielisiä Wikipedia-artikkeleita ja esimerkit annotoitiin automaattisesti etävalvonnaksi kutsutulla menetelmällä.
Työssä koulutettu luokittelija kykeni luokittelemaan jopa 18 eri relaatioluokkaa saavuttaen F1-arvon 94,2 %. Koulutusaikana tarkasteltavien entiteettimainintojen maskituksella todettiin olevan suorituskykyä merkittävästi parantava vaikutus. Työssä kokeiltiin myös esikouluttaa luokittelijalle relaatioiden tunnistamista, minkä oletettiin vähentävän luokittelutehtävän kouluttamisessa tarvittavien esimerkkien määrää. Esikoulutuksella ei kuitenkaan ollut vaikutusta luokittelijan suorituskykyyn, minkä oletetaan johtuneen liian vähäisestä esikoulutuksen määrästä.