Tutkimusaineistojen muuttujien automaattinen asiasanoitus
Maunu, Anne (2022)
Maunu, Anne
2022
Tietojenkäsittelyopin maisteriohjelma - Master's Programme in Computer Science
Informaatioteknologian ja viestinnän tiedekunta - Faculty of Information Technology and Communication Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2022-06-01
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:tuni-202206195730
https://urn.fi/URN:NBN:fi:tuni-202206195730
Tiivistelmä
Sisällönkuvailussa erilaisiin dokumentteihin lisätään metadataa, joka kertoo kuvailtavan dokumentin sisällöstä ja auttaa tekemään siitä löydettävän. Yksi sisällönkuvailun tapa on asiasanoitus, jonka automatisointiin on kehitelty erilaisia ratkaisuja. Tutkielmassa tutustutaan sekä joihinkin asiasanoituksen yleisiin periaatteisiin että erilaisiin asiasanoituksen menetelmiin ja erityisesti Annifiin, joka on Kansalliskirjaston toteuttama työkalu tekstidokumenttien asiasanoitukseen. Sen avulla voidaan kätevästi hyödyntää useita asiasanoitusalgoritmeja. Leksikaaliset menetelmät yhdistävät yksinkertaisesti dokumenteissa esiintyviä sanoja asiasanaston termeihin ja pyrkivät valitsemaan niiden joukosta kuvaavia asiasanaehdotuksia. Assosiatiiviset menetelmät ehdottavat asiasanoja muiden valmiiksi asiasanoitettujen dokumenttien perusteella koneoppimisen keinoin. Erilaisia menetelmiä on myös mahdollista ja hyödyllistäkin yhdistellä.
Tässä tutkielmassa ollaan erityisesti kiinnostuneita Tietoarkiston arkistoimien tutkimusaineistojen muuttujien automaattisesta asiasanoituksesta. Muuttujia on niin paljon, ettei niiden asiasanoittaminen käsin ole mielekästä. Toisin kuin tutkimusaineistoja, muuttujia ei ole valmiiksi asiasanoitettu, joten eri menetelmiä kokeillaan myös itse aineistojen asiasanoittamiseen niille laadittujen abstraktien perusteella. Näin voidaan vertailla ihmisten ja asiasanoitusalgoritmien dokumenteille valitsemia asiasanoja. Asiasanat valitaan YSOsta, joka on Kansalliskirjaston ylläpitämä kontrolloitu asiasanasto. Tulokset vaikuttavat lupaavilta, joten automatisointi lienee varsin tehokas keino tukea asiasanojen valintaa, vaikkei se ainakaan vielä kykene täysin korvaamaan ihmistä tässä tehtävässä.
Tässä tutkielmassa ollaan erityisesti kiinnostuneita Tietoarkiston arkistoimien tutkimusaineistojen muuttujien automaattisesta asiasanoituksesta. Muuttujia on niin paljon, ettei niiden asiasanoittaminen käsin ole mielekästä. Toisin kuin tutkimusaineistoja, muuttujia ei ole valmiiksi asiasanoitettu, joten eri menetelmiä kokeillaan myös itse aineistojen asiasanoittamiseen niille laadittujen abstraktien perusteella. Näin voidaan vertailla ihmisten ja asiasanoitusalgoritmien dokumenteille valitsemia asiasanoja. Asiasanat valitaan YSOsta, joka on Kansalliskirjaston ylläpitämä kontrolloitu asiasanasto. Tulokset vaikuttavat lupaavilta, joten automatisointi lienee varsin tehokas keino tukea asiasanojen valintaa, vaikkei se ainakaan vielä kykene täysin korvaamaan ihmistä tässä tehtävässä.