Laajennettavan arkkitehtuurirungon toteutus luonnollisen kielen tiedonlouhintaan
Salmi, Tuomas (2018)
Salmi, Tuomas
2018
Tietotekniikka
Tieto- ja sähkötekniikan tiedekunta - Faculty of Computing and Electrical Engineering
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2018-12-05
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:tty-201811062540
https://urn.fi/URN:NBN:fi:tty-201811062540
Tiivistelmä
Suomen sotiin liittyen on Suomessa 1970-luvulla koottu useita matrikkelikirjasarjoja, jotka sisältävät tietoa sotiin liittyneistä ihmisryhmistä. Merkittävä tällainen ihmisryhmä on luovutetusta Karjalasta evakkoon lähteneet siirtokarjalaiset.
1970-luvulta peräisin olevat paperiset kirjat on aikaisemmin digitoitu PDF-muotoon ja ne sisältävät tieteellisesti kiinnostavaa dataa esimerkiksi yhteiskuntatieteellistä tai biologista tutkimusta varten. Tässä työssä esitellään sovelluskehys, joka kehitettiin Helsingin yliopiston tutkimushankkeessa louhimaan henkilötietoja digitoiduista kirjasarjoista tieteellistä tutkimusta varten.
Sovelluskehyksen suunnittelussa korostettiin laajennettavuutta ja sen soveltamiskelpoisuutta useisiin tutkimusprojektille merkityksellisiin kirjasarjoihin. Työn tuloksena kehitettiin Kaira-sovelluskehys, joka mahdollistaa erilaisten tiedonlouhinta-algoritmien kokoamisen yhteen ajettavaan sovelluskehykseen. Kaira tukee erityisesti kirjasarjojen louhintalogiikan laajentamista sekä helpottaa tiedonlouhinta-algoritmien kirjoittamista uusille kirjasarjoille. Sovelluskehyksen ensisijaisiksi arkkitehtuuriratkaisuiksi valikoituivat tietovuoarkkitehtuuri ja plugin-arkkitehtuuri.
1970-luvulta peräisin olevat paperiset kirjat on aikaisemmin digitoitu PDF-muotoon ja ne sisältävät tieteellisesti kiinnostavaa dataa esimerkiksi yhteiskuntatieteellistä tai biologista tutkimusta varten. Tässä työssä esitellään sovelluskehys, joka kehitettiin Helsingin yliopiston tutkimushankkeessa louhimaan henkilötietoja digitoiduista kirjasarjoista tieteellistä tutkimusta varten.
Sovelluskehyksen suunnittelussa korostettiin laajennettavuutta ja sen soveltamiskelpoisuutta useisiin tutkimusprojektille merkityksellisiin kirjasarjoihin. Työn tuloksena kehitettiin Kaira-sovelluskehys, joka mahdollistaa erilaisten tiedonlouhinta-algoritmien kokoamisen yhteen ajettavaan sovelluskehykseen. Kaira tukee erityisesti kirjasarjojen louhintalogiikan laajentamista sekä helpottaa tiedonlouhinta-algoritmien kirjoittamista uusille kirjasarjoille. Sovelluskehyksen ensisijaisiksi arkkitehtuuriratkaisuiksi valikoituivat tietovuoarkkitehtuuri ja plugin-arkkitehtuuri.