Päiväysten poimintaa : automaattisten ja manuaalisten menetelmien vertailua digitoidussa historiallisessa kirjeaineistossa
Vanamo, Selja (2019)
Vanamo, Selja
2019
Informaatiotutkimuksen ja interaktiivisen median tutkinto-ohjelma - Degree Programme in Information Studies and Interactive Media
Informaatioteknologian ja viestinnän tiedekunta - Faculty of Information Technology and Communication Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2019-04-09
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:tuni-201904251542
https://urn.fi/URN:NBN:fi:tuni-201904251542
Tiivistelmä
Tutkimuksessa tarkasteltiin sitä, miten historiallisesta digitoidusta aineistosta pystytään etsimään päivämääriä automaattisin menetelmin. Koska historiallisten dokumenttien digitointia tapahtuu jatkuvasti, ja enenevästi myös hyvin monenlaisia aineistotyyppejä muutetaan digitaaliseen muotoon, on samalla tarpeen kehittää erilaisia tietoteknisiä menetelmiä, joiden avulla digitoituja aineistoja pystytään käsittelemään. Tutkimuksen aineistona oli noin tuhat talvi- ja jatkosodan aikaista digitoitua kirjettä, jotka sisältävät viiden eri yksityishenkilön kirjeenvaihtoa. Kirjeitä tarkasteltiin niiden päiväysten pohjalta, sillä tarkoituksena oli selvittää, millä tavoin kahden eri automaattisen menetelmän avulla olisi mahdollista poimia koko tutkimusaineistosta tietyn ajanjakson kirjeet. Tutkimusta varten koko laajasta digitoitujen kirjeiden kokoelmasta muodostettiin tämä pienempi kokeellinen testikokoelma, johon suoritettiin kolme erilaista testihakua. Vertailukohtana toimi itse manuaalisesti läpikäyty tulkinta jokaisen kirjeen päiväyksestä, ja hakutuloksia arvioitiin tarkkuuden ja saannin osalta.
Tutkimuksessa päiväystä lähestyttiin osaltaan nimettyjen entiteettien kautta, sillä päivämäärä on yksi nimetyistä entiteeteistä, joka on entiteettitunnistimien avulla mahdollista merkitä tekstiin. Vertailtavana menetelmänä tutkimuksessa käytettiin suomen kielelle kehiteltyä nimettyjen entiteettien tunnistinta nimeltään FiNER, jonka avulla tutkimusaineistosta oli mahdollista poimia tarkasteluun ne kirjeet, joihin oli merkitty päiväysentiteettitunniste. Toisena vertailtavana menetelmänä oli itse kehitelty Python-ohjelmointikielinen hakukoneen kaltaisesti toimiva ohjelma, jonka avulla kirjeitä poimittiin koko tutkimusaineistosta. Myös FiNERin merkitsemille kirjeille oli tulosten saamiseksi tarpeen hyödyntää tätä itse kehiteltyä hakukonetta hieman muokattuna, jolloin tarkasteluun tulivat vain päiväysentiteetin saaneet kirjeet.
Tutkimuksessa havaittiin, että FiNER tunnistaa kirjeiden päiväyksiä varsin huonosti eli entiteettitunnisteita merkittiin koko aineistolle vain vähän, minkä lisäksi tunnisteista suurin osa sijaitsi muualla tekstissä kuin varsinaisen päiväyksen kohdalla. Tällä oli vaikutuksensa hakutuloksiin, sillä kahden eri menetelmän tarkastelemassa kohdeaineistossa oli varsin suuri ero. Kirjeitä etsittiin vuoden, vuoden ja kuukauden sekä tarkan päivämäärän avulla. Automaattisin keinoin kirjeiden päiväykset löytyivät varsin hyvin, ja itse kehitellyllä menetelmällä hakutulosten saanti pysyi kohtalaisen hyvänä eli relevantit kirjeet löytyivät. Tarkkuus vaihteli hakujen välillä ollen paikoitellen varsin huono johtuen mukaan tulleista epärelevanteista osumista. Kautta linjan FiNERin tulokset olivat niin tarkkuuden kuin saannin osalta huonommat, mikä johtui siitä, etteivät kaikki relevantit kirjeet olleet saaneet päiväysentiteettitunnistetta tekstiinsä. Päiväyksen merkintätavoissa oli varsin suurta vaihtelua, eikä FiNER tunnistanut kuin tietynlaisen päiväyksen.
Tutkimuksen perusteella tultiin siihen tulokseen, että tietoteknisiä menetelmiä olisi syytä parannella ja kehittää, jotta niiden avulla digitoidut aineistot olisivat mahdollisimman käytettäviä. Tietojen etsimisessä erilaiset tiedonlouhintamenetelmät ovat hyvä apu, minkä lisäksi päiväysten mieltäminen nimetyksi entiteetiksi voisi auttaa niiden etsimisessä, sillä tällöin entiteettitunnisteen avulla kirjetekstistä olisi helpompi saada päiväys poimittua. Menetelmien ja tunnistimien parantelu on kuitenkin tarpeen, jotta useammat erilaiset variantit tunnistettaisiin myös. Digitoitujen aineistojen käsittelyssä ja tietojen etsimisessä tietoteknisten menetelmien kehittely ja parantaminen helpottaisivat laajasti eri alojen tutkijoiden työtä ja aineistojen käytettävyyttä, minkä vuoksi siihen tulisi panostaa aina vain enemmän.
Tutkimuksessa päiväystä lähestyttiin osaltaan nimettyjen entiteettien kautta, sillä päivämäärä on yksi nimetyistä entiteeteistä, joka on entiteettitunnistimien avulla mahdollista merkitä tekstiin. Vertailtavana menetelmänä tutkimuksessa käytettiin suomen kielelle kehiteltyä nimettyjen entiteettien tunnistinta nimeltään FiNER, jonka avulla tutkimusaineistosta oli mahdollista poimia tarkasteluun ne kirjeet, joihin oli merkitty päiväysentiteettitunniste. Toisena vertailtavana menetelmänä oli itse kehitelty Python-ohjelmointikielinen hakukoneen kaltaisesti toimiva ohjelma, jonka avulla kirjeitä poimittiin koko tutkimusaineistosta. Myös FiNERin merkitsemille kirjeille oli tulosten saamiseksi tarpeen hyödyntää tätä itse kehiteltyä hakukonetta hieman muokattuna, jolloin tarkasteluun tulivat vain päiväysentiteetin saaneet kirjeet.
Tutkimuksessa havaittiin, että FiNER tunnistaa kirjeiden päiväyksiä varsin huonosti eli entiteettitunnisteita merkittiin koko aineistolle vain vähän, minkä lisäksi tunnisteista suurin osa sijaitsi muualla tekstissä kuin varsinaisen päiväyksen kohdalla. Tällä oli vaikutuksensa hakutuloksiin, sillä kahden eri menetelmän tarkastelemassa kohdeaineistossa oli varsin suuri ero. Kirjeitä etsittiin vuoden, vuoden ja kuukauden sekä tarkan päivämäärän avulla. Automaattisin keinoin kirjeiden päiväykset löytyivät varsin hyvin, ja itse kehitellyllä menetelmällä hakutulosten saanti pysyi kohtalaisen hyvänä eli relevantit kirjeet löytyivät. Tarkkuus vaihteli hakujen välillä ollen paikoitellen varsin huono johtuen mukaan tulleista epärelevanteista osumista. Kautta linjan FiNERin tulokset olivat niin tarkkuuden kuin saannin osalta huonommat, mikä johtui siitä, etteivät kaikki relevantit kirjeet olleet saaneet päiväysentiteettitunnistetta tekstiinsä. Päiväyksen merkintätavoissa oli varsin suurta vaihtelua, eikä FiNER tunnistanut kuin tietynlaisen päiväyksen.
Tutkimuksen perusteella tultiin siihen tulokseen, että tietoteknisiä menetelmiä olisi syytä parannella ja kehittää, jotta niiden avulla digitoidut aineistot olisivat mahdollisimman käytettäviä. Tietojen etsimisessä erilaiset tiedonlouhintamenetelmät ovat hyvä apu, minkä lisäksi päiväysten mieltäminen nimetyksi entiteetiksi voisi auttaa niiden etsimisessä, sillä tällöin entiteettitunnisteen avulla kirjetekstistä olisi helpompi saada päiväys poimittua. Menetelmien ja tunnistimien parantelu on kuitenkin tarpeen, jotta useammat erilaiset variantit tunnistettaisiin myös. Digitoitujen aineistojen käsittelyssä ja tietojen etsimisessä tietoteknisten menetelmien kehittely ja parantaminen helpottaisivat laajasti eri alojen tutkijoiden työtä ja aineistojen käytettävyyttä, minkä vuoksi siihen tulisi panostaa aina vain enemmän.