"Etsikäät hywää ja älläät pahaa." Tiedonhakumenetelmien tuloksellisuuden vertailu merkkivirheitä sisältävässä historiallisessa sanomalehtikokoelmassa
RAITANEN, ISMO (2012)
RAITANEN, ISMO
2012
Informaatiotutkimus ja interaktiivinen media - Information Studies and Interactive Media
Informaatiotieteiden yksikkö - School of Information Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2012-06-01
Julkaisun pysyvä osoite on
https://urn.fi/urn:nbn:fi:uta-1-22596
https://urn.fi/urn:nbn:fi:uta-1-22596
Tiivistelmä
Tutkielmani aiheena on vanhoihin suomenkielisiin sanomalehtiin kohdistuva tiedonhaku. Sanomalehtien digitoinnissa tapahtuu merkintunnistusvirheitä, jolloin dokumenttikokoelmaan päätyy roskaista tekstiä. Lisäksi vanha kieli aiheuttaa omat haasteensa tiedonhakijalle. Merkintunnistusongelmista ja historiallisesta kielestä johtuen kyselyjen ja dokumenttien sanastot eivät kohtaa, eikä hakija löydä etsimäänsä. Tutkielmani tavoitteena on selvittää, miten eräät tiedonhaku- ja tekstinesitysmenetelmät toimivat tällaisessa ympäristössä, ja onko niiden avulla mahdollista parantaa tiedonhaun tuloksellisuutta.
Ratkaisin tutkimusongelman tiedonhaun laboratoriokokeiden avulla. Tutkimusaineistonani oli vuosien 1820–1890 suomenkielisistä lehdistä merkintunnistusluennalla muodostettu noin 180 000 dokumentin kokoelma. Käytössäni oli Tampereen yliopiston Hist-testikokoelma, joka sisältää kyseisten dokumenttien lisäksi 56 hakuaihetta sekä tiedon näihin liittyvistä relevanteista dokumenteista. Tiedonhakujärjestelmänä käytin Solr-ohjelmistoa. Vertaillessani eri menetelmiä asetin perustasoksi tilanteen, jossa kyselyjen ja dokumenttien sanoja ei käsitelty mitenkään. Perusmuotoistamisessa kyselyjen ja dokumenttien sanat muutettiin perusmuotoon ennen hakuprosessia. Stemmauksessa eli typistämisessä sanojen pääteainekset poistettiin. N-grammauksessa sanat jaettiin n merkin mittaisiin osamerkkijonoihin vaihdellen n:n arvoa. Sumeassa haussa kyselyyn otettiin mukaan alkuperäisen kyselyn kanssa samankaltaisia sanoja.
Selvitin aineiston digitoinnissa tapahtuneita virheitä otannalla, jonka tulosten perusteella kehitin vertailuun vielä kaksi menetelmää: merkkiluokkamenetelmässä sekä kyselyjen että dokumenttien sanoista tulkittiin sekaannusta aiheuttaneet merkit samana merkkinä tai merkkijonona. Dokumenttien laajentamismenetelmässä dokumenttien virheelliset, tunnistamattomat, sanat korvattiin viritetyn oikolukuohjelmiston antamilla ehdotuksilla. Otannan perusteella selvisi, että noin viidennes kokoelman sanoista oli virheellisiä ja noin viidennes sanoista poikkesi nykysuomesta.
Vertailin menetelmien tuloksellisuuksia kolmella yleisesti tunnetulla tiedonhaun mittarilla. Menetelmän kokonaistuloksellisuutta arvioin keskitarkkuuden keskiarvolla. Kärkipään tulosten arviointiin käytin tarkkuutta kymmenennen tuloksen kohdalla sekä kumuloitunutta hyötyä kymmenennen tuloksen kohdalla. Tutkimuksen perusteella voidaan todeta, että vanhoihin suomenkielisiin sanomalehtiin kohdistuva haku hyötyy tutkituista tiedonhakumenetelmistä eniten n-grammeista, sumeasta hausta ja dokumenttien laajentamisesta. Mikäli painotetaan sitä, miten relevantteja dokumentteja palautuu kymmenen ensimmäisen dokumentin joukossa, on 4-, 5- ja 6-grammien yhdistelmä paras menetelmä. Jos painotetaan hakutulosta kokonaisuutena, on 5-grammimenetelmä muita menetelmiä parempi.
Asiasanat:tiedonhaku, evaluointi, merkintunnistus, OCR, sanomalehtikirjasto
Ratkaisin tutkimusongelman tiedonhaun laboratoriokokeiden avulla. Tutkimusaineistonani oli vuosien 1820–1890 suomenkielisistä lehdistä merkintunnistusluennalla muodostettu noin 180 000 dokumentin kokoelma. Käytössäni oli Tampereen yliopiston Hist-testikokoelma, joka sisältää kyseisten dokumenttien lisäksi 56 hakuaihetta sekä tiedon näihin liittyvistä relevanteista dokumenteista. Tiedonhakujärjestelmänä käytin Solr-ohjelmistoa. Vertaillessani eri menetelmiä asetin perustasoksi tilanteen, jossa kyselyjen ja dokumenttien sanoja ei käsitelty mitenkään. Perusmuotoistamisessa kyselyjen ja dokumenttien sanat muutettiin perusmuotoon ennen hakuprosessia. Stemmauksessa eli typistämisessä sanojen pääteainekset poistettiin. N-grammauksessa sanat jaettiin n merkin mittaisiin osamerkkijonoihin vaihdellen n:n arvoa. Sumeassa haussa kyselyyn otettiin mukaan alkuperäisen kyselyn kanssa samankaltaisia sanoja.
Selvitin aineiston digitoinnissa tapahtuneita virheitä otannalla, jonka tulosten perusteella kehitin vertailuun vielä kaksi menetelmää: merkkiluokkamenetelmässä sekä kyselyjen että dokumenttien sanoista tulkittiin sekaannusta aiheuttaneet merkit samana merkkinä tai merkkijonona. Dokumenttien laajentamismenetelmässä dokumenttien virheelliset, tunnistamattomat, sanat korvattiin viritetyn oikolukuohjelmiston antamilla ehdotuksilla. Otannan perusteella selvisi, että noin viidennes kokoelman sanoista oli virheellisiä ja noin viidennes sanoista poikkesi nykysuomesta.
Vertailin menetelmien tuloksellisuuksia kolmella yleisesti tunnetulla tiedonhaun mittarilla. Menetelmän kokonaistuloksellisuutta arvioin keskitarkkuuden keskiarvolla. Kärkipään tulosten arviointiin käytin tarkkuutta kymmenennen tuloksen kohdalla sekä kumuloitunutta hyötyä kymmenennen tuloksen kohdalla. Tutkimuksen perusteella voidaan todeta, että vanhoihin suomenkielisiin sanomalehtiin kohdistuva haku hyötyy tutkituista tiedonhakumenetelmistä eniten n-grammeista, sumeasta hausta ja dokumenttien laajentamisesta. Mikäli painotetaan sitä, miten relevantteja dokumentteja palautuu kymmenen ensimmäisen dokumentin joukossa, on 4-, 5- ja 6-grammien yhdistelmä paras menetelmä. Jos painotetaan hakutulosta kokonaisuutena, on 5-grammimenetelmä muita menetelmiä parempi.
Asiasanat:tiedonhaku, evaluointi, merkintunnistus, OCR, sanomalehtikirjasto