Hyppää sisältöön
    • Suomeksi
    • In English
Trepo
  • Suomeksi
  • In English
  • Kirjaudu
Näytä viite 
  •   Etusivu
  • Trepo
  • Opinnäytteet - ylempi korkeakoulututkinto
  • Näytä viite
  •   Etusivu
  • Trepo
  • Opinnäytteet - ylempi korkeakoulututkinto
  • Näytä viite
JavaScript is disabled for your browser. Some features of this site may not work without it.

"Etsikäät hywää ja älläät pahaa." Tiedonhakumenetelmien tuloksellisuuden vertailu merkkivirheitä sisältävässä historiallisessa sanomalehtikokoelmassa

RAITANEN, ISMO (2012)

 
Avaa tiedosto
gradu05922.pdf (1.227Mt)
Lataukset: 



RAITANEN, ISMO
2012

Informaatiotutkimus ja interaktiivinen media - Information Studies and Interactive Media
Informaatiotieteiden yksikkö - School of Information Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2012-06-01
Näytä kaikki kuvailutiedot
Julkaisun pysyvä osoite on
https://urn.fi/urn:nbn:fi:uta-1-22596
Tiivistelmä
Tutkielmani aiheena on vanhoihin suomenkielisiin sanomalehtiin kohdistuva tiedonhaku. Sanomalehtien digitoinnissa tapahtuu merkintunnistusvirheitä, jolloin dokumenttikokoelmaan päätyy roskaista tekstiä. Lisäksi vanha kieli aiheuttaa omat haasteensa tiedonhakijalle. Merkintunnistusongelmista ja historiallisesta kielestä johtuen kyselyjen ja dokumenttien sanastot eivät kohtaa, eikä hakija löydä etsimäänsä. Tutkielmani tavoitteena on selvittää, miten eräät tiedonhaku- ja tekstinesitysmenetelmät toimivat tällaisessa ympäristössä, ja onko niiden avulla mahdollista parantaa tiedonhaun tuloksellisuutta.

Ratkaisin tutkimusongelman tiedonhaun laboratoriokokeiden avulla. Tutkimusaineisto­nani oli vuosien 1820–1890 suomenkielisistä lehdistä merkintunnistusluennalla muodostettu noin 180 000 dokumentin kokoelma. Käytössäni oli Tampereen yliopiston Hist-tes­ti­kokoelma, joka sisältää kyseisten dokumenttien lisäksi 56 hakuaihetta sekä tiedon näihin liittyvistä relevanteista dokumenteista. Tiedonhakujärjestelmänä käytin Solr-oh­jel­mistoa. Vertaillessani eri menetelmiä asetin perustasoksi tilanteen, jossa kyselyjen ja dokumenttien sanoja ei käsitelty mitenkään. Perusmuotoistamisessa kyselyjen ja dokumenttien sanat muutettiin perusmuotoon ennen hakuprosessia. Stemmauksessa eli typistämisessä sanojen pääteainekset poistettiin. N-grammauksessa sanat jaettiin n merkin mittaisiin osamerkkijonoihin vaihdellen n:n arvoa. Sumeassa haussa kyselyyn otettiin mukaan alkuperäisen kyselyn kanssa samankaltaisia sanoja.

Selvitin aineiston digitoinnissa tapahtuneita virheitä otannalla, jonka tulosten perusteella kehitin vertailuun vielä kaksi menetelmää: merkkiluokkamenetelmässä sekä kyselyjen että dokumenttien sanoista tulkittiin sekaannusta aiheuttaneet merkit samana merkkinä tai merkkijonona. Dokumenttien laajentamismenetelmässä dokumenttien virheelliset, tunnistamattomat, sanat korvattiin viritetyn oikolukuohjelmiston antamilla ehdotuksilla. Otannan perusteella selvisi, että noin viidennes kokoelman sanoista oli virheellisiä ja noin viidennes sanoista poikkesi nykysuomesta.

Vertailin menetelmien tuloksellisuuksia kolmella yleisesti tunnetulla tiedonhaun mittarilla. Menetelmän kokonaistuloksellisuutta arvioin keskitarkkuuden keskiarvolla. Kärkipään tulosten arviointiin käytin tarkkuutta kymmenennen tuloksen kohdalla sekä kumuloitunutta hyötyä kymmenennen tuloksen kohdalla. Tutkimuksen perusteella voidaan todeta, että vanhoihin suomenkielisiin sanomalehtiin kohdistuva haku hyötyy tutkituista tiedonhakumenetelmistä eniten n-grammeista, sumeasta hausta ja dokumenttien laajentamisesta. Mikäli painotetaan sitä, miten relevantteja dokumentteja palautuu kymmenen ensimmäisen dokumentin joukossa, on 4-, 5- ja 6-grammien yhdistelmä paras menetelmä. Jos painotetaan hakutulosta kokonaisuutena, on 5-grammimenetelmä muita menetelmiä parempi.

Asiasanat:tiedonhaku, evaluointi, merkintunnistus, OCR, sanomalehtikirjasto
Kokoelmat
  • Opinnäytteet - ylempi korkeakoulututkinto [40554]
Kalevantie 5
PL 617
33014 Tampereen yliopisto
oa[@]tuni.fi | Tietosuoja | Saavutettavuusseloste
 

 

Selaa kokoelmaa

TekijätNimekkeetTiedekunta (2019 -)Tiedekunta (- 2018)Tutkinto-ohjelmat ja opintosuunnatAvainsanatJulkaisuajatKokoelmat

Omat tiedot

Kirjaudu sisäänRekisteröidy
Kalevantie 5
PL 617
33014 Tampereen yliopisto
oa[@]tuni.fi | Tietosuoja | Saavutettavuusseloste