Hyppää sisältöön
    • Suomeksi
    • In English
Trepo
  • Suomeksi
  • In English
  • Kirjaudu
Näytä viite 
  •   Etusivu
  • Trepo
  • Opinnäytteet - ylempi korkeakoulututkinto
  • Näytä viite
  •   Etusivu
  • Trepo
  • Opinnäytteet - ylempi korkeakoulututkinto
  • Näytä viite
JavaScript is disabled for your browser. Some features of this site may not work without it.

Karsittuja ja perusmuotoisia kyselyitä ja hakemistoja käyttämällä saatujen tulosjoukkojen päällekkäisyys

KUJALA, KIRSTI (2007)

 
Avaa tiedosto
gradu02057.pdf (539.9Kt)
Lataukset: 



KUJALA, KIRSTI
2007

Informaatiotutkimus - Information Studies
Informaatiotieteiden tiedekunta - Faculty of Information Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2007-10-25
Näytä kaikki kuvailutiedot
Julkaisun pysyvä osoite on
https://urn.fi/urn:nbn:fi:uta-1-17330
Tiivistelmä
Tutkielman tarkoituksena oli muodostaa suomen- ja englanninkielisistä kyselyistä ja hakemistoista erilaiset versiot perusmuoto-ohjelmien ja karsinta-algoritmien avulla, jotta voitaisiin selvittää, missä määrin erilaisilla kyselyversioilla saadut tulosjoukot ovat keskenään päällekkäisiä. Suomenkielisessä aineistossa perusmuotoisten ja karsittujen kyselyversioiden lisäksi muodostettiin ositetut perusmuo-toiset kyselyt. Aineistona tutkielmassa käytettiin suomenkielistä TUTKia ja englanninkielistä TREC-tietokantaa, jotka pitivät sisällään lähinnä sanomalehtiartikkeleja. Englanninkielisten kyselyiden perusmuotoistamiseen käytettiin perusmuoto-ohjelma Engtwolia ja suomenkielisten kyselyiden perusmuotoistamiseen Fintwolia. Englanninkielisten kyselyjen karsintaan käytettiin Porter-algoritmia ja suomenkieliset kyselyt karsittiin Snowball-ohjelmistolla. Tiedonhakujärjestelmänä oli osittaistäsmäyttävä Inquery.

Tutkielmassa tarkasteltiin päällekkäisyyden lisäksi myös kyselyjen tarkkuuksia. Englanninkielisessä aineistossa karsinta ja perusmuotoistaminen olivat tuloksellisuudeltaan hyvin samankaltaiset. Suomenkielisessä aineistossa ositettu perusmuotoinen ja perusmuotoinen kyselysarja olivat tuloksellisuudeltaan hyvin samankaltaiset. Sen sijaan perusmuotoistaminen ja karsinta, verrattiinpa karsitun kyselysarjan kanssa sitten ositettua perusmuotoista tai osittamatonta perusmuotoista kyselysarjaa, poikkesivat kahdella relevanssitasolla tuloksellisuudeltaan jopa niin paljon, että niiden väliltä löytyi käytännössä havaittavat erot. Erot johtuivat siitä, että karsinta oli tuloksellisuudeltaan heikoin näistä kolmesta kyselysarjasta.

Englanninkielisessä aineistossa perusmuotoisen ja karsitun kyselysarjan välinen päällekkäisyys oli melko suurta tarkasteltaessa päällekkäisyyttä kokonaisissa tulosjoukoissa, sillä se vaihteli 70 prosentista 74 prosenttiin. Kun päällekkäisyyden tarkastelu rajattiin TRECissa tulosjoukkojen relevantteihin osiin, päällekkäisyys vaihteli relevanssitasosta riippuen 39 prosentista 1 prosenttiin. Kun päällekkäisyyttä tarkasteltiin suomenkielisessä aineistossa kokonaisten tulosjoukkojen osalta, eniten päällekkäisyyttä oli ositetun perusmuotoisen ja perusmuotoisen kyselysarjan välillä (87–94 %). Toiseksi eniten päällekkäisyyttä oli perusmuotoistamisen ja karsinnan välillä (53–61 %). Vähäisintä päällekkäisyys oli suomenkielisen ositetun perusmuotoisen ja karsitun kyselysarjan välillä (47–57 %). Kun päällekkäisyyden tarkastelu rajattiin TUTKissa tulosjoukkojen relevantteihin osiin, päällekkäisyys vaihteli kolmen pareittaisen vertailun eri relevanssitasoilla 62 prosentista 1 prosenttiin. Suomenkielisessä aineistossa päällekkäisyyden määrän laskuun vaikutti keskeisesti karsittu kyselysarja. Päällekkäisyyden lasku pareittaisissa vertailuissa, joissa toisena osapuolena oli karsittu kyselysarja, johtui karsitun kyselysarjan heikommasta tuloksellisuudesta. Koska karsittu kyselysarja löysi relevantteja dokumentteja muita kyselysarjoja vähemmän, osoittautui niistä yhteisiksi verrattavan tulosjoukon kanssa vielä pienempi määrä.

Asiasanat: tiedonhaku, suomen kieli, englannin kieli, karsinta, perusmuotoistaminen, osittaminen, päällekkäisyys
Kokoelmat
  • Opinnäytteet - ylempi korkeakoulututkinto [41202]
Kalevantie 5
PL 617
33014 Tampereen yliopisto
oa[@]tuni.fi | Tietosuoja | Saavutettavuusseloste
 

 

Selaa kokoelmaa

TekijätNimekkeetTiedekunta (2019 -)Tiedekunta (- 2018)Tutkinto-ohjelmat ja opintosuunnatAvainsanatJulkaisuajatKokoelmat

Omat tiedot

Kirjaudu sisäänRekisteröidy
Kalevantie 5
PL 617
33014 Tampereen yliopisto
oa[@]tuni.fi | Tietosuoja | Saavutettavuusseloste