Relevanssipalautteen toimivuus lyhyillä, eritasoisesti onnistuneilla aloituskyselyillä
FRIMAN, JARI (2008)
FRIMAN, JARI
2008
Informaatiotutkimus - Information Studies
Informaatiotieteiden tiedekunta - Faculty of Information Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2008-11-18
Julkaisun pysyvä osoite on
https://urn.fi/urn:nbn:fi:uta-1-19440
https://urn.fi/urn:nbn:fi:uta-1-19440
Tiivistelmä
Tutkimuksen tarkoituksena on selvittää kyselyn laajentamisen vaikutusta lyhyisiin, eritasoisesti toimiviin aloituskyselyihin. Kyselyn laajennus on toteutettu relevanssipalautteella ja pseudorelevanssipalautteella. Relevanssipalautteessa käyttäjä valitsee tuloslistasta relevantiksi arvioimansa dokumentin tai useita dokumentteja ja hakujärjestelmä muodostaa dokumenteissa esiintyviä sanoja hyödyntäen muokatun kyselyn. Pseudorelevanssipalautteessa hakujärjestelmä poimii automaattisesti tuloslistan kärjestä halutun määrän dokumentteja, joista se edelleen valitsee hakutermejä ja tekee näillä uuden kyselyn.
Päätutkimuskysymykseni on: Kuinka käyttäjän tekemän kyselyn pitäisi onnistua, jotta relevanssipalautteella ja pseudorelevanssipalautteella voitaisiin parantaa hakutehokkuutta? Lisäksi tarkoituksenani on selvittää tarkemmin palautedokumenttien määrän vaikutusta hakutehokkuuteen, sekä huomioida myös relevanssipalautteeseen valittavien dokumenttien relevanssitason vaikutus.
Tutkimus on toteutettu osittaistäsmäyttävällä Lemur Indri -tiedonhakujärjestelmällä. Testikokoelmana on TRECUTA -dokumenttikokoelma ja käytössä on 35 hakuaihetta. Hakutehokkuuden mittarina käytetään keskitarkkuuksien keskiarvoa (MAP = mean average
precision) ja tulosten tilastollinen merkitsevyys on testattu Friedmanin testillä. Lisäksi tulosten käytännön merkittävyyttä on arvioitu Sparck-Jonesin prosenttiyksiköiden eroon perustuvalla mittarilla.
Lähtötilanteena tutkimuksessa on kolmella eri tasolla onnistuneet, enintään kolmen sanan mittaiset kyselyt, joita kutsutaan tässä heikosti, hieman paremmin ja hyvin onnistuneiksi aloituskyselyiksi. Eritasoiset kyselyt olen muokannut tutkimusta varten hakuaiheiden otsikoissa ja relevanteissa dokumenteissa esiintyvien termien avulla. Tutkimuksessa ei ole käytetty koehenkilöitä.
Tutkimuksen mukaan relevanssipalautteella voidaan parantaa hakutehokkuutta kyselyn
onnistuneisuudesta riippumatta. Relevanssipalaute hyvin onnistuneesta aloituskyselystä tuotti enemmän relevantteja dokumentteja kuin heikkotasoisesta kyselystä. Suhteellisesti laskettuna heikkotasoinen kysely hyötyy kuitenkin eniten relevanssipalautteesta. Relevanssipalautteeseen kannattaa tämän tutkimuksen perusteella valita mahdollisimman monta relevanttia dokumenttia relevanssitasosta riippumatta, vaikka hyviin tuloksiin päästään jo yhdelläkin palautedokumentilla.
Tämän tutkimuksen perusteella pseudorelevanssipalaute ei yleensä paranna tai heikennä
hakutehokkuutta niin, että ero olisi tilastollisesti merkitsevä. Toisin sanoen vaikutus näyttää olevan hyvin sattumanvarainen. Myöskään kyselyn onnistuneisuudella tai palautedokumenttien määrällä ei näyttänyt olevan vaikutusta pseudorelevanssipalautteen toimivuuteen.
Avainsanat: kyselyn laajentaminen, relevanssipalaute, pseudorelevanssipalaute, kyselyn onnistuneisuus
Päätutkimuskysymykseni on: Kuinka käyttäjän tekemän kyselyn pitäisi onnistua, jotta relevanssipalautteella ja pseudorelevanssipalautteella voitaisiin parantaa hakutehokkuutta? Lisäksi tarkoituksenani on selvittää tarkemmin palautedokumenttien määrän vaikutusta hakutehokkuuteen, sekä huomioida myös relevanssipalautteeseen valittavien dokumenttien relevanssitason vaikutus.
Tutkimus on toteutettu osittaistäsmäyttävällä Lemur Indri -tiedonhakujärjestelmällä. Testikokoelmana on TRECUTA -dokumenttikokoelma ja käytössä on 35 hakuaihetta. Hakutehokkuuden mittarina käytetään keskitarkkuuksien keskiarvoa (MAP = mean average
precision) ja tulosten tilastollinen merkitsevyys on testattu Friedmanin testillä. Lisäksi tulosten käytännön merkittävyyttä on arvioitu Sparck-Jonesin prosenttiyksiköiden eroon perustuvalla mittarilla.
Lähtötilanteena tutkimuksessa on kolmella eri tasolla onnistuneet, enintään kolmen sanan mittaiset kyselyt, joita kutsutaan tässä heikosti, hieman paremmin ja hyvin onnistuneiksi aloituskyselyiksi. Eritasoiset kyselyt olen muokannut tutkimusta varten hakuaiheiden otsikoissa ja relevanteissa dokumenteissa esiintyvien termien avulla. Tutkimuksessa ei ole käytetty koehenkilöitä.
Tutkimuksen mukaan relevanssipalautteella voidaan parantaa hakutehokkuutta kyselyn
onnistuneisuudesta riippumatta. Relevanssipalaute hyvin onnistuneesta aloituskyselystä tuotti enemmän relevantteja dokumentteja kuin heikkotasoisesta kyselystä. Suhteellisesti laskettuna heikkotasoinen kysely hyötyy kuitenkin eniten relevanssipalautteesta. Relevanssipalautteeseen kannattaa tämän tutkimuksen perusteella valita mahdollisimman monta relevanttia dokumenttia relevanssitasosta riippumatta, vaikka hyviin tuloksiin päästään jo yhdelläkin palautedokumentilla.
Tämän tutkimuksen perusteella pseudorelevanssipalaute ei yleensä paranna tai heikennä
hakutehokkuutta niin, että ero olisi tilastollisesti merkitsevä. Toisin sanoen vaikutus näyttää olevan hyvin sattumanvarainen. Myöskään kyselyn onnistuneisuudella tai palautedokumenttien määrällä ei näyttänyt olevan vaikutusta pseudorelevanssipalautteen toimivuuteen.
Avainsanat: kyselyn laajentaminen, relevanssipalaute, pseudorelevanssipalaute, kyselyn onnistuneisuus