Perus- ja taivutusmuotohakemiston tuloksellisuus todennäköisyyksiin perustuvassa tiedonhakujärjestelmässä.
KUNTTU, TUOMAS (2003)
KUNTTU, TUOMAS
2003
Informaatiotutkimus - Information Studies
Informaatiotieteiden tiedekunta - Faculty of Information Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2003-12-29
Julkaisun pysyvä osoite on
https://urn.fi/urn:nbn:fi:uta-1-12593
https://urn.fi/urn:nbn:fi:uta-1-12593
Sisällysluettelo
1 JOHDANTO 5 2 TIEDONHAKU 7 2.1 TIEDONHAUN KÄSITTEET 7 2.2 TIEDONHAUN LÄHESTYMISTAVAT 9 2.3 TIEDONHAKUMENETELMÄT 10 2.3.1 Todennäköisyysmalli 12 2.4 INQUERY-HAKUJÄRJESTELMÄ 15 2.4.1 Inqueryn käyttämä painotusfunktio 17 2.4.2 Inqueryn operaattorit 18 2.5 TIEDONHAUN EVALUOINTI 19 2.5.1 Relevanssi 20 2.5.2 Saanti ja tarkkuus 21 3 LUONNOLLINEN KIELI 23 3.1 KIELEN OSAJÄRJESTELMÄT 23 3.2 MORFOLOGIA 23 3.2.1 Morfeemien jaottelu 24 3.2.2 Kielten morfologinen typologia 25 3.2.3 Suomen kielen morfologiaa 25 3.2.4 Uusien sanojen muodostaminen 26 3.3 SEMANTIIKKA 28 4 LUONNOLLINEN KIELI TIEDONHAUSSA 30 4.1 LUONNOLLISEN KIELEN AIHEUTTAMIA ONGELMIA JA NIIDEN RATKAISUJA TIEDONHAUSSA 30 4.2 HAKEMISTOJEN TULOKSELLISUUDEN VERTAILU TÄYSTÄSMÄYTTÄVÄSSÄ JÄRJESTELMÄSSÄ 32 4.3 OHJELMAT LUONNOLLISEN KIELEN KÄSITTELYYN 35 5 TUTKIMUKSEN KULKU 38 5.1 TUTKIMUSTIETOKANTA 38 5.2 HAKUKYSYMYKSET 39 5.3 KYSELYIDEN MUODOSTAMINEN 41 5.3 TILASTOLLINEN TESTAUS 48 6 TULOKSET 51 6.1 KOKO KYSELYJOUKON TULOKSET 51 6.1.1 Liberaali relevanssitaso 51 6.1.2 Normaali relevanssitaso 54 6.1.3 Tiukka relevanssitaso 57 6.1.4 Koko kyselyjoukon tulosten yhteenvetoa 59 6.2 TULOKSET HAKUAIHEIDEN KÄSITETYYPEITTÄIN 62 6.3 HAKEMISTOJEN EROT 67 6.4 KYSELYIDEN SANAMÄÄRÄT JA YHDYSSANOJEN OSUUDET 70 7 KESKUSTELUA 72 8 JOHTOPÄÄTÖKSET 75 LÄHDELUETTELO 76 LIITE 1: HAKUKYSYMYKSET 81 LIITE 2: KYSELYT 84
Tiivistelmä
Tutkimuksen tarkoituksena oli selvittää, miten tiedonhaun tuloksellisuus eroaa käytettäessä ositettua perusmuotohakemistoa, osittamatonta perusmuotohakemistoa ja taivutusmuotoista hakemistoa todennäköisyyksiin perustuvassa tiedonhakujärjestelmässä. Erityinen tutkimusongelma oli, kannattaako yhdyssanat osittaa hakemistossa. Tiedonhaku-järjestelmänä oli Inquery-ohjelma ja aineistona informaatiotutkimuksen laitoksen suomenkielinen TUTK-tutkimustietokanta, jossa on noin 54 000 sanomalehtiartikkelia. Päätutkimusongelman selvittämiseksi 30 hakukysymyksestä muodostettiin perus- ja johdoskyselyt, jotka suoritettiin kaikkiin kolmeen hakemistoon. Tulokset laskettiin kolmella relevanssitasolla. Tiedonhaun tuloksellisuutta mitattiin laskemalla tarkkuuskeskiarvot vakioiduilla saantitasoilla sekä saanti ja tarkkuus dokumentin katkaisupisteittäin (DCV).
Tulosten mukaan ositettu perusmuotoistettu hakemisto on tuloksellisin hakemisto. Hieman huonommin menestyivät osittamaton perusmuotohakemisto ja taivutusmuotohakemisto. Näiden kahden välillä ei juuri ollut eroja. Tulokset olivat samansuuntaiset kaikilla kolmella tutkitulla relevanssitasoilla.
Kokotekstitietokantojen, joiden sisällön kielenä on morfologialtaan rikas ja runsaasti yhdyssanoja sisältävä kieli, hakemisto kannattaa perusmuotoistaa ja yhdyssanat osittaa, koska 1) hakujen tuloksellisuus on parempi 2) tiedonhakijan on helpompi hakea sanojen perusmuodoilla.
Tulosten mukaan ositettu perusmuotoistettu hakemisto on tuloksellisin hakemisto. Hieman huonommin menestyivät osittamaton perusmuotohakemisto ja taivutusmuotohakemisto. Näiden kahden välillä ei juuri ollut eroja. Tulokset olivat samansuuntaiset kaikilla kolmella tutkitulla relevanssitasoilla.
Kokotekstitietokantojen, joiden sisällön kielenä on morfologialtaan rikas ja runsaasti yhdyssanoja sisältävä kieli, hakemisto kannattaa perusmuotoistaa ja yhdyssanat osittaa, koska 1) hakujen tuloksellisuus on parempi 2) tiedonhakijan on helpompi hakea sanojen perusmuodoilla.