Kysymyksiin vastaaminen englanninkielisessä aineistossa: katkelmiin perustuvan tiedonhakumenetelmän tehokkuus vastausdokumenttien haussa.
MÖRSKY, HEIKKI (2004)
MÖRSKY, HEIKKI
2004
Informaatiotutkimus - Information Studies
Informaatiotieteiden tiedekunta - Faculty of Information Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2004-08-02
Julkaisun pysyvä osoite on
https://urn.fi/urn:nbn:fi:uta-1-13347
https://urn.fi/urn:nbn:fi:uta-1-13347
Sisällysluettelo
1. JOHDANTO 5 2. KESKEISET KÄSITTEET 6 3. KYSYMYKSIIN VASTAAMISEN HISTORIAA 9 3.1 Pyrkimys luonnollisen kielen ymmärtämiseen 9 3.2 Tiedonhaun merkitys tutkimukselle 12 4. TIEDONHAKU 13 4.1 Tiedonhaun peruskäsitteitä 13 4.2 Tiedonhakujärjestelmä 14 4.3 Täsmäytysmenetelmät 15 4.3.1 Vektorimalli 16 4.3.2 Todennäköisyyslaskentaan perustuva täsmäytys 175. KATKELMIIN PERUSTUVA TIEDONHAKU 20 5.1 Globaalin ja lokaalin tason informaatio 21 5.2 Katkelmahaun näkökulmat 23 5.3 Katkelmahaku Inqueryssa 24 6. AIHEALUERIIPPUMATTOMAT KYSYMYS-VASTAUS -JÄRJESTELMÄT 27 6.1 FALCON 30 6.2 MultiText 32 7. EVALUOINTI 36 7.1 Tiedonhakujärjestelmien evaluointi 36 7.1.1 Evaluointi laboratoriotutkimuksena 38 7.1.2 Relevanssi 387.1.3 Evaluointimittarit 39 7.1.4 Merkitsevyyden mittaaminen 41 7.2 Kysymys-vastaus järjestelmien evaluointi 43 7.2.1 TREC-8: Ensimmäinen kysymys-vastaus evaluointi 43 7.2.2 TREC-9 - 11 46 7.2.3 TREC-12: Katkelmatehtävä 48 7.2.4 TREC kysymys-vastaus evaluoinnin keskeisin ongelma 50 7.2.5 CLEF QA Track 51 8. KOEASETELMAN KUVAUS 53 8.1 Tiedonhakujärjestelmä 54 8.2 Tiedonhakumenetelmät 55 8.3 Testikokoelma 55 8.3.1 Vastausdokumentit 56 8.3.2 Kysymykset ja kyselyt 57 8.3.3 Relevanssikorpus 59 8.4 Hakuprosessi 60 8.5 Evaluointimittarit 60 8.6 Tulosten tilastollisen merkitsevyyden analysointimenetelmät 61 9. TULOKSET 62 9.1 Tarkkuudet katkaisupisteessä 10 62 9.2 MRR pisteet katkaisupisteessä 10 65 9.3 DCV käyrät 67 9.3.1 bw kyselyt 67 9.3.2 uw kyselyt 69 9.3.3 n kyselyt 70 10. TULOSTEN YHTEENVETO 72 11. JOHTOPÄÄTÖKSET 73 LÄHTEET 77 LIITE 1 84 LIITE 2 86 LIITE 3 87 LIITE 4 88
Tiivistelmä
Asiasanat: QA kysymys vastaus tiedonhakumenetelmä katkelma tehokkuus
Tutkimuksessa lähestyttiin kysymyksiin vastaamista (engl. QA, question answering) tiedonhaun näkökulmasta. Pääongelmana oli englanninkielisten vastausdokumenttien haussa käytettävän katkelmiin perustuvan tiedonhakumenetelmän tehokkuus kokotekstihakuun verrattuna. Osaongelmana tarkasteltiin sanaliittojen automaattisen tunnistamisen vaikutusta hakutehokkuuteen. Rakenteisia sanaliittokyselyjä verrattiin rakenteettomiin ”bag-of-words” peruskyselyihin.
Tutkimusongelmiin vastattiin evaluointitutkimuksella. Evaluoinnissa käytettiin probabilistista Inquery tiedonhakujärjestelmää ja TREC-8 kysymys-vastaus kokoelmaa. TREC-8 kysymyksistä muodostettiin 100 kyselyä. Kyselyjä oli kolmentyyppisiä: Peruskyselyt ja kahdenlaiset sanaliittokyselyt. Tiedonhakumenetelmiä oli neljä: Perustason sum menetelmä sekä katkelmamenetelmät 50, 150 ja 250. Evaluointimittareina käytettiin kyselyjen keskiarvoista tarkkuutta ja MRR pisteytystä katkaisupisteeseen 10 (DCV10). Lisäksi DCV käyrinä esitettiin keskiarvoinen saanti ja tarkkuus yli hakuaiheiden katkaisupisteissä 1-10.
Tulosten perusteella katkelmamenetelmät toimivat kokotekstihakua tehokkaammin kaikilla kyselytyypeillä. Keskiarvoiseen tarkkuuteen perustuvat tilastolliset erot perustasoon nähden olivat yhtä vertailua lukuun ottamatta erittäin merkitseviä. Tehokkuus parani erityisesti tulosjoukon kärkipäässä, mikä on tärkeää kysymyksiin vastaamisen kannalta. Sanaliittokyselyt toimivat kautta linjan peruskyselyjä heikommin.
Tutkimuksessa lähestyttiin kysymyksiin vastaamista (engl. QA, question answering) tiedonhaun näkökulmasta. Pääongelmana oli englanninkielisten vastausdokumenttien haussa käytettävän katkelmiin perustuvan tiedonhakumenetelmän tehokkuus kokotekstihakuun verrattuna. Osaongelmana tarkasteltiin sanaliittojen automaattisen tunnistamisen vaikutusta hakutehokkuuteen. Rakenteisia sanaliittokyselyjä verrattiin rakenteettomiin ”bag-of-words” peruskyselyihin.
Tutkimusongelmiin vastattiin evaluointitutkimuksella. Evaluoinnissa käytettiin probabilistista Inquery tiedonhakujärjestelmää ja TREC-8 kysymys-vastaus kokoelmaa. TREC-8 kysymyksistä muodostettiin 100 kyselyä. Kyselyjä oli kolmentyyppisiä: Peruskyselyt ja kahdenlaiset sanaliittokyselyt. Tiedonhakumenetelmiä oli neljä: Perustason sum menetelmä sekä katkelmamenetelmät 50, 150 ja 250. Evaluointimittareina käytettiin kyselyjen keskiarvoista tarkkuutta ja MRR pisteytystä katkaisupisteeseen 10 (DCV10). Lisäksi DCV käyrinä esitettiin keskiarvoinen saanti ja tarkkuus yli hakuaiheiden katkaisupisteissä 1-10.
Tulosten perusteella katkelmamenetelmät toimivat kokotekstihakua tehokkaammin kaikilla kyselytyypeillä. Keskiarvoiseen tarkkuuteen perustuvat tilastolliset erot perustasoon nähden olivat yhtä vertailua lukuun ottamatta erittäin merkitseviä. Tehokkuus parani erityisesti tulosjoukon kärkipäässä, mikä on tärkeää kysymyksiin vastaamisen kannalta. Sanaliittokyselyt toimivat kautta linjan peruskyselyjä heikommin.