Kyselyn automaattinen laajentaminen synonyymeilla.
KAITANIEMI, SARI (2002)
KAITANIEMI, SARI
2002
Informaatiotutkimus - Information Studies
Informaatiotieteiden tiedekunta - Faculty of Information Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2002-12-09
Julkaisun pysyvä osoite on
https://urn.fi/urn:nbn:fi:uta-1-11326
https://urn.fi/urn:nbn:fi:uta-1-11326
Sisällysluettelo
KYSELYN AUTOMAATTINEN LAAJENTAMINEN SYNONYYMEILLA 1 1. Johdanto 5 1.1 Työn rakenne 6 1.2 Käsitteet 6 2. Luonnollinen kieli ja tiedonhaku 15 2.1 Fonetiikka ja fonologia 15 2.2 Morfologia 16 2.3 Syntaksi ja sanasto 18 2.4 Semantiikka 18 3. Hakujärjestelmät 22 3.1 Yleistä hakujärjestelmistä 22 3.2 Boolen menetelmä 23 3.3 Vektorimalli 24 3.5 Probabilistinen menetelmä 24 3.6 Menetelmien vertailu 26 4. Kyselyn laajentaminen 28 4.1 Kyselyn laajentamisen vaihtoehdot 28 4.2 Kyselyn laajentaminen hakutesauruksen avulla Boolen logiikkaan perustuvassa järjestelmässä 30 4.3 Kyselyn laajentaminen sanojen välisten semanttisten suhteiden perusteella vektorimalliin perustuvassa järjestelmässä 32 4.4 Kyselyn kompleksisuuden, laajentamisen ja rakenteen vaikutus probabilistisella järjestelmällä 33 4.5 Vertailu: laajennustermit eri lähteistä 35 4.6 Johtopäätökset aiemmasta tutkimuksesta 36 5. Kyselyn automaattinen laajentaminen synonyymeilla probabilistisessa hakujärjestelmässä 38 5.1 TUTK-kokoelma 38 5.2 InQuery-hakujärjestelmä 40 5.3 Synonyymien lähteet 43 5.4 Kyselyt 44 5.4.1 Finthesillä laajentaminen 45 5.4.2 Tesauruksella laajentaminen 46 5.4.3 Rakenteiset kyselyt 47 5.4.4 Sanaliittojen käsittely Finthes-laajennoksissa 49 5.5 Menetelmät 52 5.5.1 Saanti ja tarkkuus 52 5.5.2 Kumuloitu hyöty 53 5.5.3 Tilastolliset menetelmät 55 6. Tulokset 57 6.1 Saanti ja tarkkuus ja tilastollinen merkitsevyys 57 6.1.1 Kaikki relevantit 57 6.1.2 Relevantit dokumentit 59 6.1.3 Erittäin relevantit dokumentit 62 6.2 Kumuloidun hyödyn menetelmät 64 6.2.1 Kumuloitu hyöty 64 6.2.2 Alennettu kumuloitu hyöty 66 7. Keskustelu ja johtopäätökset 69 7.1 Keskustelua tuloksista 69 7.2 Johtopäätökset 72 8. Lähteet 73 Kirjallisuus 73 Verkkolähteet 74 Muut lähteet 74 LIITTEET 75 Liite 1: Hakuaiheet 75 Liite 2: Kysely 77 2.1 Peruskyselyt 77 2.2 Litteät Finthes-kyselyt 79 2.3 Litteät tesauruskyselyt 81 2.4 Rakenteiset Finthes-kyselyt 84 2.5 Rakenteiset tesauruskyselyt 86 Liite 3: Relevanttien dokumenttien lukumäärä 89 Liite 4: Keskiarvotarkkuudet tyypeittäin ja aiheittain 90 4.1 Kaikki relevantit 90 4.2 Relevantit 91 4.3 Erittäin relevantit 92
Tiivistelmä
Tämän tutkielman aihe on suomenkielisen kyselyn automaattinen laajentaminen synonyymeilla probabilistisessa hakujärjestelmässä. Tutkielman tietokanta on suomenkielinen TUTK, joka käsittää 54 000 artikkelia suomalaisista sanomalehdistä. Hakujärjestelmä on probabilistinen InQuery. Synonyymien lähteenä käytetään kahta sanastoa: yleistä, kaupallista Finthes-synonyymisanastoa ja TUTKia varten räätälöityä tesaurusta. Kyselyt laajennetaan sekä rakenteettomasti että yksinkertaisella rakenteella, jossa synonyymifasetit on yhdistetty synoperaattorilla. Ennen laajennuskokeita verrataan kahta sanaliiton käsittelymenetelmää: sanaliiton kaikki osat yhdistetään syn-operaattorilla tai sanaliiton osien synonyymit yhdistetään syn-operaattorilla ja fasetit toisiinsa uwn-läheisyysoperaattorilla. Sanaliittojen käsittelyssä syn+uwn-menetelmä osoittautui hieman paremmaksi kuin syn-menetelmä.
Tietokannan relevanssiarviot on tehty neliportaisesti: ei relevantti, vähän relevantti, melko relevantti ja erittäin relevantti. Kokeet tehdään kolmella tasolla. Ensimmäisessä korpuksessa ovat mukana kaikki relevantit dokumentit. Toisessa korpuksessa ovat mukana melko ja erittäin relevantit dokumentit. Pienimmässä korpuksessa on vain erittäin relevantit dokumentit.
Tuloksia verrataan saanti?tarkkuus -käyrillä ja -taulukoilla, tarkkuuksien keskiarvoilla sekä kumuloidulla hyödyllä ja alennetulla kumuloidulla hyödyllä. Tulosten tilastollista merkitsevyyttä mitataan Friedmanin testillä ja Karen Sparck Jonesin prosenttiyksikkömääräisiin eroihin perustuvalla peukalosäännöllä.
Ainoa menetelmä, joka oli kahdessa relevanssikorpuksessa ja kumuloiduilla menetelmillä parempi kuin laajentamaton peruskysely, oli rakenteinen tesauruksen synonyymeilla laajennettu kysely. Molemmat litteät menetelmät olivat kaikissa kolmessa korpuksessa huonompia kuin peruskysely, tilastollisesti joko melko tai varsin merkitsevästi. Kumuloidun hyödyn menetelmät vahvistavat peruskyselyn paremmuutta. Rakenteisen Finthes-laajennuksen ja peruskyselyn välinen ero ei ole tilastollisesti merkitsevä missään korpuksessa, mutta kahden laajemman korpuksen keskiarvotarkkuus ja molemmat kumuloidut menetelmät osoittavat peruskyselyn olevan rakenteista Finthes-laajennusta parempi menetelmä.
Mitään syytä laajentaa litteästi tai Finthes-sanastolla tämä työ ei löydä. Ainoa hyödyllinen synonyymilaajennus on rakenteinen, tekstikokoelmaa varten räätälöidyllä sanastolla tehty laajennus. Muiden tutkimusten tuloksiin yhdistettynä tämä tutkielma osoittaa, että pelkkä synonyymilaajennus ei liene riittävän tehokas laajennusmenetelmä, vaan laajennusavainpohjan tulisi olla kattavampi.
Tietokannan relevanssiarviot on tehty neliportaisesti: ei relevantti, vähän relevantti, melko relevantti ja erittäin relevantti. Kokeet tehdään kolmella tasolla. Ensimmäisessä korpuksessa ovat mukana kaikki relevantit dokumentit. Toisessa korpuksessa ovat mukana melko ja erittäin relevantit dokumentit. Pienimmässä korpuksessa on vain erittäin relevantit dokumentit.
Tuloksia verrataan saanti?tarkkuus -käyrillä ja -taulukoilla, tarkkuuksien keskiarvoilla sekä kumuloidulla hyödyllä ja alennetulla kumuloidulla hyödyllä. Tulosten tilastollista merkitsevyyttä mitataan Friedmanin testillä ja Karen Sparck Jonesin prosenttiyksikkömääräisiin eroihin perustuvalla peukalosäännöllä.
Ainoa menetelmä, joka oli kahdessa relevanssikorpuksessa ja kumuloiduilla menetelmillä parempi kuin laajentamaton peruskysely, oli rakenteinen tesauruksen synonyymeilla laajennettu kysely. Molemmat litteät menetelmät olivat kaikissa kolmessa korpuksessa huonompia kuin peruskysely, tilastollisesti joko melko tai varsin merkitsevästi. Kumuloidun hyödyn menetelmät vahvistavat peruskyselyn paremmuutta. Rakenteisen Finthes-laajennuksen ja peruskyselyn välinen ero ei ole tilastollisesti merkitsevä missään korpuksessa, mutta kahden laajemman korpuksen keskiarvotarkkuus ja molemmat kumuloidut menetelmät osoittavat peruskyselyn olevan rakenteista Finthes-laajennusta parempi menetelmä.
Mitään syytä laajentaa litteästi tai Finthes-sanastolla tämä työ ei löydä. Ainoa hyödyllinen synonyymilaajennus on rakenteinen, tekstikokoelmaa varten räätälöidyllä sanastolla tehty laajennus. Muiden tutkimusten tuloksiin yhdistettynä tämä tutkielma osoittaa, että pelkkä synonyymilaajennus ei liene riittävän tehokas laajennusmenetelmä, vaan laajennusavainpohjan tulisi olla kattavampi.