Studies on linguistic problems and methods in text retrieval : the effects of anaphor and ellipsis resolution in proximity searching, and translation and query structuring methods in cross-language retrieval
Pirkola, Ari (1999)
Tässä tietueessa ei ole kokotekstiä saatavilla Treposta, ainoastaan metadata.
Pirkola, Ari
Tampere University Press
1999
Informaatiotutkimus - Information Studies
Yhteiskuntatieteellinen tiedekunta - Faculty of Social Sciences
Väitöspäivä
1999-06-12Tiivistelmä
Väitöskirjatutkimus käsittelee tekstihakuun liittyviä lingvistisiä ongelmia. Tekstihaussa elektronisia dokumentteja haetaan tekstikannasta dokumenttien tekstisisällön perusteella luonnollista kieltä käyttäen. Luonnollisen kielen monimuotoisuus ja monitulkintaisuus aiheuttavat sen että relevantin tiedon löytäminen tekstikannoista on vaikeaa. Työssä tutkittiin (1) ellipsien (vaillinaisten ilmaisujen) ja anaforien (esim. pronominien, joka viittaavat aikaisempiin tekstielementteihin) resoluution vaikutusta läheisyysoperaatiohakujen tuloksiin tutkimustietokantana sanomalehtiartikkeleita sisältävä tekstikanta ja (2) kieltenvälistä tiedonhakua tutkimustietokantana n. 1/2 miljoonaa englanninkielistä dokumenttia sisältävä tekstikanta.
Tekstihaussa läheisyysoperaatioilla rajataan hakusanojen sallittua etäisyyttä dokumenteissa pyrkimyksenä taata hakusanojen semanttinen yhteys. Läheisyysoperaatiohauissa relevantteja dokumentteja voi jäädä löytymättä sen vuoksi, että osa hakusanoista on elliptisessä tai anaforisessa muodossa. Ellipsien ja anaforien resoluutio tarkoittaa niiden viittausten kohteiden (korrelaattien) tunnistamista. Ellipsit ja anaforat luokitettiin korrelaattien perusteella toisaalta erisnimiin ja yleisnimiin viittaaviin ja toisaalta yksittäisiin sanoihin, yhdyssanoihin ja sanaliittoihin viittaaviin ellipseihin ja anaforiin. Työssä osoitettiin, että läheisyysoperaatiohakujen tulokset paranevat resoluution ansiosta merkittävästi silloin, kun hakusanat ovat tyypiltään erisnimisiä sanaliittoja. Muissa tilanteissa resoluution vaikutukset olivat vähäiset. Tutkimuksessa osoitettiin myös, että erisnimisten sanaliittojen ellipsien ja anaforien resoluutio voidaan suorittaa tehokkaasti ilman syntaktisen tason kielen analyysia.
Kieltenvälisessä tiedonhaussa (cross-language information retrieval, CLIR) dokumentteja haetaan eri kielellä kuin millä tekstikannan dokumentit on kirjoitettu. Sanakirjaperusteisessa kieltenvälisessä tiedonhaussa lähdekielen (tutkimuksessa suomi) kyselyjen sanat käännetään kohdekielelle (tutkimuksessa englanti) elektronisten sanakirjojen avulla. Työssä tutkittiin mm. kyselyjen strukturoinnin vaikutusta CLIR-kyselyjen tehokkuuteen. Strukturoidut kyselyt ovat kyselyjä, joissa hakusanojen keskinäiset suhteet ilmaistaan sopivilla hakuoperaattoreilla. Tulokset osoittivat, että kyselyjen automaattinen strukturointi sanakirjojen antamien tulostietueiden perusteella samoin kuin käsiteanalyysin perustuva strukturointi parantavat CLIR-kyselyjen tehokkuutta merkittävästi. Strukturoidut CLIR-kyselyt olivat huomattavasti tehokkaampia kuin strukturoimattomat CLIR-kyselyt. Parhaalla käännösmenetelmällä käännettyjen strukturoitujen CLIR-kyselyjen tehokkuus oli samalla tasolla kuin vastaavien yksikielisten kyselyjen tehokkuus.
Tekstihaussa läheisyysoperaatioilla rajataan hakusanojen sallittua etäisyyttä dokumenteissa pyrkimyksenä taata hakusanojen semanttinen yhteys. Läheisyysoperaatiohauissa relevantteja dokumentteja voi jäädä löytymättä sen vuoksi, että osa hakusanoista on elliptisessä tai anaforisessa muodossa. Ellipsien ja anaforien resoluutio tarkoittaa niiden viittausten kohteiden (korrelaattien) tunnistamista. Ellipsit ja anaforat luokitettiin korrelaattien perusteella toisaalta erisnimiin ja yleisnimiin viittaaviin ja toisaalta yksittäisiin sanoihin, yhdyssanoihin ja sanaliittoihin viittaaviin ellipseihin ja anaforiin. Työssä osoitettiin, että läheisyysoperaatiohakujen tulokset paranevat resoluution ansiosta merkittävästi silloin, kun hakusanat ovat tyypiltään erisnimisiä sanaliittoja. Muissa tilanteissa resoluution vaikutukset olivat vähäiset. Tutkimuksessa osoitettiin myös, että erisnimisten sanaliittojen ellipsien ja anaforien resoluutio voidaan suorittaa tehokkaasti ilman syntaktisen tason kielen analyysia.
Kieltenvälisessä tiedonhaussa (cross-language information retrieval, CLIR) dokumentteja haetaan eri kielellä kuin millä tekstikannan dokumentit on kirjoitettu. Sanakirjaperusteisessa kieltenvälisessä tiedonhaussa lähdekielen (tutkimuksessa suomi) kyselyjen sanat käännetään kohdekielelle (tutkimuksessa englanti) elektronisten sanakirjojen avulla. Työssä tutkittiin mm. kyselyjen strukturoinnin vaikutusta CLIR-kyselyjen tehokkuuteen. Strukturoidut kyselyt ovat kyselyjä, joissa hakusanojen keskinäiset suhteet ilmaistaan sopivilla hakuoperaattoreilla. Tulokset osoittivat, että kyselyjen automaattinen strukturointi sanakirjojen antamien tulostietueiden perusteella samoin kuin käsiteanalyysin perustuva strukturointi parantavat CLIR-kyselyjen tehokkuutta merkittävästi. Strukturoidut CLIR-kyselyt olivat huomattavasti tehokkaampia kuin strukturoimattomat CLIR-kyselyt. Parhaalla käännösmenetelmällä käännettyjen strukturoitujen CLIR-kyselyjen tehokkuus oli samalla tasolla kuin vastaavien yksikielisten kyselyjen tehokkuus.
Kokoelmat
- Väitöskirjat [5015]