Morphological Problems in IR and CLIR. Applying linguistic methods and approximate string matching tools
Airio, Eija (2009)
Airio, Eija
Tampere University Press
2009
Informaatiotutkimus - Information Studies
Informaatiotieteiden tiedekunta - Faculty of Information Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Väitöspäivä
2009-06-13
Julkaisun pysyvä osoite on
https://urn.fi/urn:isbn:978-951-44-7708-9
https://urn.fi/urn:isbn:978-951-44-7708-9
Tiivistelmä
Luonnollinen kieli aiheuttaa tiedonhaulle ja kieltenväliselle tiedonhaulle monenlaisia ongelmia. Ongelmat ovat kieliriippuvaisia: esimerkiksi suomelle aiheuttaa ongelmia sanojen taipuminen ja yhdyssanat, kun taas englannissa fraasit (erikseen kirjoitetut yhdyssanat) ovat ongelmallisia. Tutkimuksen tarkoituksena on selvittää, miten sanojen normalisoinnilla, sanamuotojen generoinnilla ja sumeilla merkkijonojen täsmäytysmenetelmillä voidaan ratkaista tiedonhaun morfogisia ongelmia.
Tutkimuksessa todettiin, että yhdyssanat aiheuttavat ongelmia kaksikieliselle tiedonhaulle, kun lähtökieli on fraasiorientoitunut kieli ja kohdekieli yhdyssanakieli. Yhdyssanojen pilkkominen indeksointivaiheessa parantaa hakutulosta huomattavasti.
Tutkimuksen mukaan kaksikielisen tiedonhaun tulos taivutusmuotoindeksissä on huono ainakin silloin, kun kohdekieli on voimakkaasti taipuva kieli. Tämä johtuu siitä, että sanakirja antaa vain sanan perusmuodon, kun taas indeksissä esiintyy sanoja taipuneessa muodossa. Sanamuotojen generointi samoin kuin sumeat merkkijonojen täsmäytysmetelmät parantavat hakutulosta huomattavasti.
Kaksikielistä tiedonhakua on perinteisesti testattu laboratoriotestein. Testien tuloksena on todettu, että käännetyt kyselyt antavat huomattavasti huonomman tuloksen kuin kohdekieliset kyselyt. Tässä tutkimuksessa suoritettiin käyttäjätestejä, joiden perusteella voidaan todeta, että kaksikielinen tiedonhaku on hyödyllistä tiedonhakijalle. Hyöty on sitä suurempaa, mitä heikompi kohdekielen taito henkilöllä on. Tämä koskee kuitenkin vain tilannetta, jossa kyselynkäännöksessä käytetään laadukasta sanakirjaa. Huonon sanakirjan antama käännös ei auta edes heikosti kieltä taitavaa tiedonhakijaa.
Tutkimuksessa todettiin, että yhdyssanat aiheuttavat ongelmia kaksikieliselle tiedonhaulle, kun lähtökieli on fraasiorientoitunut kieli ja kohdekieli yhdyssanakieli. Yhdyssanojen pilkkominen indeksointivaiheessa parantaa hakutulosta huomattavasti.
Tutkimuksen mukaan kaksikielisen tiedonhaun tulos taivutusmuotoindeksissä on huono ainakin silloin, kun kohdekieli on voimakkaasti taipuva kieli. Tämä johtuu siitä, että sanakirja antaa vain sanan perusmuodon, kun taas indeksissä esiintyy sanoja taipuneessa muodossa. Sanamuotojen generointi samoin kuin sumeat merkkijonojen täsmäytysmetelmät parantavat hakutulosta huomattavasti.
Kaksikielistä tiedonhakua on perinteisesti testattu laboratoriotestein. Testien tuloksena on todettu, että käännetyt kyselyt antavat huomattavasti huonomman tuloksen kuin kohdekieliset kyselyt. Tässä tutkimuksessa suoritettiin käyttäjätestejä, joiden perusteella voidaan todeta, että kaksikielinen tiedonhaku on hyödyllistä tiedonhakijalle. Hyöty on sitä suurempaa, mitä heikompi kohdekielen taito henkilöllä on. Tämä koskee kuitenkin vain tilannetta, jossa kyselynkäännöksessä käytetään laadukasta sanakirjaa. Huonon sanakirjan antama käännös ei auta edes heikosti kieltä taitavaa tiedonhakijaa.
Kokoelmat
- Väitöskirjat [4928]