Reductive and Generative Approaches to Morphological Variation of Keywords in Monolingual Information Retrieval
Kettunen, Kimmo (2007)
Kettunen, Kimmo
Tampere University Press
2007
Informaatiotutkimus - Information Studies
Informaatiotieteiden tiedekunta - Faculty of Information Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Väitöspäivä
2007-10-27
Julkaisun pysyvä osoite on
https://urn.fi/urn:isbn:978-951-44-7088-2
https://urn.fi/urn:isbn:978-951-44-7088-2
Tiivistelmä
Tiedonhakua käsittelevässä väitöskirjassa tutkittiin sananmuotoja tuottavien ja analysoivien ohjelmien käyttöä hakutermien muotojen vaihtelun hallinnassa. Tutkimuksen pääkohde on suomen kielen tekstitiedonhaku, mutta tutkimuksessa esitetään myös ruotsin, saksan ja venäjän kielen tiedonhakutuloksia. Suomea on yleisesti pidetty vaikeana kielenä tekstitiedonhaussa kielen morfologisen rikkauden vuoksi. Suomen erilaisten sananmuotojen määrän runsaus tekee kyselyissä ja dokumenteissa esiintyvien sananmuotojen täsmäyttämisen ja siten dokumenttien löytymisen normaalia hankalammaksi. Tutkimuksessa vertailtiin eri menetelmiä tämän ongelman ratkaisemiseksi.
Tutkimuksessa osoitetaan, että perusmuotoistamisen (lemmaus) lisäksi myös karsinta (stemming), taivutusvartaloiden tuottaminen ja siihen perustuvat kehitelmät sekä FCG-menetelmä antavat hyviä tuloksia suomenkielisessä tekstitiedonhaussa, kun verrokkina käytetään lemmauksella saavutettavia tuloksia. Väitöskirjan kokeelliset tulokset tuovatkin lisää vaihtoehtoja tekstitiedonhaussa käytettäville hakutermin vaihtelun käsittelyn menetelmille suomen kielessä ja muissa morfologisesti mutkikkaammissa kielissä.
Tutkimuksen keskeinen tulos on, että myös sananmuotoja tuottavat ohjelmat soveltuvat morfologisesti mutkikkaiden kielten hakutermien vaihtelun käsittelyyn osittaistäsmäyttävässä tiedonhakuympäristössä. Suomenkielisessä tekstihaussa evaluoitiin ensin hakuvartaloiden ja niiden kehitelmien käyttöä. Tämän jälkeen työssä kehitettiin uusi menetelmä, FCG, morfologisesti vähintään jonkin verran mutkikkaille kielille. Menetelmän keskeinen ajatus on käyttää hakutermeinä annetuista substantiiveista ja adjektiiveista vain niiden tilastollisesti keskeisiä taipuneita muotoja haussa. Menetelmä evaluoitiin neljän kielen tekstitiedonhaussa. Kolmella kielistä, suomella, ruotsilla ja saksalla, menetelmä tuotti hyviä hakutuloksia, kun lemmausta käytettiin verrokkimenetelmänä. FCG-menetelmä perustuu taipuneiden sananmuotojen tilastollisesti vinoihin jakaumiin kielissä, ja näin ollen menetelmä soveltunee myös muihin morfologisesti mutkikkaisiin kieliin.
Tutkimuksessa osoitetaan, että perusmuotoistamisen (lemmaus) lisäksi myös karsinta (stemming), taivutusvartaloiden tuottaminen ja siihen perustuvat kehitelmät sekä FCG-menetelmä antavat hyviä tuloksia suomenkielisessä tekstitiedonhaussa, kun verrokkina käytetään lemmauksella saavutettavia tuloksia. Väitöskirjan kokeelliset tulokset tuovatkin lisää vaihtoehtoja tekstitiedonhaussa käytettäville hakutermin vaihtelun käsittelyn menetelmille suomen kielessä ja muissa morfologisesti mutkikkaammissa kielissä.
Tutkimuksen keskeinen tulos on, että myös sananmuotoja tuottavat ohjelmat soveltuvat morfologisesti mutkikkaiden kielten hakutermien vaihtelun käsittelyyn osittaistäsmäyttävässä tiedonhakuympäristössä. Suomenkielisessä tekstihaussa evaluoitiin ensin hakuvartaloiden ja niiden kehitelmien käyttöä. Tämän jälkeen työssä kehitettiin uusi menetelmä, FCG, morfologisesti vähintään jonkin verran mutkikkaille kielille. Menetelmän keskeinen ajatus on käyttää hakutermeinä annetuista substantiiveista ja adjektiiveista vain niiden tilastollisesti keskeisiä taipuneita muotoja haussa. Menetelmä evaluoitiin neljän kielen tekstitiedonhaussa. Kolmella kielistä, suomella, ruotsilla ja saksalla, menetelmä tuotti hyviä hakutuloksia, kun lemmausta käytettiin verrokkimenetelmänä. FCG-menetelmä perustuu taipuneiden sananmuotojen tilastollisesti vinoihin jakaumiin kielissä, ja näin ollen menetelmä soveltunee myös muihin morfologisesti mutkikkaisiin kieliin.
Kokoelmat
- Väitöskirjat [4748]