Hyppää sisältöön
    • Suomeksi
    • In English
Trepo
  • Suomeksi
  • In English
  • Kirjaudu
Näytä viite 
  •   Etusivu
  • Trepo
  • Väitöskirjat
  • Näytä viite
  •   Etusivu
  • Trepo
  • Väitöskirjat
  • Näytä viite
JavaScript is disabled for your browser. Some features of this site may not work without it.

Reductive and Generative Approaches to Morphological Variation of Keywords in Monolingual Information Retrieval

Kettunen, Kimmo (2007)

 
Avaa tiedosto
978-951-44-7088-2.pdf (440.4Kt)
Lataukset: 



Kettunen, Kimmo
Tampere University Press
2007

Informaatiotutkimus - Information Studies
Informaatiotieteiden tiedekunta - Faculty of Information Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Väitöspäivä
2007-10-27
Näytä kaikki kuvailutiedot
Julkaisun pysyvä osoite on
https://urn.fi/urn:isbn:978-951-44-7088-2
Tiivistelmä
Tiedonhakua käsittelevässä väitöskirjassa tutkittiin sananmuotoja tuottavien ja analysoivien ohjelmien käyttöä hakutermien muotojen vaihtelun hallinnassa. Tutkimuksen pääkohde on suomen kielen tekstitiedonhaku, mutta tutkimuksessa esitetään myös ruotsin, saksan ja venäjän kielen tiedonhakutuloksia. Suomea on yleisesti pidetty vaikeana kielenä tekstitiedonhaussa kielen morfologisen rikkauden vuoksi. Suomen erilaisten sananmuotojen määrän runsaus tekee kyselyissä ja dokumenteissa esiintyvien sananmuotojen täsmäyttämisen ja siten dokumenttien löytymisen normaalia hankalammaksi. Tutkimuksessa vertailtiin eri menetelmiä tämän ongelman ratkaisemiseksi.

Tutkimuksessa osoitetaan, että perusmuotoistamisen (lemmaus) lisäksi myös karsinta (stemming), taivutusvartaloiden tuottaminen ja siihen perustuvat kehitelmät sekä FCG-menetelmä antavat hyviä tuloksia suomenkielisessä tekstitiedonhaussa, kun verrokkina käytetään lemmauksella saavutettavia tuloksia. Väitöskirjan kokeelliset tulokset tuovatkin lisää vaihtoehtoja tekstitiedonhaussa käytettäville hakutermin vaihtelun käsittelyn menetelmille suomen kielessä ja muissa morfologisesti mutkikkaammissa kielissä.

Tutkimuksen keskeinen tulos on, että myös sananmuotoja tuottavat ohjelmat soveltuvat morfologisesti mutkikkaiden kielten hakutermien vaihtelun käsittelyyn osittaistäsmäyttävässä tiedonhakuympäristössä. Suomenkielisessä tekstihaussa evaluoitiin ensin hakuvartaloiden ja niiden kehitelmien käyttöä. Tämän jälkeen työssä kehitettiin uusi menetelmä, FCG, morfologisesti vähintään jonkin verran mutkikkaille kielille. Menetelmän keskeinen ajatus on käyttää hakutermeinä annetuista substantiiveista ja adjektiiveista vain niiden tilastollisesti keskeisiä taipuneita muotoja haussa. Menetelmä evaluoitiin neljän kielen tekstitiedonhaussa. Kolmella kielistä, suomella, ruotsilla ja saksalla, menetelmä tuotti hyviä hakutuloksia, kun lemmausta käytettiin verrokkimenetelmänä. FCG-menetelmä perustuu taipuneiden sananmuotojen tilastollisesti vinoihin jakaumiin kielissä, ja näin ollen menetelmä soveltunee myös muihin morfologisesti mutkikkaisiin kieliin.
 
Kokoelmat
  • Väitöskirjat [5022]
Kalevantie 5
PL 617
33014 Tampereen yliopisto
oa[@]tuni.fi | Tietosuoja | Saavutettavuusseloste
 

 

Selaa kokoelmaa

TekijätNimekkeetTiedekunta (2019 -)Tiedekunta (- 2018)Tutkinto-ohjelmat ja opintosuunnatAvainsanatJulkaisuajatKokoelmat

Omat tiedot

Kirjaudu sisäänRekisteröidy
Kalevantie 5
PL 617
33014 Tampereen yliopisto
oa[@]tuni.fi | Tietosuoja | Saavutettavuusseloste