Hyppää sisältöön
    • Suomeksi
    • In English
Trepo
  • Suomeksi
  • In English
  • Kirjaudu
Näytä viite 
  •   Etusivu
  • Trepo
  • Opinnäytteet - ylempi korkeakoulututkinto
  • Näytä viite
  •   Etusivu
  • Trepo
  • Opinnäytteet - ylempi korkeakoulututkinto
  • Näytä viite
JavaScript is disabled for your browser. Some features of this site may not work without it.

Venäjän kielen morfologiset ongelmat tiedonhaussa: Riittääkö sijamuotojen rajoitettu tuottaminen ratkaisuksi?

HOLSTILA, MARJA (2011)

 
Avaa tiedosto
gradu05202.pdf (689.3Kt)
Lataukset: 



HOLSTILA, MARJA
2011

Informaatiotutkimus ja interaktiivinen media - Information Studies and Interactive Media
Informaatiotieteiden yksikkö - School of Information Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2011-08-26
Näytä kaikki kuvailutiedot
Julkaisun pysyvä osoite on
https://urn.fi/urn:nbn:fi:uta-1-21712
Tiivistelmä
Tämän tutkielman tarkoituksena on tarkastella venäjän kielen morfologiaa tiedonhaun näkökulmasta sekä selvittää Frequent Case Generation (FCG) -menetelmän toimivuutta venäjänkielisessä tiedonhaussa. Kimmo Kettusen ja kumppaneiden FCG-hakumenetelmän on todettu toimivan hyvin morfologialtaan venäjän tavoin mutkikkailla kielillä. Voimakkaasti taipuvien kielten substantiivien ja adjektiivien lukuisat sijamuodot ovat tiedonhaun kannalta haastavia. Rajoitetusti sijamuotoja hakuavaimille tuottava FCG perustuu siihen, että kielten potentiaalisista sanamuodoista vain harvat esiintyvät teksteissä usein.

Venäjän kielen morfologian pääpiirteitä käydään tutkielmassa läpi yhtäältä kielioppikirjallisuuden ja toisaalta tiedonhaun kielitypologian ja tiedonhaun kieliteknologian lingvististen menetelmien näkökulmasta. Tutkielman empiirisen osan tiedonhaun laboratoriokokeessa kolmea FCG-versiota vertaillaan hakuun morfologisesti käsittelemättömillä avaimilla seuraten venäjän sijamuotojen tuottamisessa Kettusen ja kumppaneiden (2007) esimerkkiä. Testikokoelmana kokeessa on erittäin suuri KM.ru-tietokanta.

Tiedonhaun kannalta olennaiseen taivutusmorfologiaan liittyy venäjässä piirteitä, joiden perusteella FCG:n voidaan olettaa soveltuvan venäjänkieliseen tiedonhakuun hyvin ja jopa paremmin kuin yleisesti käytössä olevien menetelmien. Tämän tutkielman FCG-kokeen tulokset ovat samansuuntaisia kuin Kettusen ja kumppaneiden (2007), ja em. oletukset saavat lisäoikeutusta. Venäjän adjektiivien sukukategoria saattaa kuitenkin aiheuttaa ongelmia, jos hakuavaimet perusmuotoistetaan FCG-käsittelyä varten automaattisesti.

Tutkielman rajoitus on se, että FCG-menetelmää ei kokeessa verrata muihin hyviksi havaittuihin tiedonhakumenetelmiin, vaan verrokkina on ainoastaan haku taivutusmuotoisilla avaimilla. Samalla testikokoelmalla tulisi kokeilla myös reduktiivisia menetelmiä ja verrata niiden tuloksellisuutta FCG-tuloksiin.

Tutkielma tarjoaa yleiskatsauksen venäjän morfologiaan tiedonhaussa sekä lisänäyttöä siitä, että sijamuotojen rajoitettu tuottaminen on venäjänkielisessä tiedonhaussa toimiva ratkaisu. Frequent Case Generation -menetelmää ei ole aiemmin kokeiltu suurella venäjänkielisellä aineistolla. Suuri kokoelma lisää koetulosten luotettavuutta.

Asiasanat:tiedonhaku, kieliteknologia, morfologia, venäjän kieli, FCG
Kokoelmat
  • Opinnäytteet - ylempi korkeakoulututkinto [36594]
Kalevantie 5
PL 617
33014 Tampereen yliopisto
oa[@]tuni.fi | Tietosuoja | Saavutettavuusseloste
 

 

Selaa kokoelmaa

TekijätNimekkeetTiedekunta (2019 -)Tiedekunta (- 2018)Tutkinto-ohjelmat ja opintosuunnatAvainsanatJulkaisuajatKokoelmat

Omat tiedot

Kirjaudu sisäänRekisteröidy
Kalevantie 5
PL 617
33014 Tampereen yliopisto
oa[@]tuni.fi | Tietosuoja | Saavutettavuusseloste