Venäjän kielen morfologiset ongelmat tiedonhaussa: Riittääkö sijamuotojen rajoitettu tuottaminen ratkaisuksi?
HOLSTILA, MARJA (2011)
HOLSTILA, MARJA
2011
Informaatiotutkimus ja interaktiivinen media - Information Studies and Interactive Media
Informaatiotieteiden yksikkö - School of Information Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2011-08-26
Julkaisun pysyvä osoite on
https://urn.fi/urn:nbn:fi:uta-1-21712
https://urn.fi/urn:nbn:fi:uta-1-21712
Tiivistelmä
Tämän tutkielman tarkoituksena on tarkastella venäjän kielen morfologiaa tiedonhaun näkökulmasta sekä selvittää Frequent Case Generation (FCG) -menetelmän toimivuutta venäjänkielisessä tiedonhaussa. Kimmo Kettusen ja kumppaneiden FCG-hakumenetelmän on todettu toimivan hyvin morfologialtaan venäjän tavoin mutkikkailla kielillä. Voimakkaasti taipuvien kielten substantiivien ja adjektiivien lukuisat sijamuodot ovat tiedonhaun kannalta haastavia. Rajoitetusti sijamuotoja hakuavaimille tuottava FCG perustuu siihen, että kielten potentiaalisista sanamuodoista vain harvat esiintyvät teksteissä usein.
Venäjän kielen morfologian pääpiirteitä käydään tutkielmassa läpi yhtäältä kielioppikirjallisuuden ja toisaalta tiedonhaun kielitypologian ja tiedonhaun kieliteknologian lingvististen menetelmien näkökulmasta. Tutkielman empiirisen osan tiedonhaun laboratoriokokeessa kolmea FCG-versiota vertaillaan hakuun morfologisesti käsittelemättömillä avaimilla seuraten venäjän sijamuotojen tuottamisessa Kettusen ja kumppaneiden (2007) esimerkkiä. Testikokoelmana kokeessa on erittäin suuri KM.ru-tietokanta.
Tiedonhaun kannalta olennaiseen taivutusmorfologiaan liittyy venäjässä piirteitä, joiden perusteella FCG:n voidaan olettaa soveltuvan venäjänkieliseen tiedonhakuun hyvin ja jopa paremmin kuin yleisesti käytössä olevien menetelmien. Tämän tutkielman FCG-kokeen tulokset ovat samansuuntaisia kuin Kettusen ja kumppaneiden (2007), ja em. oletukset saavat lisäoikeutusta. Venäjän adjektiivien sukukategoria saattaa kuitenkin aiheuttaa ongelmia, jos hakuavaimet perusmuotoistetaan FCG-käsittelyä varten automaattisesti.
Tutkielman rajoitus on se, että FCG-menetelmää ei kokeessa verrata muihin hyviksi havaittuihin tiedonhakumenetelmiin, vaan verrokkina on ainoastaan haku taivutusmuotoisilla avaimilla. Samalla testikokoelmalla tulisi kokeilla myös reduktiivisia menetelmiä ja verrata niiden tuloksellisuutta FCG-tuloksiin.
Tutkielma tarjoaa yleiskatsauksen venäjän morfologiaan tiedonhaussa sekä lisänäyttöä siitä, että sijamuotojen rajoitettu tuottaminen on venäjänkielisessä tiedonhaussa toimiva ratkaisu. Frequent Case Generation -menetelmää ei ole aiemmin kokeiltu suurella venäjänkielisellä aineistolla. Suuri kokoelma lisää koetulosten luotettavuutta.
Asiasanat:tiedonhaku, kieliteknologia, morfologia, venäjän kieli, FCG
Venäjän kielen morfologian pääpiirteitä käydään tutkielmassa läpi yhtäältä kielioppikirjallisuuden ja toisaalta tiedonhaun kielitypologian ja tiedonhaun kieliteknologian lingvististen menetelmien näkökulmasta. Tutkielman empiirisen osan tiedonhaun laboratoriokokeessa kolmea FCG-versiota vertaillaan hakuun morfologisesti käsittelemättömillä avaimilla seuraten venäjän sijamuotojen tuottamisessa Kettusen ja kumppaneiden (2007) esimerkkiä. Testikokoelmana kokeessa on erittäin suuri KM.ru-tietokanta.
Tiedonhaun kannalta olennaiseen taivutusmorfologiaan liittyy venäjässä piirteitä, joiden perusteella FCG:n voidaan olettaa soveltuvan venäjänkieliseen tiedonhakuun hyvin ja jopa paremmin kuin yleisesti käytössä olevien menetelmien. Tämän tutkielman FCG-kokeen tulokset ovat samansuuntaisia kuin Kettusen ja kumppaneiden (2007), ja em. oletukset saavat lisäoikeutusta. Venäjän adjektiivien sukukategoria saattaa kuitenkin aiheuttaa ongelmia, jos hakuavaimet perusmuotoistetaan FCG-käsittelyä varten automaattisesti.
Tutkielman rajoitus on se, että FCG-menetelmää ei kokeessa verrata muihin hyviksi havaittuihin tiedonhakumenetelmiin, vaan verrokkina on ainoastaan haku taivutusmuotoisilla avaimilla. Samalla testikokoelmalla tulisi kokeilla myös reduktiivisia menetelmiä ja verrata niiden tuloksellisuutta FCG-tuloksiin.
Tutkielma tarjoaa yleiskatsauksen venäjän morfologiaan tiedonhaussa sekä lisänäyttöä siitä, että sijamuotojen rajoitettu tuottaminen on venäjänkielisessä tiedonhaussa toimiva ratkaisu. Frequent Case Generation -menetelmää ei ole aiemmin kokeiltu suurella venäjänkielisellä aineistolla. Suuri kokoelma lisää koetulosten luotettavuutta.
Asiasanat:tiedonhaku, kieliteknologia, morfologia, venäjän kieli, FCG