Dictionary-Based Cross-Language Information Retrieval: Principles, System Design and Evaluation
Hedlund, Turid (2003)
Hedlund, Turid
Tampere University Press
2003
Informaatiotutkimus - Information Studies
Informaatiotieteiden tiedekunta - Faculty of Information Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Väitöspäivä
2003-11-08
Julkaisun pysyvä osoite on
https://urn.fi/urn:isbn:951-44-5790-0
https://urn.fi/urn:isbn:951-44-5790-0
Tiivistelmä
Tänä päivänä Internet on tuonut ulottuvillemme hyvin laajan ja nopeasti kasvavan joukon erikielistä informaatiota. Useat meistä hallitsevat jotakin vierasta kieltä siinä laajuudessa että pystymme lukemaan ja omaksumaan vieraskielistä tekstiä, sen sijaan tiedohaku joka vaatii oikeiden käsitteiden hallitsemista vieraalla kielellä on selvästi vaikeampaa. Tämä väitöskirja käsittelee kieltenvälistä tekstitiedonhakua missä kysely suoritetaan eri kielellä kuin kohteena olevat dokumentit, eli haun lähtökieli on eri kuin kohdekielenä oleva dokumenttitietokanta.
Tiedonhaussa käytettävät ohjelmat on perinteisesti kehitetty vastaamaan englannin kielen tarpeita kun taas pienten kielten tarpeet esim. ruotsi ja muut skandinaaviset kielet ovat jääneet vähemmälle huomiolle. Eri kielet ovat kuitenkin ominaisuuksiltaan hyvin erilaiset ja väitöskirjan tutkimustuloksena todetaan että kielelliset aspektit on syytä huomioida erityisesti kun luodaan ja tutkitaan kieltenvälisen tiedonhaun periaatteita ja kehitetään kieltenvälisen tiedonhaun ohjelmia. Tutkimuksessa perehdytään erityisesti yhdyssanaongelmaan yhdyssanarikkaissa kielissä kuten ruotsi, suomi ja saksa sekä kehitellään menetelmiä niiden hallintaan kieltenvälisessä tiedonhaussa.
Tutkimuksen empiirisessä osassa kehitettiin kieltenvälisen tiedonhaun tarpeisiin automaattista sanakirjaperusteista kyselyn käännössysteemiä UTACLIR. Systeemin evaluoinnissa käytettiin hyvin laajaa, 80 kyselyä käsittävä setti kolmella kielellä (ruotsi, suomi ja saksa) ja systeemin koko toimintaa kuten myös sen osakomponenttien toimintaa testattiin englanninkieliseen dokumenttitietokantaan. Systeemiä on evaluoitu myös kansainvälisellä evaluointifoorumillä peräkkäisinä vuosina hyvin tuloksin.
Tiedonhaussa käytettävät ohjelmat on perinteisesti kehitetty vastaamaan englannin kielen tarpeita kun taas pienten kielten tarpeet esim. ruotsi ja muut skandinaaviset kielet ovat jääneet vähemmälle huomiolle. Eri kielet ovat kuitenkin ominaisuuksiltaan hyvin erilaiset ja väitöskirjan tutkimustuloksena todetaan että kielelliset aspektit on syytä huomioida erityisesti kun luodaan ja tutkitaan kieltenvälisen tiedonhaun periaatteita ja kehitetään kieltenvälisen tiedonhaun ohjelmia. Tutkimuksessa perehdytään erityisesti yhdyssanaongelmaan yhdyssanarikkaissa kielissä kuten ruotsi, suomi ja saksa sekä kehitellään menetelmiä niiden hallintaan kieltenvälisessä tiedonhaussa.
Tutkimuksen empiirisessä osassa kehitettiin kieltenvälisen tiedonhaun tarpeisiin automaattista sanakirjaperusteista kyselyn käännössysteemiä UTACLIR. Systeemin evaluoinnissa käytettiin hyvin laajaa, 80 kyselyä käsittävä setti kolmella kielellä (ruotsi, suomi ja saksa) ja systeemin koko toimintaa kuten myös sen osakomponenttien toimintaa testattiin englanninkieliseen dokumenttitietokantaan. Systeemiä on evaluoitu myös kansainvälisellä evaluointifoorumillä peräkkäisinä vuosina hyvin tuloksin.
Kokoelmat
- Väitöskirjat [4905]