Hyppää sisältöön
    • Suomeksi
    • In English
Trepo
  • Suomeksi
  • In English
  • Kirjaudu
Näytä viite 
  •   Etusivu
  • Trepo
  • Opinnäytteet - ylempi korkeakoulututkinto
  • Näytä viite
  •   Etusivu
  • Trepo
  • Opinnäytteet - ylempi korkeakoulututkinto
  • Näytä viite
JavaScript is disabled for your browser. Some features of this site may not work without it.

Vastindokumenttikokoelmien automaattinen luominen kieltenvälisessä tiedonhaussa.

TALVENSAARI, TUOMAS (2004)

 
Avaa tiedosto
Talvensaari_Tuomas.pdf (506.5Kt)
Lataukset: 



TALVENSAARI, TUOMAS
2004

Tietojenkäsittelyoppi - Computer Science
Informaatiotieteiden tiedekunta - Faculty of Information Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2004-03-31
Näytä kaikki kuvailutiedot
Julkaisun pysyvä osoite on
https://urn.fi/urn:nbn:fi:uta-1-12847
Tiivistelmä
Kieltenvälisessä tiedonhaussa haun kohteena olevat dokumentit ja hakulause, eli kysely, ovat erikielisiä. Kielimuurin ylittämiseksi kysely useimmiten käännetään dokumenttikokoelman kielelle. Käännösmenetelmät voidaan jakaa karkeasti sanakirjakääntämiseen ja tilastolliseen kääntämiseen, jossa käännöstietämys perustuu laajoihin monikielisiin tekstikokoelmiin. Vastindokumenttikokoelmissa kahden eri kielen dokumentit vastaavat toisiaan aiheeltaan ja yleensä myös ajankohdaltaan.

Tässä tutkielmassa esitellään menetelmä, jolla kahdesta eri kielillä kirjoitetusta dokumenttikokoelmasta luodaan vastindokumenttikokoelma. Lähtökielen dokumenteista erotellaan tilastollisin menetelmin niiden parhaat erottelijasanat, jotka sitten käännetään UTACLIR-kyselynkäännöskoneella. Käännetyllä kyselyllä tehdään haku kohdekielen kokoelmasta, ja hakutuloksen kärkeen sijoittunut dokumentti valitaan lähtödokumentin vastinpariksi. Haku tehdään tätä tutkielmaa varten ohjelmoidulla hakukoneella, joka perustuu tiedonhaun vektorimalliin.

Menetelmää kokeiltiin hakemalla suomenkieliselle dokumenttikokoelmalle vastinpareja englanninkielisestä kokoelmasta. Luodun vastindokumenttikokoelman koko oli pieni (682 dokumenttiparia), eikä sitä voitu vielä kokeilla tilastollisen kääntämisen apuvälineenä. Dokumenttiparien vastaavuutta arvioitiin kuitenkin viisiportaisella asteikolla ja tulokset olivat lupaavia: noin 75 %:lla pareista oli ainakin sanastollista vastaavuutta.
Kokoelmat
  • Opinnäytteet - ylempi korkeakoulututkinto [40800]
Kalevantie 5
PL 617
33014 Tampereen yliopisto
oa[@]tuni.fi | Tietosuoja | Saavutettavuusseloste
 

 

Selaa kokoelmaa

TekijätNimekkeetTiedekunta (2019 -)Tiedekunta (- 2018)Tutkinto-ohjelmat ja opintosuunnatAvainsanatJulkaisuajatKokoelmat

Omat tiedot

Kirjaudu sisäänRekisteröidy
Kalevantie 5
PL 617
33014 Tampereen yliopisto
oa[@]tuni.fi | Tietosuoja | Saavutettavuusseloste