Vastindokumenttikokoelmien automaattinen luominen kieltenvälisessä tiedonhaussa.
TALVENSAARI, TUOMAS (2004)
TALVENSAARI, TUOMAS
2004
Tietojenkäsittelyoppi - Computer Science
Informaatiotieteiden tiedekunta - Faculty of Information Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2004-03-31
Julkaisun pysyvä osoite on
https://urn.fi/urn:nbn:fi:uta-1-12847
https://urn.fi/urn:nbn:fi:uta-1-12847
Tiivistelmä
Kieltenvälisessä tiedonhaussa haun kohteena olevat dokumentit ja hakulause, eli kysely, ovat erikielisiä. Kielimuurin ylittämiseksi kysely useimmiten käännetään dokumenttikokoelman kielelle. Käännösmenetelmät voidaan jakaa karkeasti sanakirjakääntämiseen ja tilastolliseen kääntämiseen, jossa käännöstietämys perustuu laajoihin monikielisiin tekstikokoelmiin. Vastindokumenttikokoelmissa kahden eri kielen dokumentit vastaavat toisiaan aiheeltaan ja yleensä myös ajankohdaltaan.
Tässä tutkielmassa esitellään menetelmä, jolla kahdesta eri kielillä kirjoitetusta dokumenttikokoelmasta luodaan vastindokumenttikokoelma. Lähtökielen dokumenteista erotellaan tilastollisin menetelmin niiden parhaat erottelijasanat, jotka sitten käännetään UTACLIR-kyselynkäännöskoneella. Käännetyllä kyselyllä tehdään haku kohdekielen kokoelmasta, ja hakutuloksen kärkeen sijoittunut dokumentti valitaan lähtödokumentin vastinpariksi. Haku tehdään tätä tutkielmaa varten ohjelmoidulla hakukoneella, joka perustuu tiedonhaun vektorimalliin.
Menetelmää kokeiltiin hakemalla suomenkieliselle dokumenttikokoelmalle vastinpareja englanninkielisestä kokoelmasta. Luodun vastindokumenttikokoelman koko oli pieni (682 dokumenttiparia), eikä sitä voitu vielä kokeilla tilastollisen kääntämisen apuvälineenä. Dokumenttiparien vastaavuutta arvioitiin kuitenkin viisiportaisella asteikolla ja tulokset olivat lupaavia: noin 75 %:lla pareista oli ainakin sanastollista vastaavuutta.
Tässä tutkielmassa esitellään menetelmä, jolla kahdesta eri kielillä kirjoitetusta dokumenttikokoelmasta luodaan vastindokumenttikokoelma. Lähtökielen dokumenteista erotellaan tilastollisin menetelmin niiden parhaat erottelijasanat, jotka sitten käännetään UTACLIR-kyselynkäännöskoneella. Käännetyllä kyselyllä tehdään haku kohdekielen kokoelmasta, ja hakutuloksen kärkeen sijoittunut dokumentti valitaan lähtödokumentin vastinpariksi. Haku tehdään tätä tutkielmaa varten ohjelmoidulla hakukoneella, joka perustuu tiedonhaun vektorimalliin.
Menetelmää kokeiltiin hakemalla suomenkieliselle dokumenttikokoelmalle vastinpareja englanninkielisestä kokoelmasta. Luodun vastindokumenttikokoelman koko oli pieni (682 dokumenttiparia), eikä sitä voitu vielä kokeilla tilastollisen kääntämisen apuvälineenä. Dokumenttiparien vastaavuutta arvioitiin kuitenkin viisiportaisella asteikolla ja tulokset olivat lupaavia: noin 75 %:lla pareista oli ainakin sanastollista vastaavuutta.