Comparable Corpora in Cross-Language Information Retrieval
Talvensaari, Tuomas (2008)
Talvensaari, Tuomas
Tampere University Press Tampereen yliopisto
2008
Tietojenkäsittelyoppi - Computer Science
Informaatiotieteiden tiedekunta - Faculty of Information Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Väitöspäivä
2008-09-26
Julkaisun pysyvä osoite on
https://urn.fi/urn:isbn:978-951-44-7490-3
https://urn.fi/urn:isbn:978-951-44-7490-3
Tiivistelmä
Kieltenvälisessä tiedonhaussa (engl. Cross-Language Information Retrieval, CLIR) pyritään etsimään relevantteja dokumentteja kyselyihin, jotka on esitetty eri kielellä kuin haettavat dokumentit. CLIR-järjestelmän käyttäjä voi tuottaa kyselyn esimerkiksi suomen kielellä (lähtökieli) ja hakea ruotsinkielisiä (kohdekieli) dokumentteja. Kieltenvälinen tiedonhaku on hyödyllistä muun muassa silloin, kun tiedonhakija ymmärtää kohdekielen tekstiä, mutta ei osaa tuottaa sitä. CLIR-järjestelmien kysyntä on kasvanut etenkin internetin nousun myötä, kun yhä enemmän tietoa on tarjolla yhä useammalla kielellä.
Kyselyn kääntämiseen käytetyn tietämyksen laatu on keskeistä kieltenvälisessä tiedonhaussa. Yksinkertaisin käännöstapa on korvata kyselyn sanat sanakirjasta löytyvillä käännösvastineilla. Toinen yleisesti käytetty tapa on hyödyntää käännöksessä monikielisistä tekstikokoelmista (korpuksista) hankittua tietämystä erilaisilla sanafrekvensseihin perustuvilla tilastollisilla menetelmillä. Näissä korpuksissa kahden kielen dokumentit on rinnastettu pareiksi siten, että rinnakkaiskorpuksissa (engl. parallel corpus) parit ovat toistensa käännöksi, kun taas vertailukorpuksissa (engl. comparable corpus) vastaavuus on heikompaa. Esimerkiksi Euroopan Unionin lakikokoelmaa on käytetty rinnakkaiskorpuksena; kukin dokumentti (lakipykälä) on käännetty usealle eri kielille. Toisaalta kokoelma ruotsin- ja suomenkielisiä Wikipedia-sivuja on esimerkki vertailukorpuksesta: artikkelit käsittelevät samoja asioita, mutta ne eivät ole toistensa käännöksiä. Sanakirjojen ja rinnakkaiskorpusten käännöstietämys on laadukasta, mutta joskus joudutaan turvautumaan vertailukorpuksiin, koska kyselyissä saattaa esiintyä luotettavammista lähteistä puuttuvia sanoja, joita ovat muun muassa harvinaisemmat erisnimet, uudet muoti-ilmaukset tai tietyn aihealueen erityissanasto. Vertailukorpusten käännöstietämys on huonompilaatuista, mutta heikommat rinnastukset helpommin tuotettavissa harvinaisemmille aihealueille ja kielipareille.
Väitöskirjatutkimuksessa esitetään uusia menetelmiä vertailukorpusten hankkimiseen, rinnastukseen ja niiden hyödyntämiseen kieltenvälisen tiedonhaun kyselynkäännöksessä. Hankintavaiheessa haetaan annetun aihealueen lähtö- ja kohdekielisiä dokumentteja internetistä. Rinnastusvaiheessa lähtökieliset dokumentit käännetään kohdekielelle käytettävissä olevilla käännösmenetelmillä, minkä jälkeen käännettyjä dokumentteja käytetään kyselyinä, joilla haetaan kohdekielen dokumenteista aiheeltaan vastaavia dokumentteja. Näin luodut rinnastukset muodostavat vertailukorpuksen, jota käytetään kyselynkäännöksessä hyödyntämällä tiedonhaun vektorimallia käänteisellä tavalla. Yleensä vektorimallia sovelletaan dokumenttihakuun, mutta nyt lähtökielen käännettävää sanaa ajatellaan kyselynä, jonka vastaukseksi haetaan kohdekielen sanoja, jotka mahdollisimman hyvin vastaavat lähtösanaa.
Väitöskirjassa esitettyjä menetelmiä arvioidaan tiedonhaun laboratoriomallin puitteissa. Tulokset osittavat, että esitellyillä menetelmillä voidaan parantaa CLIR-järjestelmän kykyä löytää relevantteja dokumentteja varsinkin, kun kyselyt käsittelevät aihealuetta, jonka sanastoa yleisemmät käännösresurssit (sanakirjat ja rinnakkaiskorpukset) eivät kata. Tällaisia aihealueita ovat muun muassa tekniikka (esimerkiksi geeniteknologia tai tietotekniikka) ja erilaiset alakulttuurit, joiden kieli ei pääse esiin virallisissa yhteyksissä. Väitöskirjan menetelmillä voidaan tuottaa myös käännöstietämystä kielille, joille ei ole saatavissa yleisempiä käännösresursseja.
Kyselyn kääntämiseen käytetyn tietämyksen laatu on keskeistä kieltenvälisessä tiedonhaussa. Yksinkertaisin käännöstapa on korvata kyselyn sanat sanakirjasta löytyvillä käännösvastineilla. Toinen yleisesti käytetty tapa on hyödyntää käännöksessä monikielisistä tekstikokoelmista (korpuksista) hankittua tietämystä erilaisilla sanafrekvensseihin perustuvilla tilastollisilla menetelmillä. Näissä korpuksissa kahden kielen dokumentit on rinnastettu pareiksi siten, että rinnakkaiskorpuksissa (engl. parallel corpus) parit ovat toistensa käännöksi, kun taas vertailukorpuksissa (engl. comparable corpus) vastaavuus on heikompaa. Esimerkiksi Euroopan Unionin lakikokoelmaa on käytetty rinnakkaiskorpuksena; kukin dokumentti (lakipykälä) on käännetty usealle eri kielille. Toisaalta kokoelma ruotsin- ja suomenkielisiä Wikipedia-sivuja on esimerkki vertailukorpuksesta: artikkelit käsittelevät samoja asioita, mutta ne eivät ole toistensa käännöksiä. Sanakirjojen ja rinnakkaiskorpusten käännöstietämys on laadukasta, mutta joskus joudutaan turvautumaan vertailukorpuksiin, koska kyselyissä saattaa esiintyä luotettavammista lähteistä puuttuvia sanoja, joita ovat muun muassa harvinaisemmat erisnimet, uudet muoti-ilmaukset tai tietyn aihealueen erityissanasto. Vertailukorpusten käännöstietämys on huonompilaatuista, mutta heikommat rinnastukset helpommin tuotettavissa harvinaisemmille aihealueille ja kielipareille.
Väitöskirjatutkimuksessa esitetään uusia menetelmiä vertailukorpusten hankkimiseen, rinnastukseen ja niiden hyödyntämiseen kieltenvälisen tiedonhaun kyselynkäännöksessä. Hankintavaiheessa haetaan annetun aihealueen lähtö- ja kohdekielisiä dokumentteja internetistä. Rinnastusvaiheessa lähtökieliset dokumentit käännetään kohdekielelle käytettävissä olevilla käännösmenetelmillä, minkä jälkeen käännettyjä dokumentteja käytetään kyselyinä, joilla haetaan kohdekielen dokumenteista aiheeltaan vastaavia dokumentteja. Näin luodut rinnastukset muodostavat vertailukorpuksen, jota käytetään kyselynkäännöksessä hyödyntämällä tiedonhaun vektorimallia käänteisellä tavalla. Yleensä vektorimallia sovelletaan dokumenttihakuun, mutta nyt lähtökielen käännettävää sanaa ajatellaan kyselynä, jonka vastaukseksi haetaan kohdekielen sanoja, jotka mahdollisimman hyvin vastaavat lähtösanaa.
Väitöskirjassa esitettyjä menetelmiä arvioidaan tiedonhaun laboratoriomallin puitteissa. Tulokset osittavat, että esitellyillä menetelmillä voidaan parantaa CLIR-järjestelmän kykyä löytää relevantteja dokumentteja varsinkin, kun kyselyt käsittelevät aihealuetta, jonka sanastoa yleisemmät käännösresurssit (sanakirjat ja rinnakkaiskorpukset) eivät kata. Tällaisia aihealueita ovat muun muassa tekniikka (esimerkiksi geeniteknologia tai tietotekniikka) ja erilaiset alakulttuurit, joiden kieli ei pääse esiin virallisissa yhteyksissä. Väitöskirjan menetelmillä voidaan tuottaa myös käännöstietämystä kielille, joille ei ole saatavissa yleisempiä käännösresursseja.
Kokoelmat
- Väitöskirjat [4944]