Monitulkintaisten sanojen kääntäminen konekäännösjärjestelmillä englannista suomeksi
SALMINEN, ERJA (2012)
SALMINEN, ERJA
2012
Informaatiotutkimus ja interaktiivinen media - Information Studies and Interactive Media
Informaatiotieteiden yksikkö - School of Information Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2012-06-05
Julkaisun pysyvä osoite on
https://urn.fi/urn:nbn:fi:uta-1-22628
https://urn.fi/urn:nbn:fi:uta-1-22628
Tiivistelmä
Konekääntäminen on yksi kääntämismenetelmä kieltenvälisessä tiedonhaussa, ja monitulkintaisten sanojen kääntäminen on yksi kieltenvälisen tiedonhaun haasteista. Tässä tutkimuksessa testattiin, kuinka virheettömästi konekäännösjärjestelmät kääntävät englanninkielisiä monitulkintaisia sanoja suomeksi. Ensimmäisenä selvitettiin, onko virkeyhteydessä esiintyvien yksikäsitteisten ja monitulkintaisten sanojen käännösten laadussa eroja. Toisena tarkasteltiin, onko monitulkintaisten sanojen käännösten laadussa eroja eri konekäännösjärjestelmien välillä. Kolmantena selvitettiin, onko monitulkintaisten sanojen käännösten laadussa eroja erilaajuisten asiayhteyksien välillä. Neljäntenä tarkasteltiin, onko monitulkintaisten sanojen käännösten laadussa eroja sääntöperustaisten ja tilastollisten konekäännösjärjestelmien välillä. Lopuksi määriteltiin, minkä tyyppisiä virheitä konekäännösjärjestelmät tekevät virkeyhteydessä esiintyvien monitulkintaisten sanojen kääntämisessä.
Testattavat järjestelmät olivat TeemaPoint, Sunda, SDL Free Translation, Google Translate ja BingTM Translator Beta, joista kolme ensimmäistä on sääntöperustaisia ja kaksi jälkimmäistä tilastollisia. Aineistona käytettiin 50 englanninkielisen monitulkintaisen sanan ympärille luotua 195 virkeparia, jotka koostuivat virkkeen lyhyestä ja pitkästä versiosta. Monitulkintaiset sanat käännettiin myös yksittäisinä sanoina ilman asiayhteyttä. Käännösten laadun evaluointimittarina käytettiin tarkkuutta.
Tulosten perusteella virkeyhteydessä esiintyvien monitulkintaisten sanojen käännösten laatu on huomattavasti heikompaa kuin yksikäsitteisten sanojen. Kaikkien erilaajuisissa asiayhteyksissä tehtyjen monitulkintaisten sanojen käännösten perusteella Sunda ja Google Translate ovat parhaat järjestelmät ja SDL Free Translation ja BingTM Translator Beta huonoimmat. TeemaPoint jää parhaimpien ja huonoimpien järjestelmien välimaastoon. Järjestelmien keskinäinen paremmuusjärjestys vaihtelee käännettävän monitulkintaisen sanan asiayhteyden laajuudesta riippuen.
Yksittäisinä sanoina käännettyjen monitulkintaisten sanojen käännösten laatu on heikompaa kuin virkeyhteydessä käännettyjen sanojen. Käännösten laadussa ei kuitenkaan ole eroa erilaajuisten virkeyhteyksien välillä.
Kaikkien erilaajuisissa asiayhteyksissä tehtyjen monitulkintaisten sanojen käännösten perusteella sääntöperustaisen ja tilastollisen kääntämismenetelmän käännöslaadussa ei ole eroja. Tilastollinen menetelmä kääntää kuitenkin sääntöperustaista laadukkaammin yksin esiintyviä monitulkintaisia sanoja, kun taas sääntöperustainen menetelmä kääntää tilastollista laadukkaammin virkeyhteydessä esiintyviä monitulkintaisia sanoja.
Virkeyhteydessä esiintyvien monitulkintaisten sanojen käännökset voidaan luokitella kuuteen virhetyyppiin. Yleisin virhe on se, että monitulkintaisen sanan käännökseksi valitaan väärä vaihtoehto tarkasteltavan monitulkintaisen sanan käännösvaihtoehdoista. Toiseksi yleisin virhetyyppi on se, että tarkasteltava monitulkintainen sana jää kokonaan kääntämättä. Muita virhetyyppejä esiintyy selvästi vähemmän. Virhetyyppien osuuksien jakaumissa on eroja järjestelmien välillä.
Asiasanat:kieltenvälinen tiedonhaku, konekääntäminen, monitulkintaisuus, yksikäsitteistäminen
Testattavat järjestelmät olivat TeemaPoint, Sunda, SDL Free Translation, Google Translate ja BingTM Translator Beta, joista kolme ensimmäistä on sääntöperustaisia ja kaksi jälkimmäistä tilastollisia. Aineistona käytettiin 50 englanninkielisen monitulkintaisen sanan ympärille luotua 195 virkeparia, jotka koostuivat virkkeen lyhyestä ja pitkästä versiosta. Monitulkintaiset sanat käännettiin myös yksittäisinä sanoina ilman asiayhteyttä. Käännösten laadun evaluointimittarina käytettiin tarkkuutta.
Tulosten perusteella virkeyhteydessä esiintyvien monitulkintaisten sanojen käännösten laatu on huomattavasti heikompaa kuin yksikäsitteisten sanojen. Kaikkien erilaajuisissa asiayhteyksissä tehtyjen monitulkintaisten sanojen käännösten perusteella Sunda ja Google Translate ovat parhaat järjestelmät ja SDL Free Translation ja BingTM Translator Beta huonoimmat. TeemaPoint jää parhaimpien ja huonoimpien järjestelmien välimaastoon. Järjestelmien keskinäinen paremmuusjärjestys vaihtelee käännettävän monitulkintaisen sanan asiayhteyden laajuudesta riippuen.
Yksittäisinä sanoina käännettyjen monitulkintaisten sanojen käännösten laatu on heikompaa kuin virkeyhteydessä käännettyjen sanojen. Käännösten laadussa ei kuitenkaan ole eroa erilaajuisten virkeyhteyksien välillä.
Kaikkien erilaajuisissa asiayhteyksissä tehtyjen monitulkintaisten sanojen käännösten perusteella sääntöperustaisen ja tilastollisen kääntämismenetelmän käännöslaadussa ei ole eroja. Tilastollinen menetelmä kääntää kuitenkin sääntöperustaista laadukkaammin yksin esiintyviä monitulkintaisia sanoja, kun taas sääntöperustainen menetelmä kääntää tilastollista laadukkaammin virkeyhteydessä esiintyviä monitulkintaisia sanoja.
Virkeyhteydessä esiintyvien monitulkintaisten sanojen käännökset voidaan luokitella kuuteen virhetyyppiin. Yleisin virhe on se, että monitulkintaisen sanan käännökseksi valitaan väärä vaihtoehto tarkasteltavan monitulkintaisen sanan käännösvaihtoehdoista. Toiseksi yleisin virhetyyppi on se, että tarkasteltava monitulkintainen sana jää kokonaan kääntämättä. Muita virhetyyppejä esiintyy selvästi vähemmän. Virhetyyppien osuuksien jakaumissa on eroja järjestelmien välillä.
Asiasanat:kieltenvälinen tiedonhaku, konekääntäminen, monitulkintaisuus, yksikäsitteistäminen