Kone ihmisten joukossa: Kevyesti jälkieditoidun konekäännöksen laatu ihmiskäännökseen verrattuna
Halme, Santeri (2022)
Halme, Santeri
2022
Monikielisen viestinnän ja käännöstieteen maisteriohjelma - Master's Programme in Multilingual Communication and Translation Studies
Informaatioteknologian ja viestinnän tiedekunta - Faculty of Information Technology and Communication Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2022-05-19
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:tuni-202204263678
https://urn.fi/URN:NBN:fi:tuni-202204263678
Tiivistelmä
Julkisilla, maksutta käytettävissä olevilla konekäänninjärjestelmillä käännetään päivittäin satoja miljardeja sanoja ja lauseita. Ihmiskääntäjiä ei yksinkertaisesti riittäisi kääntämään tätä kaikkea sisältöä, siksi konekäänninteknologian kehitys on tärkeä askel monikielisessä ja tehokkuutta ihannoivassa maailmassa. Konekääntimien, erityisesti neuroverkkokääntimien, käännöslaatu on viime vuosina parantunut huomattavasti. Tämän tutkimuksen tavoitteena on selvittää, kuinka laadukkaita kevyesti jälkieditoidut neuroverkkokääntimet mahdollisesti ovat, ja miten ne ovat verrattavissa ihmiskäännöksiin.
Neuroverkkokääntimen väitettyä hyvää laatua tutkitaan tässä tutkimuksessa preferenssijärjestyksen avulla. Tässä tutkimusasetelmassa ihmiskäännökset ja konekäännökset tuodaan vastaajien arvioitaviksi pelkän kohdetekstin kontekstissa ja keskitytään vain vastaajien mielipiteeseen ja käännösten kielelliseen laadukkuuteen. Vastaajia pyydetään asettamaan käännökset omaan henkilökohtaiseen mielipiteeseen perustuvaan paremmuusjärjestykseen. Tutkimuksen konekäännökset jälkieditoidaan kevyesti, jotta konekääntimille yleiset, kuten oikeinkirjoitukselliset virheet saadaan korjattua.
Tutkimuksen analyysin teoreettisena viitekehyksenä käytetään konekäännösten manuaalista laadunarviointia, konekäännösten jälkieditointia sekä empiiristä preferenssijärjestyskyselyä. Aihetta lähestytään tavoitteella vastata seuraaviin tutkimuskysymyksiin: 1) Millaiseen preferenssijärjestykseen ihmiskäännökset ja kevyesti jälkieditoidut konekäännökset sijoittuvat? 2) Ilmeneekö kieliammattilaisten ja ei kieliammattilaisten preferenssijärjestyksissä eroja? 3) Miten empiirinen ja teoreettinen konekäännöslaatu eroavat toisistaan, jos eroavat?
Tutkimuksen tuloksista kävi ilmi, että ihmiskäännökset arvioitiin selkeästi laadukkaammiksi kuin konekäännökset. Vaikka tutkimuksen kahdesta lähtötekstistä toisen käännöstekstin konekäännökset sijoittuivat pelkän paremmuusjärjestyksen valossa paremmin kuin ihmiskäännökset, arvioitiin ihmiskäännökset määrällisesti selvästi laadukkaammiksi molempien käännöstekstien tapauksissa. Kieliammattilaisten ja ei kieliammattilaisten paremmuusjärjestyksessä ilmeni eroja ainoastaan siinä tapauksessa, jos ei kieliammattilaiset olivat omasta mielestään epävarmoja sen suhteen, pystyvätkö he tunnistamaan konekäännöksen ihmiskäännöksestä. Teoreettinen ja empiirinen konekäännöslaatu eivät eronneet toisistaan merkittävällä tavalla.
Tutkimuksen tuloksista voidaan päätellä, että puhtaasti käännöslaatua arvioitaessa ihmisten tekemät käännökset ovat valtaosan mielestä laadukkaampia kuin kevyesti jälkieditoidut konekäännökset. Kieliammattilaisuuskaan ei ole suoranaisesti edellytys sille, tunnistaako henkilö kielellisiä epätavallisuuksia. Vaikka tutkimuksen relevanssi piilee kohdekielisen tekstin analysoimisessa, tutkimusta voi tulevaisuudessa laajentaa esimerkiksi lisäämällä arvioitavien käännösten määrää ja keskittymällä myös esimerkiksi käännösten kustannuksiin.
Neuroverkkokääntimen väitettyä hyvää laatua tutkitaan tässä tutkimuksessa preferenssijärjestyksen avulla. Tässä tutkimusasetelmassa ihmiskäännökset ja konekäännökset tuodaan vastaajien arvioitaviksi pelkän kohdetekstin kontekstissa ja keskitytään vain vastaajien mielipiteeseen ja käännösten kielelliseen laadukkuuteen. Vastaajia pyydetään asettamaan käännökset omaan henkilökohtaiseen mielipiteeseen perustuvaan paremmuusjärjestykseen. Tutkimuksen konekäännökset jälkieditoidaan kevyesti, jotta konekääntimille yleiset, kuten oikeinkirjoitukselliset virheet saadaan korjattua.
Tutkimuksen analyysin teoreettisena viitekehyksenä käytetään konekäännösten manuaalista laadunarviointia, konekäännösten jälkieditointia sekä empiiristä preferenssijärjestyskyselyä. Aihetta lähestytään tavoitteella vastata seuraaviin tutkimuskysymyksiin: 1) Millaiseen preferenssijärjestykseen ihmiskäännökset ja kevyesti jälkieditoidut konekäännökset sijoittuvat? 2) Ilmeneekö kieliammattilaisten ja ei kieliammattilaisten preferenssijärjestyksissä eroja? 3) Miten empiirinen ja teoreettinen konekäännöslaatu eroavat toisistaan, jos eroavat?
Tutkimuksen tuloksista kävi ilmi, että ihmiskäännökset arvioitiin selkeästi laadukkaammiksi kuin konekäännökset. Vaikka tutkimuksen kahdesta lähtötekstistä toisen käännöstekstin konekäännökset sijoittuivat pelkän paremmuusjärjestyksen valossa paremmin kuin ihmiskäännökset, arvioitiin ihmiskäännökset määrällisesti selvästi laadukkaammiksi molempien käännöstekstien tapauksissa. Kieliammattilaisten ja ei kieliammattilaisten paremmuusjärjestyksessä ilmeni eroja ainoastaan siinä tapauksessa, jos ei kieliammattilaiset olivat omasta mielestään epävarmoja sen suhteen, pystyvätkö he tunnistamaan konekäännöksen ihmiskäännöksestä. Teoreettinen ja empiirinen konekäännöslaatu eivät eronneet toisistaan merkittävällä tavalla.
Tutkimuksen tuloksista voidaan päätellä, että puhtaasti käännöslaatua arvioitaessa ihmisten tekemät käännökset ovat valtaosan mielestä laadukkaampia kuin kevyesti jälkieditoidut konekäännökset. Kieliammattilaisuuskaan ei ole suoranaisesti edellytys sille, tunnistaako henkilö kielellisiä epätavallisuuksia. Vaikka tutkimuksen relevanssi piilee kohdekielisen tekstin analysoimisessa, tutkimusta voi tulevaisuudessa laajentaa esimerkiksi lisäämällä arvioitavien käännösten määrää ja keskittymällä myös esimerkiksi käännösten kustannuksiin.