Towards Comprehension of Imperfect Machine Translation : an Analysis of Strategies Employed by Users
Haavisto, Milja (2024)
Haavisto, Milja
2024
Kielten kandidaattiohjelma - Bachelor's Programme in Languages
Informaatioteknologian ja viestinnän tiedekunta - Faculty of Information Technology and Communication Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2024-08-29
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:tuni-202408288404
https://urn.fi/URN:NBN:fi:tuni-202408288404
Tiivistelmä
Machine translation software of today can produce highly fluent translations. These applications are used in all areas of life, and their users constitute for an immensely diverse group of people, businesses and organisations. In this bachelor’s thesis I examine the question of how users who employ machine translation software applications mainly for study purposes enhance their comprehension of output when it is grammatically or stylistically ill-formed. In the context of this research, I name these users “study users”. My secondary objective is to examine the data from the perspective of what the results derived from it can tell us about the user group, study users, as a whole.
I analyse survey data that was collected in 2019 by Mary Nurminen in collaboration with the Finnish translation and localisation software company Multilizer Oy. I apply both qualitative and quantitative methods to analyse the data. I classify my findings according to a categorisation system I developed specifically for this study. My categorisation model is data-driven, meaning that each category in it is based on a comprehension strategy I identified in the data. In total, I identified 17 comprehension strategies in the data. I report the findings of analysis regarding the five most popular categories in detail. These include Language proficiency (n=101), Source text (n=70), Subject knowledge (n=53), Context (n=51), and Comparison n=42).
Analysis of responses classified into these five categories reveals that the surveyed study users approach inadequate machine translation output from two angles: 1) they make use of their language proficiency, and 2) they employ subject-matter knowledge that is either previously acquired or inferred from the context in which the translation appears. Earlier research has emphasised the significance that even poor source language proficiency has in the process of deriving meaning from imperfect machine translation output. My findings are consistent with previous research. Tänä päivänä erilaiset konekäänninohjelmistot voivat tekoälyn avulla tuottaa erittäin sujuvia ja oikeakielisiä käännöksiä. Konekääntimiä käytetäänkin kaikilla eri elämän osa-alueilla, ja niiden käyttäjät muodostavat kirjavan joukon erilaisia ja eri lähtökohdista tulevia ihmisiä, yrityksiä ja organisaatioita. Perehdyn tässä kandidaatintutkielmassa ensisijaisesti siihen, miten konekäänninten käyttäjät lisäävät ymmärrystään käännöksistä silloin, kun ne ovat jollakin tapaa kieliopillisesti tai tyylillisesti vajavaisia. Tutkimuksen kohderyhmän muodostavat opintotarkoituksiin konekääntimiä käyttävät henkilöt, joita kutsun tutkielmassa opintokäyttäjiksi (engl. ”study users”). Toissijaisesti tarkastelen tutkimusdataa myös siitä näkökulmasta, mitä siitä johdetut tulokset voivat kertoa konekääntimiä opintotarkoituksiin käyttävistä henkilöistä ryhmänä.
Tutkimusaineistona käytän kyselydataa, jonka Mary Nurminen on kerännyt yhteistyössä käännösohjelmistoyritys Multilizer Oy:n kanssa vuonna 2019. Käytän tutkielmassa sekä laadullisia että määrällisiä tutkimusmenetelmiä. Jaottelen datassa esiintyvät opintokäyttäjien ymmärtämisen strategiat itse tätä tutkimusta varten kehittämäni mallin mukaisesti. Kategorisointimalli perustuu analysoimaani dataan ja sisältää yhteensä 17 kategoriaa kuvaamaan eri ymmärtämisen strategioita. Raportoin tarkemmin analyysin tulokset koskien niitä 5 kategoriaa, joita datassa esiintyi eniten. Näitä ovat Kielitaito (n=101), Lähdeteksti (n=70), Aihetietämys (n=53), Konteksti (n=51) ja Vertaaminen (n=42).
Näiden viiden ymmärtämisstrategian analysoinnista johdetut päätelmät viittaavat siihen, että konekääntimien opintokäyttäjät lähestyvät puutteellisia käännöksiä kahdesta erilaisesta tulokulmasta, joita ovat 1) kielitaito sekä 2) aiemmin hankittu tai tekstin kontekstista pääteltävissä oleva tieto. Aiempi tutkimus on painottanut, että kehnokin lähdekielen taito on hyödyksi käyttäjän jäsentäessä tyylillisesti tai kieliopillisesti puutteellisen konekäännöksen merkityksiä. Johtopäätökseni ovat linjassa aiempien tutkimustulosten kanssa.
I analyse survey data that was collected in 2019 by Mary Nurminen in collaboration with the Finnish translation and localisation software company Multilizer Oy. I apply both qualitative and quantitative methods to analyse the data. I classify my findings according to a categorisation system I developed specifically for this study. My categorisation model is data-driven, meaning that each category in it is based on a comprehension strategy I identified in the data. In total, I identified 17 comprehension strategies in the data. I report the findings of analysis regarding the five most popular categories in detail. These include Language proficiency (n=101), Source text (n=70), Subject knowledge (n=53), Context (n=51), and Comparison n=42).
Analysis of responses classified into these five categories reveals that the surveyed study users approach inadequate machine translation output from two angles: 1) they make use of their language proficiency, and 2) they employ subject-matter knowledge that is either previously acquired or inferred from the context in which the translation appears. Earlier research has emphasised the significance that even poor source language proficiency has in the process of deriving meaning from imperfect machine translation output. My findings are consistent with previous research.
Tutkimusaineistona käytän kyselydataa, jonka Mary Nurminen on kerännyt yhteistyössä käännösohjelmistoyritys Multilizer Oy:n kanssa vuonna 2019. Käytän tutkielmassa sekä laadullisia että määrällisiä tutkimusmenetelmiä. Jaottelen datassa esiintyvät opintokäyttäjien ymmärtämisen strategiat itse tätä tutkimusta varten kehittämäni mallin mukaisesti. Kategorisointimalli perustuu analysoimaani dataan ja sisältää yhteensä 17 kategoriaa kuvaamaan eri ymmärtämisen strategioita. Raportoin tarkemmin analyysin tulokset koskien niitä 5 kategoriaa, joita datassa esiintyi eniten. Näitä ovat Kielitaito (n=101), Lähdeteksti (n=70), Aihetietämys (n=53), Konteksti (n=51) ja Vertaaminen (n=42).
Näiden viiden ymmärtämisstrategian analysoinnista johdetut päätelmät viittaavat siihen, että konekääntimien opintokäyttäjät lähestyvät puutteellisia käännöksiä kahdesta erilaisesta tulokulmasta, joita ovat 1) kielitaito sekä 2) aiemmin hankittu tai tekstin kontekstista pääteltävissä oleva tieto. Aiempi tutkimus on painottanut, että kehnokin lähdekielen taito on hyödyksi käyttäjän jäsentäessä tyylillisesti tai kieliopillisesti puutteellisen konekäännöksen merkityksiä. Johtopäätökseni ovat linjassa aiempien tutkimustulosten kanssa.
Kokoelmat
- Kandidaatintutkielmat [8709]