Designing an Automated Translation System For Industrial Content Management
Kaivonen, Jussi Antti Albert (2024)
Kaivonen, Jussi Antti Albert
2024
Tietojohtamisen DI-ohjelma - Master's Programme in Information and Knowledge Management
Johtamisen ja talouden tiedekunta - Faculty of Management and Business
This publication is copyrighted. Only for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2024-03-06
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:tuni-202402122243
https://urn.fi/URN:NBN:fi:tuni-202402122243
Tiivistelmä
In the current era of globalization, conveying information across the world has become an issue faced by many companies. For effective communication, the information needs to be translated into many languages with precision and consistency. This work addresses the design of a system incorporating state-of-the-art artificial intelligence with a Component Content Management System (CCMS) running on Teamcenter Product Lifecycle Management (PLM) system to automate technical document translation. CCMS facilitates the creation and reuse of document fragments, known as topics, enabling efficient content management and translation through reuse.
In this work we investigated the design process of a system architecture which integrates ChatGPT as a translation engine into IDEAL CMS, a CCMS built on top of Teamcenter PLM. This was done through the lens of design science where we aim to create new knowledge on the target artefact and its design process by designing an artefact and evaluating it. During the design process we also investigated the use of Team Data Science Process (TDSP) as a process for developing an integrated generative AI solution, by leveraging it during the design and evaluating its performance.
The resulting architecture was conceptually prototyped, and it performed as expected in the given context. During the evaluation we also noted some future considerations like that the use of a more sanitized format for the content extraction for translation could be beneficial, and that the feasibility of using a translation memory and its applicability should also be investigated. In conclusion we found that leveraging Large Language Models (LLMs) as automated translation systems within an integrated solution is feasible, provided suitable content extraction and import mechanisms are established. In evaluating the research process, this study extends the application of TDSP, by introducing proposed improvements for its use in the development of generative AI systems. These improvement proposals address the different focuses and needs in designing a generative AI system, which were noted during this study. Globalisoituneessa maailmassa tiedon välittäminen ympäri maailmaa on muodostunut monien yritysten kohtaamaksi haasteeksi. Jotta kommunikointi tapahtuisi tehokkaasti, sisältö on käännettävä useille eri kielille tarkasti ja johdonmukaisesti. Tässä työssä tutkitaan suurten kielimallien (Large Language Model, LLM) integroimista Teamcenter PLM järjestelmässä toimivaan rakenteelliseen sisällönhallintajärjestelmään (Component Content Management System, CCMS) dokumenttien automaattista kääntämistä varten. CCMS mahdollistaa dokumenttien luomisen ja hallinnan pieninä dokumentin palasina eli Topic:na, joka vähentää sisällönhallinnan työmäärää sisällön uudelleenkäytön avulla.
Tässä työssä tutkimme kehitysprosessia, jossa suunnittelimme järjestelmäarkkitehtuurin ChatGPT kielimallin integroimiseksi IDEAL CMS sisällönhallintajärjestelmän käännösprosessiin. Tutkimus suoritettiin suunnitelutieteen (design science research) näkökulmasta, jossa seurattiin suunnittelutuotoksen kehitystä ja lopputulosta, sekä suunnitteluprosessia. Suunnittelussa hyödynnettiin Team Data Science Process:a (TDSP). TDSP on dataintensiivisten ratkaisujen kehittämiseen luotu prosessimalli, jota yleensä käytetään esimerkiksi data-analyysiprojekteissa. Tutkimuksessa myös arvioitiin sen soveltuvuutta generatiivista tekoälyä hyödyntävän raktaisun kehityksessä.
Suunnitellusta arkkitehtuurista luotiin prototyyppi ja se toimi kuten odotettiin. Tulosten arvioinnissa kuitenkin huomattiin parannuskohteita kuten standardoidumman tietorakenteen käyttäminen käännettävän sisällön käsittelyssä, sekä mahdollisen käännösmuistin hyödyntäminen. Lopputuloksena todettiin, että suurten kielimallien hyödyntäminen integroituna käännöstyökaluna on mahdollista, olettaen sopivien sisällön kokoamisen ja tuonnin mekanismien kehittämisen. Tutkimusprosessin arvioinnissa TDSP prosessista löydettiin parannusehdotuksia generatiivisten tekoälyratkaisujen kehittämiseksi, ottamalla huomioon kehityksen eri painopisteet ja vaatimukset.
In this work we investigated the design process of a system architecture which integrates ChatGPT as a translation engine into IDEAL CMS, a CCMS built on top of Teamcenter PLM. This was done through the lens of design science where we aim to create new knowledge on the target artefact and its design process by designing an artefact and evaluating it. During the design process we also investigated the use of Team Data Science Process (TDSP) as a process for developing an integrated generative AI solution, by leveraging it during the design and evaluating its performance.
The resulting architecture was conceptually prototyped, and it performed as expected in the given context. During the evaluation we also noted some future considerations like that the use of a more sanitized format for the content extraction for translation could be beneficial, and that the feasibility of using a translation memory and its applicability should also be investigated. In conclusion we found that leveraging Large Language Models (LLMs) as automated translation systems within an integrated solution is feasible, provided suitable content extraction and import mechanisms are established. In evaluating the research process, this study extends the application of TDSP, by introducing proposed improvements for its use in the development of generative AI systems. These improvement proposals address the different focuses and needs in designing a generative AI system, which were noted during this study.
Tässä työssä tutkimme kehitysprosessia, jossa suunnittelimme järjestelmäarkkitehtuurin ChatGPT kielimallin integroimiseksi IDEAL CMS sisällönhallintajärjestelmän käännösprosessiin. Tutkimus suoritettiin suunnitelutieteen (design science research) näkökulmasta, jossa seurattiin suunnittelutuotoksen kehitystä ja lopputulosta, sekä suunnitteluprosessia. Suunnittelussa hyödynnettiin Team Data Science Process:a (TDSP). TDSP on dataintensiivisten ratkaisujen kehittämiseen luotu prosessimalli, jota yleensä käytetään esimerkiksi data-analyysiprojekteissa. Tutkimuksessa myös arvioitiin sen soveltuvuutta generatiivista tekoälyä hyödyntävän raktaisun kehityksessä.
Suunnitellusta arkkitehtuurista luotiin prototyyppi ja se toimi kuten odotettiin. Tulosten arvioinnissa kuitenkin huomattiin parannuskohteita kuten standardoidumman tietorakenteen käyttäminen käännettävän sisällön käsittelyssä, sekä mahdollisen käännösmuistin hyödyntäminen. Lopputuloksena todettiin, että suurten kielimallien hyödyntäminen integroituna käännöstyökaluna on mahdollista, olettaen sopivien sisällön kokoamisen ja tuonnin mekanismien kehittämisen. Tutkimusprosessin arvioinnissa TDSP prosessista löydettiin parannusehdotuksia generatiivisten tekoälyratkaisujen kehittämiseksi, ottamalla huomioon kehityksen eri painopisteet ja vaatimukset.