Suomen kielen sääntö- ja tekoälypohjainen tekstisteganografia
Johansson, Satu (2024)
Johansson, Satu
2024
Tietotekniikan DI-ohjelma - Master's Programme in Information Technology
Informaatioteknologian ja viestinnän tiedekunta - Faculty of Information Technology and Communication Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2024-12-16
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:tuni-2024121611160
https://urn.fi/URN:NBN:fi:tuni-2024121611160
Tiivistelmä
Arkaluonteinen viestintä on usein salattua, mutta paras salainen viestintä on myös piilotettua. Tässä apuun tulee steganografia, jolla viestinnän olemassaolo voidaan piilottaa ja viestintä toteuttaa piilossa näkyvillä. Digitaalinen steganografia piilottaa tietoa bitteihin, kuviin ja tekstin asetteluun tai sanamuotoihin tavalla, joka on merkityksellinen viestinnän osapuolille mutta merkityksetön ulkopuolisille tarkkailijoille. Paras puolustus on viestinnän havaitsemattomuus, mutta toisaalla steganalyysi pyrkii havaitsemaan ja purkamaan steganografista viestintää. Digitalisaation myötä steganografian ja steganalyysin ikuinen kilpajuoksu on nopeutunut ja mukaan on tullut myös uusi arvaamaton osapuoli: tekoäly.
Tekoäly ja huomiota keränneet suuret kielimallit, joiden avulla tekoäly kykenee inhimillistä jäljittelevään tekstintuottoon, tuovat uudenlaisia mahdollisuuksia etenkin tekstisteganografiaan kuuluvan lingvistisen steganografian toteuttamiseen. Tekoälyn mahdollistavan neuroverkon opettaminen on kuitenkin vaativa ja pitkäkestoinen urakka, joka vaatii laskentatehon lisäksi myös kattavaa opetusaineistoa. Suomenkielinen tekoälykeskustelu on jäänyt englannin jalkoihin, ja toisaalta suomen kielioppi kielelle ominaisine taivutuksineen tekee suomen kielen käytöstä tekstiä tai puhetta käsittelevissä teknologioissa haastavaa.
Tutkielmassa laaditaan sääntöpohjainen, suomen kieltä taivuttava sanankorvausohjelma, jossa sanankorvaustaulukon avulla luonnollisesti taivutettuja sanoja voidaan korvata toisella lauseessa. Alkuperäinen lause analysoidaan sanantunnistusohjelmalla, ja saadun kieliopillisen tiedon perusteella ohjelma taivuttaa korvaavan sanan vastaavaan sijaan. Tämä toiminnallisuus on tuttu suomalaisesta taktisesta viestinnästä ja on sen päivitys tietotekniseen toteutukseen, mutta samalla se mahdollistaa tekoälyn tarvitseman opetusaineiston tuottamisen. Lisäksi käsitellään digitaalista steganografiaa, neuroverkkoja, suuria kielimalleja ja transformer-arkkitehtuuria sekä esitetään neljä tapaa opettaa kielimallia toteuttamaan vastaavaa sanankorvausta. Tämän lisäksi testataan kaupallisen, pitkälle opetetun kielimallin onnistumista suomen kielen sanankorvauksessa. Lopussa esitetään jatkotutkimushankkeita ja spekuloidaan tekoälyn suomia uusia mahdollisuuksia sekä steganografiaan että steganalyysiin.
Tekoäly ja huomiota keränneet suuret kielimallit, joiden avulla tekoäly kykenee inhimillistä jäljittelevään tekstintuottoon, tuovat uudenlaisia mahdollisuuksia etenkin tekstisteganografiaan kuuluvan lingvistisen steganografian toteuttamiseen. Tekoälyn mahdollistavan neuroverkon opettaminen on kuitenkin vaativa ja pitkäkestoinen urakka, joka vaatii laskentatehon lisäksi myös kattavaa opetusaineistoa. Suomenkielinen tekoälykeskustelu on jäänyt englannin jalkoihin, ja toisaalta suomen kielioppi kielelle ominaisine taivutuksineen tekee suomen kielen käytöstä tekstiä tai puhetta käsittelevissä teknologioissa haastavaa.
Tutkielmassa laaditaan sääntöpohjainen, suomen kieltä taivuttava sanankorvausohjelma, jossa sanankorvaustaulukon avulla luonnollisesti taivutettuja sanoja voidaan korvata toisella lauseessa. Alkuperäinen lause analysoidaan sanantunnistusohjelmalla, ja saadun kieliopillisen tiedon perusteella ohjelma taivuttaa korvaavan sanan vastaavaan sijaan. Tämä toiminnallisuus on tuttu suomalaisesta taktisesta viestinnästä ja on sen päivitys tietotekniseen toteutukseen, mutta samalla se mahdollistaa tekoälyn tarvitseman opetusaineiston tuottamisen. Lisäksi käsitellään digitaalista steganografiaa, neuroverkkoja, suuria kielimalleja ja transformer-arkkitehtuuria sekä esitetään neljä tapaa opettaa kielimallia toteuttamaan vastaavaa sanankorvausta. Tämän lisäksi testataan kaupallisen, pitkälle opetetun kielimallin onnistumista suomen kielen sanankorvauksessa. Lopussa esitetään jatkotutkimushankkeita ja spekuloidaan tekoälyn suomia uusia mahdollisuuksia sekä steganografiaan että steganalyysiin.