Stylometrisen kirjoittajan analyysin simuloiminen : Tekoälyjen ja ihmiskirjoittajien tyylien erottelusta
Siiroinen, Helmi (2024)
Siiroinen, Helmi
2024
Suomen kielen maisteriohjelma - Master's Programme in Finnish Language
Informaatioteknologian ja viestinnän tiedekunta - Faculty of Information Technology and Communication Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2024-06-03
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:tuni-202405145814
https://urn.fi/URN:NBN:fi:tuni-202405145814
Tiivistelmä
Tämä tutkimus koskee kirjoittajan tunnistamista (engl. authorship attribution). Tavoitteina tutkimuksessa on tuoda näkyväksi kirjoittajan tunnistamisen laskennallisia keinoja ja simuloidun forensisen lingvistiikan tapauksen vaiheita, sillä Suomessa alaa koskevaa tutkimusta on vasta vähän. Tutkimuksessa tarkastellaan ihmiskirjoittajien ja tekoälyillä kirjoitettujen tekstien eroja, sillä useimmat tekoälyn kirjoituksia tunnistava tekstiluokittelija ei tuo näkyväksi sitä, millä keinoin se erottelee tekoälyn ihmiskirjoittajista. Lisäksi tarkastellaan eri tekoälyjen tekstien tyylieroja. Lopulta myös ihmiskirjoittajat pyritään erottelemaan toisistaan.
Tutkimuksen aineisto koostuu 25 perheblogitekstistä. Ihmiskirjoittajia on kolme ja tekoälyjä kaksi: jokaiselta kirjoittajalta tutkimusasetelmassa on mukana 5 tekstiä. Tutkimuksen tilastollisena monimuuttujamenetelmänä käytetään faktorianalyysia, mutta varsinainen menetelmä on mixed methods research (MMR). Tutkimuksen ensimmäisessä vaiheessa tekstejä on tarkasteltu laadullisesti. Laadullisen tarkastelun tuloksena huomiota herättäneitä kielenpiirteitä on tarkasteltu funktionaalisesti, jonka jälkeen valikoidut kielenpiirteet on kvantifioitu. Kvantifioitujen ja luotettavuusarvoltaan relevanttien piirteiden valitsemisen jälkeen on tuotettu faktorianalyyseja eri tekstijoukoille, minkä jälkeen tekstit on sijoiteltu pisteparvimatriisiin, jonka avulla kirjoittajuutta on arvioitu.
Tekoälyjen ja ihmiskirjoittajien tekstit voitiin erotella toisistaan erityisesti kielen kompleksisuutta ja vaihtelua kuvaavien mittareiden avulla, kuten virkepituuden tai sanaston rikkauden perusteella. Tekoälyt voitiin erottaa toisistaan vain joiltain osin; tutkimus antoi kuitenkin selkeitä viitteitä, että Bardin kieli oli yksinkertaisempaa esimerkiksi virketason vaihtelun ja kuvailun perusteella. Varmempien tulosten saavuttamiseksi laskennalliset keinot eivät olleet riittäviä, vaan relevantimmat tulokset arveltiin saavutettavan ennemmin sisällönanalyysilla. Ihmiskirjoittajista vain yksi kirjoittaja voitiin erottaa kolmen kirjoittajan joukosta, ja erottavana faktorina oli sanaston monimuotoisuus. Kahta muuta kirjoittajaa ei voitu erotella tämän tutkimuksen muuttujavalinnoilla laskennallisesti, mutta laadullisen tarkastelun keinoin oli havaittavissa, että kirjoittajilla on toisistaan poikkeava sävy kirjoituksissaan.
Tämä tutkimus antaa viitteitä siitä, että jatkotutkimuksissa tulisi ottaa huomioon yhä laajempi muuttujajoukko ja laskennalliset menetelmät, kuten sentimenttianalyysi. Empiiristen tulosten lisäksi tutkimus ottaa kantaa kirjoittajan tunnistamista ja forensisesta lingvistiikkaa koskevaan alan keskusteluun, jossa on nähtävissä menetelmällinen kahtiajako laskennalliseen ja laadulliseen tyylintutkimukseen. Tämän tutkimuksen perusteella voidaan todeta, että menetelmät toimivat ennen kaikkea toisiaan täydentävinä. Tutkimuksen pääasiallinen kontribuutio forensisen lingvistiikan alalle on se, että se tuo näkyväksi kirjoittajan analyysin vaihteita, terminologiaa ja alan keskustelua.
Tutkimuksen aineisto koostuu 25 perheblogitekstistä. Ihmiskirjoittajia on kolme ja tekoälyjä kaksi: jokaiselta kirjoittajalta tutkimusasetelmassa on mukana 5 tekstiä. Tutkimuksen tilastollisena monimuuttujamenetelmänä käytetään faktorianalyysia, mutta varsinainen menetelmä on mixed methods research (MMR). Tutkimuksen ensimmäisessä vaiheessa tekstejä on tarkasteltu laadullisesti. Laadullisen tarkastelun tuloksena huomiota herättäneitä kielenpiirteitä on tarkasteltu funktionaalisesti, jonka jälkeen valikoidut kielenpiirteet on kvantifioitu. Kvantifioitujen ja luotettavuusarvoltaan relevanttien piirteiden valitsemisen jälkeen on tuotettu faktorianalyyseja eri tekstijoukoille, minkä jälkeen tekstit on sijoiteltu pisteparvimatriisiin, jonka avulla kirjoittajuutta on arvioitu.
Tekoälyjen ja ihmiskirjoittajien tekstit voitiin erotella toisistaan erityisesti kielen kompleksisuutta ja vaihtelua kuvaavien mittareiden avulla, kuten virkepituuden tai sanaston rikkauden perusteella. Tekoälyt voitiin erottaa toisistaan vain joiltain osin; tutkimus antoi kuitenkin selkeitä viitteitä, että Bardin kieli oli yksinkertaisempaa esimerkiksi virketason vaihtelun ja kuvailun perusteella. Varmempien tulosten saavuttamiseksi laskennalliset keinot eivät olleet riittäviä, vaan relevantimmat tulokset arveltiin saavutettavan ennemmin sisällönanalyysilla. Ihmiskirjoittajista vain yksi kirjoittaja voitiin erottaa kolmen kirjoittajan joukosta, ja erottavana faktorina oli sanaston monimuotoisuus. Kahta muuta kirjoittajaa ei voitu erotella tämän tutkimuksen muuttujavalinnoilla laskennallisesti, mutta laadullisen tarkastelun keinoin oli havaittavissa, että kirjoittajilla on toisistaan poikkeava sävy kirjoituksissaan.
Tämä tutkimus antaa viitteitä siitä, että jatkotutkimuksissa tulisi ottaa huomioon yhä laajempi muuttujajoukko ja laskennalliset menetelmät, kuten sentimenttianalyysi. Empiiristen tulosten lisäksi tutkimus ottaa kantaa kirjoittajan tunnistamista ja forensisesta lingvistiikkaa koskevaan alan keskusteluun, jossa on nähtävissä menetelmällinen kahtiajako laskennalliseen ja laadulliseen tyylintutkimukseen. Tämän tutkimuksen perusteella voidaan todeta, että menetelmät toimivat ennen kaikkea toisiaan täydentävinä. Tutkimuksen pääasiallinen kontribuutio forensisen lingvistiikan alalle on se, että se tuo näkyväksi kirjoittajan analyysin vaihteita, terminologiaa ja alan keskustelua.