Luonnollisen kielen käsittely misinformaation tunnistamisessa
Kekäle, Kalle-Heikki (2025)
Kekäle, Kalle-Heikki
2025
Tieto- ja sähkötekniikan kandidaattiohjelma - Bachelor's Programme in Computing and Electrical Engineering
Informaatioteknologian ja viestinnän tiedekunta - Faculty of Information Technology and Communication Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2025-05-23
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:tuni-202505236052
https://urn.fi/URN:NBN:fi:tuni-202505236052
Tiivistelmä
Digitalisaation ja sosiaalisen median myötä virheellisen tiedon määrä ja leviämisnopeus ovat kasvaneet räjähdysmäisesti. Misinformaatiolla viitataan kaikkeen virheelliseen tai harhaanjohtavaan tietoon riippumatta tarkoitusperästä. Luonnollisen kielen käsittely (NLP) tarjoaa koneoppimismalleille välineet misinformaation tunnistamiseen.
Tämän tutkielman tarkoituksena on selvittää, miten NLP-pohjaisia koneoppimismenetelmiä on hyödynnetty misinformaation tunnistamisessa, millaisia tuloksia niillä on saatu ja millaisia haasteita liittyy koneoppimismallien käytännön soveltamiseen misinformaation tunnistamisessa. Aihe on tärkeä, koska misinformaatio heikentää julkista keskustelua ja jopa demokratian toimivuutta. Tutkimus on toteutettu kirjallisuuskatsauksena
.
Tutkielma keskittyi neljään osa-alueeseen, jotka ovat datan kerääminen, esikäsittely, mallien suorituskyky sekä soveltamisen haasteet. Analyysi osoitti, että onnistumisen kannalta ei ole ainoastaan tärkeää valita oikea malli, vaan myös laadukas aineisto ja huolellinen esikäsittely ovat kriittisessä roolissa. Tutkielmassa tarkastelluissa tutkimuksissa perinteiset koneoppimismallit ylsivät kaikki verrattain hyviin kokonaistarkkuuksiin (82,2 % – 83,3 %) ilman käyttäjä- tai metadataa. Syväoppimismallit puolestaan saavuttivat keskimäärin korkeampia kokonaistarkkuuksia (97,49 % – 98,36 %). Tulokset riippuvat keskeisesti käytetyistä menetelmistä sekä datasta, minkä vuoksi tuloksia ei tulisi tutkimusten välillä suoraan vertailla, vaan niitä tulisi käyttää lähinnä suuntaa antavina esimerkkeinä.
Menetelmien käytännön soveltamista rajoittavat mallien siirrettävyys uusiin konteksteihin, koulutusaineiston vinoumat, tulosten selitettävyyden puutteet sekä mahdolliset väärät ennustukset.
Tämän tutkielman tarkoituksena on selvittää, miten NLP-pohjaisia koneoppimismenetelmiä on hyödynnetty misinformaation tunnistamisessa, millaisia tuloksia niillä on saatu ja millaisia haasteita liittyy koneoppimismallien käytännön soveltamiseen misinformaation tunnistamisessa. Aihe on tärkeä, koska misinformaatio heikentää julkista keskustelua ja jopa demokratian toimivuutta. Tutkimus on toteutettu kirjallisuuskatsauksena
.
Tutkielma keskittyi neljään osa-alueeseen, jotka ovat datan kerääminen, esikäsittely, mallien suorituskyky sekä soveltamisen haasteet. Analyysi osoitti, että onnistumisen kannalta ei ole ainoastaan tärkeää valita oikea malli, vaan myös laadukas aineisto ja huolellinen esikäsittely ovat kriittisessä roolissa. Tutkielmassa tarkastelluissa tutkimuksissa perinteiset koneoppimismallit ylsivät kaikki verrattain hyviin kokonaistarkkuuksiin (82,2 % – 83,3 %) ilman käyttäjä- tai metadataa. Syväoppimismallit puolestaan saavuttivat keskimäärin korkeampia kokonaistarkkuuksia (97,49 % – 98,36 %). Tulokset riippuvat keskeisesti käytetyistä menetelmistä sekä datasta, minkä vuoksi tuloksia ei tulisi tutkimusten välillä suoraan vertailla, vaan niitä tulisi käyttää lähinnä suuntaa antavina esimerkkeinä.
Menetelmien käytännön soveltamista rajoittavat mallien siirrettävyys uusiin konteksteihin, koulutusaineiston vinoumat, tulosten selitettävyyden puutteet sekä mahdolliset väärät ennustukset.
Kokoelmat
- Kandidaatintutkielmat [10844]
