Koneoppimisen hyödyntäminen sosiaalisessa mediassa: Haitallisen sisällön tunnistaminen
Metsoila, Tuomas (2024)
Metsoila, Tuomas
2024
Tieto- ja sähkötekniikan kandidaattiohjelma - Bachelor's Programme in Computing and Electrical Engineering
Informaatioteknologian ja viestinnän tiedekunta - Faculty of Information Technology and Communication Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2024-05-07
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:tuni-202405055334
https://urn.fi/URN:NBN:fi:tuni-202405055334
Tiivistelmä
Sosiaalisen median käyttäjämäärän kasvun myötä on myös haitallisen sisällön määrä kasvanut merkittävästi. Tämän myötä haitallisen sisällön manuaalisesta tunnistamisesta on tullut haastavampaa. Negatiiviset vaikutukset ovat johtaneet haitallisen sisällön automaattiseen tunnistamiseen liittyvien tutkimusten määrän merkittävään nousuun. Työssä keskitytään erityisesti disinformaation, valekäyttäjien sekä vihapuheen automaattiseen tunnistamiseen niiden yleisyyden vuoksi. Tämän tutkielman tarkoituksena on selvittää, miten koneoppimista voidaan hyödyntää erilaisten haitallisten sisältöjen tunnistamisessa soveltamalla valvottua oppimista, joka on eräs koneoppisen menetelmä.
Tutkielma toteutettiin kirjallisuuskatsauksena ja siinä on käytetty pääasiassa tieteellisiä artikkeleita vuosilta 2018–2024. Aineiston etsintään hyödynnettiin Andor- ja Google Scholar-hakupalveluita sekä ACM- ja IEEE Xplore-tietokantoja. Valitut artikkelit käsittelevät tehtyjä tutkimuksia haitallisen sisällön automaattisen tunnistamiseen liittyen.
Tutkielma osoittaa, että haitallisen sisällön automaattinen tunnistaminen on monimutkainen sekä jatkuvasti kehittyvä haaste. Tuloksista selviää, että koneoppimisen avulla voidaan tunnistaa haitallista sisältöä analysoimalla julkaisun rakennetta ja sanavalintoja sekä julkaisijan käyttäjän piirteitä ja käyttäytymistä. Lisäksi selviää, että haitallisen sisällön automaattisessa tunnistamisessa erityisesti ominaisuusvalinnalla olevan suurta merkitystä tulosten tarkkuuden lisäksi myös mallin reiluuden kanssa. Suurimmiksi haasteiksi automaattiselle tunnistamiselle huomataan olevan kilpaileva tekoäly sekä sarkasmin tunnistaminen.
Tutkimuksen merkitys korostuu, kun otetaan huomioon sosiaalisen median kasvava rooli yhteiskunnassa sekä kommunikaatio- että tiedonjakovälineenä ja näiden potentiaalinen vaikutus yksilöiden ja yhteisön hyvinvointiin ja turvallisuuteen. On siis tärkeää jatkaa tutkimusta tällä alalla, jotta voidaan saavuttaa turvallisempi sosiaalinen media. Tämä vaatii jatkuvaa kehitystä, jotta uusiin haasteisiin voitaisiin vastata. Tulosten pohjalta pohditaan, että seuraava tärkeä kehitysaskel haitallisen sisällön automaattiselle tunnistamiselle on avoimien tietojoukkojen kehittäminen. Monimuotoisemmat tietojoukot loisivat reilumman pohjan tuleville tutkimuksille.
Tutkielma toteutettiin kirjallisuuskatsauksena ja siinä on käytetty pääasiassa tieteellisiä artikkeleita vuosilta 2018–2024. Aineiston etsintään hyödynnettiin Andor- ja Google Scholar-hakupalveluita sekä ACM- ja IEEE Xplore-tietokantoja. Valitut artikkelit käsittelevät tehtyjä tutkimuksia haitallisen sisällön automaattisen tunnistamiseen liittyen.
Tutkielma osoittaa, että haitallisen sisällön automaattinen tunnistaminen on monimutkainen sekä jatkuvasti kehittyvä haaste. Tuloksista selviää, että koneoppimisen avulla voidaan tunnistaa haitallista sisältöä analysoimalla julkaisun rakennetta ja sanavalintoja sekä julkaisijan käyttäjän piirteitä ja käyttäytymistä. Lisäksi selviää, että haitallisen sisällön automaattisessa tunnistamisessa erityisesti ominaisuusvalinnalla olevan suurta merkitystä tulosten tarkkuuden lisäksi myös mallin reiluuden kanssa. Suurimmiksi haasteiksi automaattiselle tunnistamiselle huomataan olevan kilpaileva tekoäly sekä sarkasmin tunnistaminen.
Tutkimuksen merkitys korostuu, kun otetaan huomioon sosiaalisen median kasvava rooli yhteiskunnassa sekä kommunikaatio- että tiedonjakovälineenä ja näiden potentiaalinen vaikutus yksilöiden ja yhteisön hyvinvointiin ja turvallisuuteen. On siis tärkeää jatkaa tutkimusta tällä alalla, jotta voidaan saavuttaa turvallisempi sosiaalinen media. Tämä vaatii jatkuvaa kehitystä, jotta uusiin haasteisiin voitaisiin vastata. Tulosten pohjalta pohditaan, että seuraava tärkeä kehitysaskel haitallisen sisällön automaattiselle tunnistamiselle on avoimien tietojoukkojen kehittäminen. Monimuotoisemmat tietojoukot loisivat reilumman pohjan tuleville tutkimuksille.
Kokoelmat
- Kandidaatintutkielmat [8907]