Verkkosisältöjen automaattisen moderoinnin haasteet
Verkasalo, Reetta (2021)
Verkasalo, Reetta
2021
Tietojenkäsittelytieteiden kandidaattiohjelma - Bachelor's Programme in Computer Sciences
Informaatioteknologian ja viestinnän tiedekunta - Faculty of Information Technology and Communication Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2021-09-09
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:tuni-202109016906
https://urn.fi/URN:NBN:fi:tuni-202109016906
Tiivistelmä
Moderointi yhteisöpalveluissa on käyttäjien tuottaman sisällön seulomista ja sopivuuden arvioimista suhteessa yhteisön sääntöihin. Käyttäjien tuottama sisältö on lisääntynyt merkittävästi viime vuosina, minkä vuoksi käyttöön on ihmismoderaattorien lisäksi otettu teknologisia työkaluja, joilla voidaan automatisoida moderointiprosessia tai osia siitä. Tämän tutkimuksen tarkoituksena on selvittää, millaisia ongelmia sisältyy automaattisten moderointityökalujen käyttöön.
Tutkimus on toteutettu kirjallisuuskatsauksena. Aineistona on käytetty tieteellisiä artikkeleita ja konferenssijulkaisuja vuosilta 2014–2021. Tutkimukseen valikoituneet artikkelit käsittelevät teksti-, kuva- ja videosisällön analysointia. Aineistossa käsitellään erilaisia menetelmiä, joita on kehitetty haitallisen sisällön tunnistamiseen. Useimmat nykyaikaiset työkalut käyttävät koneoppimista, mikä heijastuu myös tutkimusaineistoon. Tavallisesti lähteissä keskitytään tiettyyn haitallisen sisällön tyyppiin; näistä eniten on tämän katsauksen perusteella tutkittu vihapuheen ja pornografian tunnistusta. Harva tutkimus on tähän mennessä koonnut yhteen erilaisten moderointityökalujen ongelmia, joten tämän katsauksen tulokset on poimittu useista haitallisen sisällön tunnistusmenetelmiä käsittelevistä tutkimuksista. Lisäksi lähteinä on käytetty tutkimuksia, joissa käsitellään yleisemmin sisällön luokittelumenetelmien ongelmia, sillä tulokset ovat usein sovellettavissa moderointiin.
Kirjallisuuskatsauksesta käy ilmi, että automaattiset moderointimenetelmät ovat vielä epätarkkoja. Niiden kyky huomioida sisällön kontekstia on heikompi kuin ihmisillä. Sisällön tunnistustyökaluja voidaan myös harhauttaa muuntelemalla niille annettuja syötteitä. Koneoppimiseen pohjautuvissa työkaluissa on vinoutuneiden päätöksentekomallien omaksumisen ja voimistumisen riski. Automaattiset menetelmät heikentävät moderoinnin läpinäkyvyyttä, sillä niitä harvoin saatetaan julkiseen tarkasteluun liikesalaisuuksien ja väärinkäytön riskin vuoksi. Lisäksi kaikista koneoppimismenetelmistä ei tiedetä, millä perustein ne jäsentävät ja luokittelevat saamaansa tietoa. Puutteelliset työkalut yhdistettynä läpinäkymättömään moderointiprosessiin tuottavat sosiaalisia ja yhteiskunnallisia riskejä esimerkiksi sananvapauden heikkenemisen ja syrjinnän muodossa.
Tutkimus on toteutettu kirjallisuuskatsauksena. Aineistona on käytetty tieteellisiä artikkeleita ja konferenssijulkaisuja vuosilta 2014–2021. Tutkimukseen valikoituneet artikkelit käsittelevät teksti-, kuva- ja videosisällön analysointia. Aineistossa käsitellään erilaisia menetelmiä, joita on kehitetty haitallisen sisällön tunnistamiseen. Useimmat nykyaikaiset työkalut käyttävät koneoppimista, mikä heijastuu myös tutkimusaineistoon. Tavallisesti lähteissä keskitytään tiettyyn haitallisen sisällön tyyppiin; näistä eniten on tämän katsauksen perusteella tutkittu vihapuheen ja pornografian tunnistusta. Harva tutkimus on tähän mennessä koonnut yhteen erilaisten moderointityökalujen ongelmia, joten tämän katsauksen tulokset on poimittu useista haitallisen sisällön tunnistusmenetelmiä käsittelevistä tutkimuksista. Lisäksi lähteinä on käytetty tutkimuksia, joissa käsitellään yleisemmin sisällön luokittelumenetelmien ongelmia, sillä tulokset ovat usein sovellettavissa moderointiin.
Kirjallisuuskatsauksesta käy ilmi, että automaattiset moderointimenetelmät ovat vielä epätarkkoja. Niiden kyky huomioida sisällön kontekstia on heikompi kuin ihmisillä. Sisällön tunnistustyökaluja voidaan myös harhauttaa muuntelemalla niille annettuja syötteitä. Koneoppimiseen pohjautuvissa työkaluissa on vinoutuneiden päätöksentekomallien omaksumisen ja voimistumisen riski. Automaattiset menetelmät heikentävät moderoinnin läpinäkyvyyttä, sillä niitä harvoin saatetaan julkiseen tarkasteluun liikesalaisuuksien ja väärinkäytön riskin vuoksi. Lisäksi kaikista koneoppimismenetelmistä ei tiedetä, millä perustein ne jäsentävät ja luokittelevat saamaansa tietoa. Puutteelliset työkalut yhdistettynä läpinäkymättömään moderointiprosessiin tuottavat sosiaalisia ja yhteiskunnallisia riskejä esimerkiksi sananvapauden heikkenemisen ja syrjinnän muodossa.
Kokoelmat
- Kandidaatintutkielmat [8453]