Hyppää sisältöön
    • Suomeksi
    • In English
Trepo
  • Suomeksi
  • In English
  • Kirjaudu
Näytä viite 
  •   Etusivu
  • Trepo
  • Opinnäytteet - ylempi korkeakoulututkinto
  • Näytä viite
  •   Etusivu
  • Trepo
  • Opinnäytteet - ylempi korkeakoulututkinto
  • Näytä viite
JavaScript is disabled for your browser. Some features of this site may not work without it.

Circumventing Censorship: A Corpus-Based Analysis of Algospeak and Euphemisms on the Social Media Platform TikTok

Sulonen, Minttu-Maaria (2025)

 
Avaa tiedosto
SulonenMinttu.pdf (3.340Mt)
Lataukset: 



Sulonen, Minttu-Maaria
2025

Kielten maisteriohjelma - Master's Programme in Languages
Informaatioteknologian ja viestinnän tiedekunta - Faculty of Information Technology and Communication Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2025-05-12
Näytä kaikki kuvailutiedot
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:tuni-202505095162
Tiivistelmä
Algospeak is a variety of online language heavily used in the social media platform TikTok and follows in the footsteps of earlier online slang leetspeak and SMS languages. Algospeak is described as a coded language, where euphemisms and other modifications are used to evade algorithmic content moderation systems. These rigid systems pay no mind to context, causing harmless discussions related to taboo topics, such as sex, death, or abuse, to be moderated and often completely deleted. As a response to the algorithmic censorship, people have started to modify their language to continue still discussing these taboo subjects on the platform. Instances of algospeak include, for example, unalive ‘to kill yourself or others’, le$bian ‘lesbian’, grape ‘rape’, and SA ‘sexual assault’.

Previous studies on algospeak have been interview based qualitative approaches, focused on discussing people’s experiences with the content moderations systems. These studies have shown that participants feel the moderation is confusing, random, and overall unjust, leading to the use of euphemisms.

This thesis aims to analyze the use of euphemisms on TikTok and to observe the linguistic patterns within them. This analysis is a corpus-based quantitative and qualitative study, utilizing theory from corpus linguistics and variationist sociolinguistics. Five search queries were selected: seggs ‘sex’, (corn emoji) ‘porn’, spicy accountant ‘sex worker’, ed ‘eating disorder’, and unlive (a purposeful misspelling of unalive). These search queries were used to find TikTok videos, whose comments were downloaded. These comments formulated specialized corpora, which were analyzed with a concordancing tool AntConc.

Euphemism usage was very prominent in the collected data. The results indicated that some of the search queries had evolved in meaning: the term seggs is not used anymore, the premodifier spicy for spicy accountant is unnecessary, and the definition of unalive was also improved. The most common methods of word-formation for euphemisms were creative re-spelling often through homoglyphs, clipping and abbreviations, as well as substitution from within the same language. The results indicate that euphemism usage encourages others to use more variants, however many of the euphemisms are very low frequency, often with single hits, which could influence the data. The results from this study present the potential for a larger scale corpus study in the future, where algospeak euphemisms could be looked into with even more depth.
 
Algospeak on eräs variaatio internetkielestä, jota käytetään paljon sosiaalisen median alustalla TikTokissa. Se seuraa aiempien variaatioiden leetspeakin ja SMS languagen jalanjäljissä. Algospeakiä on kuvailtu koodatuksi kieleksi, jossa kiertoilmauksia ja muita muunnoksia käytetään algoritmisten sisällönvalvontajärjestelmien päätösten välttämiseksi. Nämä tiukat järjestelmät eivät välitä kontekstista, aiheuttaen tabu-aiheisiin, kuten seksiin, kuolemaan tai väkivaltaan, liittyvien harmittomien keskustelujen sensuroinnin ja usein poiston. Vastauksena algoritmiselle sensuroinnille, ihmiset ovat alkaneet muokata käyttämäänsä kieltä saadakseen yhä jatkaa keskusteluja tabu-aiheista sosiaalisen median alustoilla. Algospeakin esiintymiä ovat esimerkiksi, unalive ‘tappaa itsensä tai toiset’, le$bian ‘lesbo’, grape ‘raiskaus’, ja SA ‘seksuaalinen hyväksikäyttö’.

Aiemmat tutkimukset algospeakistä ovat olleet lähestymistavoiltaan kvalitatiivisia haastatteluja, keskittyen ihmisten henkilökohtaisiin kokemuksiin sisällönvalvontajärjestelmien kanssa. Nämä tutkimukset ovat osoittaneet, että osalliset kokevat valvonnan epämääräiseksi, satunnaiseksi ja yleisesti epäoikeudenmukaiseksi, johtaen kiertoilmausten käyttöön.

Tämä tutkielma pyrkii analysoimaan kiertoilmausten käyttöä TikTokissa ja havainnoimaan niiden toistuvat kielelliset mallit. Tämä analyysi on korpus-pohjainen kvantitatiivinen ja kvalitatiivinen tutkimus, joka hyödyntää teoriaa korpuslingvistiikasta ja variaatiota tutkivasta sosiolingvistiikasta. Viisi hakusanaa valittiin: seggs ‘seksi’, (maissi emoji) ‘porno’, spicy accountant ‘seksityöläinen’, ed ‘syömishäiriö’, ja unlive (tarkoituksenmukainen kirjoitusmuoto sanasta unalive). Näitä hakusanoja hyödynnettiin TikTok videoiden etsimisessä, joiden kommentit ladattiin. Näistä kommenteista koostettiin korpukset, jotka analysoitiin AntConc-työkalulla.

Kiertoilmausten käyttö oli todella yleistä kerätyssä datassa. Tulokset indikoivat, että jotkut hakusanoista olivat muuttaneet merkitystään: termi seggs ei ollut käytössä enää, etumäärite spicy termissä spicy accountant on tarpeeton, ja termin unalive määritelmää paranneltiin. Yleisimpiä sananmuodostustaktiikoita kiertoilmauksille olivat luova uudelleenkirjoittaminen, usein vaihtamalla kirjaimet symboleihin, lyhentäminen ja korvaaminen saman kielen sisältä. Tutkimuksen tulokset viittaavat siihen, että kiertoilmausten käyttö kannustaa muita myös käyttämään eri variaatioita. Monet tutkimuksen kiertoilmauksista kuitenkin ilmenivät vain pienillä frekvensseillä, mikä voi vaikuttaa tutkimuksen tuloksiin. Tämä tutkielma osoittaa potentiaalin laajemman skaalan korpustutkimukselle tulevaisuudessa, missä algospeak kiertoilmauksia voitaisiin tutkia vielä syvemmin.
 
Kokoelmat
  • Opinnäytteet - ylempi korkeakoulututkinto [42168]
Kalevantie 5
PL 617
33014 Tampereen yliopisto
oa[@]tuni.fi | Tietosuoja | Saavutettavuusseloste
 

 

Selaa kokoelmaa

TekijätNimekkeetTiedekunta (2019 -)Tiedekunta (- 2018)Tutkinto-ohjelmat ja opintosuunnatAvainsanatJulkaisuajatKokoelmat

Omat tiedot

Kirjaudu sisäänRekisteröidy
Kalevantie 5
PL 617
33014 Tampereen yliopisto
oa[@]tuni.fi | Tietosuoja | Saavutettavuusseloste