Sentimenttianalyysi R-ympäristössä
Salonen, Tuomo (2021)
Salonen, Tuomo
2021
Matematiikan ja tilastotieteen kandidaattiohjelma - Bachelor's Programme in Mathematics and Statistics
Informaatioteknologian ja viestinnän tiedekunta - Faculty of Information Technology and Communication Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2021-05-18
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:tuni-202104284087
https://urn.fi/URN:NBN:fi:tuni-202104284087
Tiivistelmä
Internet on täynnä tekstidataa, kuten sosiaalisen median viestejä, verkkokauppojen tuotearvosteluja ja eri tahojen tuottamia artikkeleja. Tämä tekstidata sisältää esimerkiksi hyödyllistä palautetta yritysten tuotteista ja palveluista. Ongelmana on se, että tekstidataa on internetissä massiivisia määriä ja sitä ilmestyy koko ajan lisää, mikä tekee kaiken tämän datan tutkimisen ihmisvoimin mahdottomaksi. Täten on kehitetty erilaisia koneellisia menetelmiä tekstidatan analysointiin. Yksi näistä on sentimenttianalyysi, jolla yritetään arvioida tekstissä esiintyviä tunteita, ja jonka toteuttamiseen R-ohjelmointiympäristössä tässä tutkielmassa keskitytään.
Jotta tekstidataa voidaan analysoida, pitää se muokata helpommin käsiteltävään muotoon. Yksi vaihtoehto tähän on tidy text -formaatti, jossa tekstidata pilkotaan tiettyihin merkittäviin osiin, kuten esimerkiksi sanoihin, virkkeisiin tai kappaleisiin.
Kun tekstidata on esikäsitelty, voidaan siinä esiintyviä tunteita arvioida sentimenttianalyysin avulla. Tidy text -formaatin kanssa tunnetusti hyvin toimiva ratkaisu on ajatella tekstiä yhdistelmänä yksittäisiä sanoja. Tällöin yksittäisten sanojen sentimentit arvioidaan erikseen, ja näiden sentimenttien summa edustaisi koko tekstin sentimenttiä. Yksittäiset sanat arvioidaan käyttämällä eri tarkoituksiin suunniteltuja sanastoja. Yksi varhaisimmista sanastoista on Bing-sanasto, joka arvioi sanat binäärisesti joko positiivisiksi tai negatiivisiksi.
Tutkielman lopussa tarkastellaan, voidaanko sentimenttianalyysin tuloksia käyttää tekstin kirjoittajan tunnistamiseen. Tähän käytettiin Gutenberg-projektista löytyviä tekijänoikeudettomia kirjoja. Aineistoon otettiin satunnaisesti 30 kirjaa, joista 6 olivat Fjodor Dostojevskin kirjoittamia ja 24 olivat muiden kirjoittajien kirjoja, jotka oltiin Gutenberg-projektissa luokiteltu fiktioksi. Sentimenttianalyysien tuloksista rakennettiin logistinen malli, jonka avulla arvioitiin, onko tekstipätkä Dostojevskin vai muun kirjailijan kirjoittama. Luotu malli osasi noin 75 %:n tarkkuudella arvioida tekstin alkuperän, ja täten myös osoitettiin, että sentimenttianalyysin tuloksia voidaan käyttää jatkoanalyyseissäkin.
Jotta tekstidataa voidaan analysoida, pitää se muokata helpommin käsiteltävään muotoon. Yksi vaihtoehto tähän on tidy text -formaatti, jossa tekstidata pilkotaan tiettyihin merkittäviin osiin, kuten esimerkiksi sanoihin, virkkeisiin tai kappaleisiin.
Kun tekstidata on esikäsitelty, voidaan siinä esiintyviä tunteita arvioida sentimenttianalyysin avulla. Tidy text -formaatin kanssa tunnetusti hyvin toimiva ratkaisu on ajatella tekstiä yhdistelmänä yksittäisiä sanoja. Tällöin yksittäisten sanojen sentimentit arvioidaan erikseen, ja näiden sentimenttien summa edustaisi koko tekstin sentimenttiä. Yksittäiset sanat arvioidaan käyttämällä eri tarkoituksiin suunniteltuja sanastoja. Yksi varhaisimmista sanastoista on Bing-sanasto, joka arvioi sanat binäärisesti joko positiivisiksi tai negatiivisiksi.
Tutkielman lopussa tarkastellaan, voidaanko sentimenttianalyysin tuloksia käyttää tekstin kirjoittajan tunnistamiseen. Tähän käytettiin Gutenberg-projektista löytyviä tekijänoikeudettomia kirjoja. Aineistoon otettiin satunnaisesti 30 kirjaa, joista 6 olivat Fjodor Dostojevskin kirjoittamia ja 24 olivat muiden kirjoittajien kirjoja, jotka oltiin Gutenberg-projektissa luokiteltu fiktioksi. Sentimenttianalyysien tuloksista rakennettiin logistinen malli, jonka avulla arvioitiin, onko tekstipätkä Dostojevskin vai muun kirjailijan kirjoittama. Luotu malli osasi noin 75 %:n tarkkuudella arvioida tekstin alkuperän, ja täten myös osoitettiin, että sentimenttianalyysin tuloksia voidaan käyttää jatkoanalyyseissäkin.
Kokoelmat
- Kandidaatintutkielmat [8996]