Elokuva-arvostelujen hyödyntäminen regressioanalyysissä tekstidatan analyysin keinoin
Tammilehto, Tommi (2021)
Tammilehto, Tommi
2021
Matematiikan ja tilastotieteen kandidaattiohjelma - Bachelor's Programme in Mathematics and Statistics
Informaatioteknologian ja viestinnän tiedekunta - Faculty of Information Technology and Communication Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2021-05-18
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:tuni-202104304203
https://urn.fi/URN:NBN:fi:tuni-202104304203
Tiivistelmä
Tekstidatan analyysissä pyritään käsittelemään tekstimuotoista aineistoa tilastollisin menetelmin. Tekstidatan analyysi on tehokas tapa kerätä hyödyllistä tietoa erinäisistä kirjallisuuden lähteistä. Tekstidatana voidaan käyttää fyysistä kirjallisuutta kuten kirjoja tai lehtiä, mutta lisäksi erityisesti verkkotekstejä hyödynnetään tekstidatana. Internetin alustojen kasvaessa myös useimmat elokuva-arvostelut ovat siirtyneet verkkoon, ja kynnys omien arvostelujen julkaisulle on madaltunut. Nykypäivänä kuka vain voi kirjoittaa ja julkaista arvostelunsa lukuisilla Internetin arvostelualustoilla. Tämän työn tavoitteena on soveltaa tekstidatan analyysin keinoja Internetissä julkaistuihin elokuva-arvosteluihin ja tutkia niiden hyödyntämistä elokuvan laadun ennustamisessa tilastollisin keinoin.
Työn aineisto on satunnaisotannalla valikoitu suuremmasta elokuva-arvostelujen aineistosta. Aineiston arvostelut ovat vuosilta 1987–2001. Kunkin arvosteltavan elokuvan laadun mittarina käytetään elokuvakriitikoiden arvioiden keskiarvoa kyseiselle elokuvalle. Aineiston arvosteluista määritetään tekstin sanamäärä, kirjoitusvirheiden suhteellinen määrä, luettavuus, sentimentti sekä kirjoittajan antama numeerinen arvosana elokuvalle. Lineaarisessa regressioanalyysissä aineiston muuttujilla pyritään selittämään tutkittavaa eli selitettävää muuttujaa. Tässä työssä regressioanalyysillä elokuvakriitikoiden arvioiden keskiarvoa pyritään selittämään arvosteluista kerättyjen muuttujien avulla. Päätyövälineenä työssä käytetään tilastollista ohjelmistoa R.
Regressioanalyysissä valittiin malli, jolla elokuvakriitikoiden arvioiden keskiarvoa ennustetaan kirjoittajan antamalla arvosanalla elokuvalle sekä arvostelun sentimentillä. Mallin mukaan elokuvakriitikoiden arvioiden keskiarvo kasvaa, kun kirjoittajan antama arvosana elokuvalle kasvaa ja arvostelun sentimentti muuttuu positiivisemmaksi.
Työn aineiston perusteella ei voitu luoda regressiomalliin muuttujia mallintamaan arvostelun kirjoittajan ominaisuuksia. Lisäksi mallissa ei huomioida mahdollisia eroja elokuvakriitikoiden ja aineiston arvostelujen kirjoittajien suhtautumisessa tiettyihin elokuviin. Jatkossa mallia voisi tarkentaa näiltä osin. Lisäksi tutkittua yhteyttä muuttujien välillä voisi mallintaa myös muilla tilastollisilla menetelmillä.
Työn aineisto on satunnaisotannalla valikoitu suuremmasta elokuva-arvostelujen aineistosta. Aineiston arvostelut ovat vuosilta 1987–2001. Kunkin arvosteltavan elokuvan laadun mittarina käytetään elokuvakriitikoiden arvioiden keskiarvoa kyseiselle elokuvalle. Aineiston arvosteluista määritetään tekstin sanamäärä, kirjoitusvirheiden suhteellinen määrä, luettavuus, sentimentti sekä kirjoittajan antama numeerinen arvosana elokuvalle. Lineaarisessa regressioanalyysissä aineiston muuttujilla pyritään selittämään tutkittavaa eli selitettävää muuttujaa. Tässä työssä regressioanalyysillä elokuvakriitikoiden arvioiden keskiarvoa pyritään selittämään arvosteluista kerättyjen muuttujien avulla. Päätyövälineenä työssä käytetään tilastollista ohjelmistoa R.
Regressioanalyysissä valittiin malli, jolla elokuvakriitikoiden arvioiden keskiarvoa ennustetaan kirjoittajan antamalla arvosanalla elokuvalle sekä arvostelun sentimentillä. Mallin mukaan elokuvakriitikoiden arvioiden keskiarvo kasvaa, kun kirjoittajan antama arvosana elokuvalle kasvaa ja arvostelun sentimentti muuttuu positiivisemmaksi.
Työn aineiston perusteella ei voitu luoda regressiomalliin muuttujia mallintamaan arvostelun kirjoittajan ominaisuuksia. Lisäksi mallissa ei huomioida mahdollisia eroja elokuvakriitikoiden ja aineiston arvostelujen kirjoittajien suhtautumisessa tiettyihin elokuviin. Jatkossa mallia voisi tarkentaa näiltä osin. Lisäksi tutkittua yhteyttä muuttujien välillä voisi mallintaa myös muilla tilastollisilla menetelmillä.
Kokoelmat
- Kandidaatintutkielmat [8344]