Hyppää sisältöön
    • Suomeksi
    • In English
Trepo
  • Suomeksi
  • In English
  • Kirjaudu
Näytä viite 
  •   Etusivu
  • Trepo
  • Kandidaatintutkielmat
  • Näytä viite
  •   Etusivu
  • Trepo
  • Kandidaatintutkielmat
  • Näytä viite
JavaScript is disabled for your browser. Some features of this site may not work without it.

The Effect of Feature Space Topology on Speech Emotion Recognition

Niskanen, Joel (2024)

 
Avaa tiedosto
NiskanenJoel.pdf (688.4Kt)
Lataukset: 



Niskanen, Joel
2024

Tieto- ja sähkötekniikan kandidaattiohjelma - Bachelor's Programme in Computing and Electrical Engineering
Informaatioteknologian ja viestinnän tiedekunta - Faculty of Information Technology and Communication Sciences
Hyväksymispäivämäärä
2024-12-16
Näytä kaikki kuvailutiedot
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:tuni-2024121311125
Tiivistelmä
The main purpose of speech emotion recognition (SER) is to determine the speaker’s current emotional state automatically. Typically, various machine learning models have been used to approach this problem. However, the connection between the topology of the feature space and classifier performance has not yet been well-studied. The idea of this study is to recognize the effect on classifier performance by inspecting three different feature topologies: regularly spaced, randomly spaced, or clustered.

In this study, SER was used as a case study to investigate the effect of different feature topologies. First, a bottleneck autoencoder was trained using a standard feature set for SER as an input. In the training process, a combination of two loss functions, a reconstruction loss and so-called Hopkins loss, was used, of which the latter was utilized to manipulate the feature space into a desired topology. Next, emotional labels and the bottleneck features from the autoencoder were used for the SER task to identify the effect of different feature topologies for SER.

As a result, we found that it did not make a difference in SER whether the data were regularly or randomly spaced. However, there was a significant decrease in model performance if the data points in the feature space were strongly clustered.
 
Puheen emootiontunnistuksessa (SER; speech emotion recognition) tarkoituksena on automaattisesti määrittää puhujan senhetkinen tunnetila. Tätä ongelmaa on tyypillisesti lähestytty erilaisilla koneoppimismalleilla. Piirreavaruuden topologian ja luokittimen suorituskyvyn välistä yhteyttä ei kuitenkaan ole vielä tutkittu hyvin. Tämän tutkimuksen ideana on tunnistaa vaikutus luokittimen suorituskykyyn tarkastelemalla kolmea erilaista piirretopologiaa: tasaisesti jakautuneet, satunnaisesti jakautuneet sekä klusteroituneet datapisteet.

Tässä tutkimuksessa käytettiin SERiä tapaustutkimuksena, jossa tutkittiin eri piirreavaruustopologioiden vaikutusta. Ensin opetettiin pullonkaula-autoenkooderi käyttäen syötteenä SERin standardipiirresettiä. Opetusprosessissa käytettiin kahden hukkafunktion, rekonstruktiohukkafunktion sekä niin sanotun Hopkins-hukkafunktion, yhdistelmää, joista jälkimmäistä käytettiin piirreavaruuden muokkaamiseen haluttuun topologiaan. Tämän jälkeen käytettiin emootioannotaatioita sekä autoenkooderin tuottamia pullonkaulapiirteitä SER-luokitustehtävässä, jotta tunnistettiin erilaisten piirretopologioiden vaikutus SERiin.

Tuloksena havaittiin, että SERin kannalta ei ollut merkitystä sillä, oliko data säännöllisesti vai satunnaisesti sijoitettu. Mallin suorituskyky kuitenkin heikkeni merkittävästi, jos piirreavaruuden datapisteet olivat voimakkaasti klusteroituneita.
 
Kokoelmat
  • Kandidaatintutkielmat [9001]
Kalevantie 5
PL 617
33014 Tampereen yliopisto
oa[@]tuni.fi | Tietosuoja | Saavutettavuusseloste
 

 

Selaa kokoelmaa

TekijätNimekkeetTiedekunta (2019 -)Tiedekunta (- 2018)Tutkinto-ohjelmat ja opintosuunnatAvainsanatJulkaisuajatKokoelmat

Omat tiedot

Kirjaudu sisäänRekisteröidy
Kalevantie 5
PL 617
33014 Tampereen yliopisto
oa[@]tuni.fi | Tietosuoja | Saavutettavuusseloste