Emotions in voice. Acoustic and perceptual analysis of voice quality in the vocal expression of emotions
Waaramaa-Mäki-Kulmala, Teija (2009)
Waaramaa-Mäki-Kulmala, Teija
Tampere University Press
2009
Puheoppi - Speech Communication and Voice Research
Humanistinen tiedekunta - Faculty of Humanities
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Väitöspäivä
2009-05-08
Julkaisun pysyvä osoite on
https://urn.fi/urn:isbn:978-951-44-7667-9
https://urn.fi/urn:isbn:978-951-44-7667-9
Tiivistelmä
Emootiot äänessä
Inhimillinen viestintä sisältää aina emotionaalista informaatiota. Sekä evoluutio, ympäröivä kulttuuri että yksilölliset ominaisuudet ja kokemukset vaikuttavat viestintätapoihimme, niin viestijänä kuin viestin vastaanottajanakin. Emosfäärin käsitettä voidaan käyttää näin muovautuneen emotionaalisen kokemusmaailman kuvaamiseen.
Viestiä välittävät puheen sisältö, puhujan ulkoiset piirteet sekä puhujan äänenlaatu. Entuudestaan tiedetään, että äänen perustaajuudella (F0, Hz) ja äänenpainetasolla (SPL, dB) sekä ilmaisun kestosuhteilla on vaikutusta tunteiden välittämisessä. Sen sijaan äänenlaatua on tässä suhteessa tutkittu varsin vähän.
Tämän tutkimuksen tavoitteena oli selvittää, mitä vaikutuksia äänenlaadun eri akustisilla ominaisuuksilla on emootioiden välittämisessä ja onko emootioita ilmaisevasta luennasta eristetty yksittäinen pääpainollinen vokaali (~150 ms) riittävä signaali emootion tai sen valenssin (positiivisuuden, neutraalisuuden tahi negatiivisuuden) havaitsemiseen. Lisäksi tutkittiin, voiko yhdeltä sävelkorkeudelta tuotetusta vokaalista (~2400 ms) tunnistaa eri tunnetiloja. Tavoitteena oli selvittää, voiko emootioilmaisu olla sävelkorkeusvaihteluista riippumatonta. Selvitettiin myös, onko sukupuolten välillä eroja emootioiden ilmaisussa tai vastaanotossa.
Tämän perustutkimuksen tuloksia voidaan soveltaa äänenkäytön ja puhetekniikan kouluttamisessa. Lisäksi tietoa emotionaalisen ilmaisun äänellisistä piirteistä voidaan hyödyntää puheteknologiassa, kuten puhujan- ja puheentunnistuksen ja synteesin kehittämisessä. Näitä voidaan parantaa, kun käytettävissä on enemmän tietoa yksilöllisistä variaatiomahdollisuuksista äänisignaalissa ja tunneilmausten vastaanottoon liittyvästä merkityksestä.
Akustisena ilmiönä äänenlaatu tarkoittaa äänienergian jakautumista taajuusasteikolle. Äänenlaatua voidaan tarkastella kahdella tasolla, äänilähteen (äänihuulivärähtelyn tuottama jaksollinen ilmavirtausvaihtelu) ja suotimen (ääniväylän resonanssit eli formantit, jotka vaihtelevat artikulaation mukaan) tasolla.
Tutkimusmateriaalina käytettiin näyttelijöiden tuottamia emootionäytteitä, joille tehtiin akustiset ja tilastolliset analyysit. Yhteensä neljän osatutkimuksen kuuntelukokeisiin osallistui kuhunkin 30, 40 tai 50 kuuntelijaa. Kuuntelukokeiden tulokset analysoitiin tilastollisesti. Lisäksi vertailtiin kuuntelukokeen ja tietokonetunnistuksen välisiä eroja emootioiden tunnistamisessa.
Tulokseksi saatiin, että valenssi välittyi lyhyistä (~150 ms) näytteistä ja että yhdeltä sävelkorkeudelta ilmaistuista vokaaleista (~2400 ms) pystyttiin nimeämään eri emootiot. Tosin eri vokaaleilla oli keskenään erilainen kyky välittää emotionaalista informaatiota, esimerkiksi [u:] välitti parhaiten surua ja [a:] hellyyttä. Viha tunnistettiin hyvin kaikista tutkituista vokaaleista. Formanttitaajuudet yhdistettiin valenssin vastaanottoon [a:]-vokaalista niin, että hieman korkeammat resonanssitaajuudet tulkittiin välittävän positiivisempaa sointiväriä kuin vähän matalammat taajuudet. Lähdeäänellä (äänihuulivärähtelyllä) näytti olevan osin itsenäinen rooli emootioilmaisussa niin, että sen vaihtelut eivät olleet ainoastaan sidoksissa äänen perustaajuuden tai äänenpainetason vaihteluihin.
Tietokoneen automaattinen emootioluokittelu näytti hyödyntävän parhaiten sellaisia muuttujia, joilla ei ollut merkitsevyyttä kuuntelukokeessa. Näin ollen tietokone ja kuuntelijat käyttivät tunteiden erottelussa erilaista informaatiota hyväkseen. Automaattinen emootioluokittelu antoi jonkin verran paremman tuloksen kuin kuuntelukoe, mutta se ei kuitenkaan tunnistanut yhtä hyvin vihaa kuin koehenkilöt. Sen sijaan ilon se taas tunnisti kuuntelijoita paremmin.
Naiset tunnistivat emootiot hiukan paremmin kuin miehet (52 % / 48 %), mutta tällä ei ollut tilastollista merkitsevyyttä. Sen sijaan miehet jättivät vastaamatta tilastollisesti merkitsevästi useammin esitettyihin näytteisiin kuin naiset. Tämä saattaa kertoa miesten suuremmasta epävarmuudesta emotionaalisen informaation vastaanotossa. Sukupuolten välisiä eroja tunnetilojen vastaanottamisessa olisi syytä tutkia tarkemmin, esimerkiksi aivotutkimuksen keinoin.
Puheeseen liittyvän emootioilmaisun moniulotteisuus näkyi suurina yksilöllisinä eroina. Muuttujien erilaisten yhdistelmien vaikutukset kuulohavaintoon vaatisivat jatkotutkimusta. Äänilähteen ja ääniväylän vaikutusten välistä suhdetta eri vokaaleissa on syytä tutkia jatkossa synteesin avulla, mikä mahdollistaa halutunasteiset muutokset pelkästään valituissa muuttujissa.
Väitöstutkimus koostuu neljästä julkaistusta artikkelista. Tutkimus tehtiin yhteistyöprojektina Helsingin Teknillisen korkeakoulun Signaalinkäsittelyn ja akustiikan laitoksen sekä Oulun yliopiston MediaTeamin kanssa.
Inhimillinen viestintä sisältää aina emotionaalista informaatiota. Sekä evoluutio, ympäröivä kulttuuri että yksilölliset ominaisuudet ja kokemukset vaikuttavat viestintätapoihimme, niin viestijänä kuin viestin vastaanottajanakin. Emosfäärin käsitettä voidaan käyttää näin muovautuneen emotionaalisen kokemusmaailman kuvaamiseen.
Viestiä välittävät puheen sisältö, puhujan ulkoiset piirteet sekä puhujan äänenlaatu. Entuudestaan tiedetään, että äänen perustaajuudella (F0, Hz) ja äänenpainetasolla (SPL, dB) sekä ilmaisun kestosuhteilla on vaikutusta tunteiden välittämisessä. Sen sijaan äänenlaatua on tässä suhteessa tutkittu varsin vähän.
Tämän tutkimuksen tavoitteena oli selvittää, mitä vaikutuksia äänenlaadun eri akustisilla ominaisuuksilla on emootioiden välittämisessä ja onko emootioita ilmaisevasta luennasta eristetty yksittäinen pääpainollinen vokaali (~150 ms) riittävä signaali emootion tai sen valenssin (positiivisuuden, neutraalisuuden tahi negatiivisuuden) havaitsemiseen. Lisäksi tutkittiin, voiko yhdeltä sävelkorkeudelta tuotetusta vokaalista (~2400 ms) tunnistaa eri tunnetiloja. Tavoitteena oli selvittää, voiko emootioilmaisu olla sävelkorkeusvaihteluista riippumatonta. Selvitettiin myös, onko sukupuolten välillä eroja emootioiden ilmaisussa tai vastaanotossa.
Tämän perustutkimuksen tuloksia voidaan soveltaa äänenkäytön ja puhetekniikan kouluttamisessa. Lisäksi tietoa emotionaalisen ilmaisun äänellisistä piirteistä voidaan hyödyntää puheteknologiassa, kuten puhujan- ja puheentunnistuksen ja synteesin kehittämisessä. Näitä voidaan parantaa, kun käytettävissä on enemmän tietoa yksilöllisistä variaatiomahdollisuuksista äänisignaalissa ja tunneilmausten vastaanottoon liittyvästä merkityksestä.
Akustisena ilmiönä äänenlaatu tarkoittaa äänienergian jakautumista taajuusasteikolle. Äänenlaatua voidaan tarkastella kahdella tasolla, äänilähteen (äänihuulivärähtelyn tuottama jaksollinen ilmavirtausvaihtelu) ja suotimen (ääniväylän resonanssit eli formantit, jotka vaihtelevat artikulaation mukaan) tasolla.
Tutkimusmateriaalina käytettiin näyttelijöiden tuottamia emootionäytteitä, joille tehtiin akustiset ja tilastolliset analyysit. Yhteensä neljän osatutkimuksen kuuntelukokeisiin osallistui kuhunkin 30, 40 tai 50 kuuntelijaa. Kuuntelukokeiden tulokset analysoitiin tilastollisesti. Lisäksi vertailtiin kuuntelukokeen ja tietokonetunnistuksen välisiä eroja emootioiden tunnistamisessa.
Tulokseksi saatiin, että valenssi välittyi lyhyistä (~150 ms) näytteistä ja että yhdeltä sävelkorkeudelta ilmaistuista vokaaleista (~2400 ms) pystyttiin nimeämään eri emootiot. Tosin eri vokaaleilla oli keskenään erilainen kyky välittää emotionaalista informaatiota, esimerkiksi [u:] välitti parhaiten surua ja [a:] hellyyttä. Viha tunnistettiin hyvin kaikista tutkituista vokaaleista. Formanttitaajuudet yhdistettiin valenssin vastaanottoon [a:]-vokaalista niin, että hieman korkeammat resonanssitaajuudet tulkittiin välittävän positiivisempaa sointiväriä kuin vähän matalammat taajuudet. Lähdeäänellä (äänihuulivärähtelyllä) näytti olevan osin itsenäinen rooli emootioilmaisussa niin, että sen vaihtelut eivät olleet ainoastaan sidoksissa äänen perustaajuuden tai äänenpainetason vaihteluihin.
Tietokoneen automaattinen emootioluokittelu näytti hyödyntävän parhaiten sellaisia muuttujia, joilla ei ollut merkitsevyyttä kuuntelukokeessa. Näin ollen tietokone ja kuuntelijat käyttivät tunteiden erottelussa erilaista informaatiota hyväkseen. Automaattinen emootioluokittelu antoi jonkin verran paremman tuloksen kuin kuuntelukoe, mutta se ei kuitenkaan tunnistanut yhtä hyvin vihaa kuin koehenkilöt. Sen sijaan ilon se taas tunnisti kuuntelijoita paremmin.
Naiset tunnistivat emootiot hiukan paremmin kuin miehet (52 % / 48 %), mutta tällä ei ollut tilastollista merkitsevyyttä. Sen sijaan miehet jättivät vastaamatta tilastollisesti merkitsevästi useammin esitettyihin näytteisiin kuin naiset. Tämä saattaa kertoa miesten suuremmasta epävarmuudesta emotionaalisen informaation vastaanotossa. Sukupuolten välisiä eroja tunnetilojen vastaanottamisessa olisi syytä tutkia tarkemmin, esimerkiksi aivotutkimuksen keinoin.
Puheeseen liittyvän emootioilmaisun moniulotteisuus näkyi suurina yksilöllisinä eroina. Muuttujien erilaisten yhdistelmien vaikutukset kuulohavaintoon vaatisivat jatkotutkimusta. Äänilähteen ja ääniväylän vaikutusten välistä suhdetta eri vokaaleissa on syytä tutkia jatkossa synteesin avulla, mikä mahdollistaa halutunasteiset muutokset pelkästään valituissa muuttujissa.
Väitöstutkimus koostuu neljästä julkaistusta artikkelista. Tutkimus tehtiin yhteistyöprojektina Helsingin Teknillisen korkeakoulun Signaalinkäsittelyn ja akustiikan laitoksen sekä Oulun yliopiston MediaTeamin kanssa.
Kokoelmat
- Väitöskirjat [4926]