Applying Machine Learning Methods to Analyse Articulatory Dependency of Bone Conduction Transfer Functions
Paajanen, Mikael (2022)
Paajanen, Mikael
2022
Master's Programme in Computational Big Data Analytics
Informaatioteknologian ja viestinnän tiedekunta - Faculty of Information Technology and Communication Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2022-06-18
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:tuni-202206145653
https://urn.fi/URN:NBN:fi:tuni-202206145653
Tiivistelmä
The bone conduction (BC) refers to the sound that propagates to the inner ear through the human tissue and especially the skull instead of the air conduction (AC) pathway through outer- and middle-ears. The BC sound is a significant factor particularly when perceiving one's own voice. This applies as well to earphones recording the user's speech. Better understanding on the articulatory dependency of the BC pathway would help when designing mobile earphones used in phone calls, as the BC sound could be utilised more efficiently to capture the user's speech, for example, in a noisy environment.
The articulatory dependency of the bone conduction pathway is a phenomenon that is not yet fully understood. This thesis presents a novel approach to study the articulatory dependency using estimates of transfer functions characterising the bone conduction pathway. The information about the articulation is conveyed by the vocalised phone.
In this thesis, we developed an algorithm to group phones so that the groups are separable based on the information of the BC transfer function. The transfer functions were estimated from AC and BC speech signals. The separability of the groupings was evaluated and compared for the grouping proposed by the algorithm, groupings based on phonetic theory and a baseline grouping where each group consists of only one phone. The evaluation of the group separability was performed by the means of machine learning methods. The used methods were the support vector machine classifier and the multi-layer perceptron artificial neural network. The group separability was determined by the ability of these methods to classify individual transfer function estimates into correct groups. The analysis was done both within- and across-speakers using a dataset consisting of BC transfer function estimates for a time frame of 10 milliseconds and the information of which phone was vocalised during the frame.
As a result, neither of the studied classification methods was able to separate the phones or the groups from each other with high accuracy. The highest test accuracy (72%) was achieved for the division into vowels and consonants in the within-speaker setting. The algorithm-based grouping, consisting of three groups, was classified with a test accuracy of 69% in the same setting.
The algorithm was able to find a phone grouping that was well-separable relative to the number of groups in the grouping and compared to the phonetic theory based groupings. To some extent this grouping appears to be related to the openness of the vocal tract during articulation. The results of the group separability evaluations imply that there is some articulatory dependency of the BC pathway. Luujohtuminen tarkoittaa ääntä, joka välittyy ihmiskehon kudosten ja erityisesti kallon luiden kautta sisäkorvaan toisin kuin ilmajohtuminen, jossa ääni kulkee aina ulko- ja välikorvan kautta. Luujohtumisäänen vaikutus puhujan oman äänen havaitsemiseen on merkittävä. Tämä koskee myös kuulokkeita, jotka äänittävät käyttäjän puhetta. Luujohtumistien artikulaatioriippuvuuden parempi ymmärrys auttaisi kuulokkeiden kehittämisessä, sillä käyttäjän puhetta nauhoitettaessa luujohtumisääntä voitaisiin hyödyntää paremmin esimerkiksi meluisessa ympäristössä.
Luujohtumistien artikulaatioriippuvuutta ei vielä ymmärretä täysin. Tässä tutkielmassa esitetään uusi tapa tutkia luujohtumistien artikulaatioriippuvuutta hyödyntämällä luujohtumistietä kuvaavia siirtofunktioestimaatteja. Äännetty äänne välittää tietoa artikulaaiosta.
Kehitimme algoritmin ryhmittelemään äänteitä niin, että ne ovat eroteltavissa luujohtumissiirtofunktion perusteella. Siirtofunktiot estimoitiin ilma- ja luujohtuneiden puhesignaalien perusteella. Algoritmin tuottaman ryhmittelyn, fonetiikkaan perustuvien ryhmittelyiden sekä vertailukohtaryhmittelyn, jossa jokainen ryhmä sisältää vain yhden äänteen, eroteltavuutta arvioitiin ja verrattiin. Eroteltavuuden arviointiin käytettiin koneoppimismenetelmiä. Käytetyt menetelmät olivat tukivektorikoneluokittelija sekä monikerroksinen perseptronineuroverkko. Ryhmien eroteltavuus määräytyi luokittelijoiden kyvyn mukaan luokitella yksittäiset siirtofunktioestimaatit oikeisiin ryhmiin. Eroteltavuuden arviointi tehtiin sekä yhden että kaikkien puhujien asetelmissa. Käytetyssä datasetissä yksi havainto käsitti siirtofunktioestimaatin 10 millisekunnin aikaikkunalle sekä tiedon aikaikkunan aikana äännetystä äänteestä.
Kumpikaan käytetyistä luokittelijoista ei pystynyt luokittelemaan äänteitä eikä ryhmiä korkealla tarkkuudella. Korkein testitarkkuus (72%) saavutettiin ryhmittelyllä, jossa vokaalit ja konsonantit oli eroteltu omiksi ryhmikseen. Tämä tulos saavutettiin yhden puhujan asetelmassa keskiarvona yli kaikkien puhujien. Ryhmittelyalgoritmin ehdottama ryhmittely luokiteltiin 69% testitarkkuudella samassa asetelmassa.
Algoritmi löysi ryhmittelyn, jossa ryhmät erottuivat toisistaan kohtuullisen hyvin. Lisäksi kyseinen ryhmittely osoittautui systemaattisemmaksi kuin puheentuoton teoriaan perustuvat ryhmittelytavat. Tämä ryhmittely liittyy jossain määrin ääntöväylän avoimmuuteen äännettäessä. Tulokset viittaavat siihen, että luujohtumistie on jonkin verran riippuvainen artikulaatiosta.
The articulatory dependency of the bone conduction pathway is a phenomenon that is not yet fully understood. This thesis presents a novel approach to study the articulatory dependency using estimates of transfer functions characterising the bone conduction pathway. The information about the articulation is conveyed by the vocalised phone.
In this thesis, we developed an algorithm to group phones so that the groups are separable based on the information of the BC transfer function. The transfer functions were estimated from AC and BC speech signals. The separability of the groupings was evaluated and compared for the grouping proposed by the algorithm, groupings based on phonetic theory and a baseline grouping where each group consists of only one phone. The evaluation of the group separability was performed by the means of machine learning methods. The used methods were the support vector machine classifier and the multi-layer perceptron artificial neural network. The group separability was determined by the ability of these methods to classify individual transfer function estimates into correct groups. The analysis was done both within- and across-speakers using a dataset consisting of BC transfer function estimates for a time frame of 10 milliseconds and the information of which phone was vocalised during the frame.
As a result, neither of the studied classification methods was able to separate the phones or the groups from each other with high accuracy. The highest test accuracy (72%) was achieved for the division into vowels and consonants in the within-speaker setting. The algorithm-based grouping, consisting of three groups, was classified with a test accuracy of 69% in the same setting.
The algorithm was able to find a phone grouping that was well-separable relative to the number of groups in the grouping and compared to the phonetic theory based groupings. To some extent this grouping appears to be related to the openness of the vocal tract during articulation. The results of the group separability evaluations imply that there is some articulatory dependency of the BC pathway.
Luujohtumistien artikulaatioriippuvuutta ei vielä ymmärretä täysin. Tässä tutkielmassa esitetään uusi tapa tutkia luujohtumistien artikulaatioriippuvuutta hyödyntämällä luujohtumistietä kuvaavia siirtofunktioestimaatteja. Äännetty äänne välittää tietoa artikulaaiosta.
Kehitimme algoritmin ryhmittelemään äänteitä niin, että ne ovat eroteltavissa luujohtumissiirtofunktion perusteella. Siirtofunktiot estimoitiin ilma- ja luujohtuneiden puhesignaalien perusteella. Algoritmin tuottaman ryhmittelyn, fonetiikkaan perustuvien ryhmittelyiden sekä vertailukohtaryhmittelyn, jossa jokainen ryhmä sisältää vain yhden äänteen, eroteltavuutta arvioitiin ja verrattiin. Eroteltavuuden arviointiin käytettiin koneoppimismenetelmiä. Käytetyt menetelmät olivat tukivektorikoneluokittelija sekä monikerroksinen perseptronineuroverkko. Ryhmien eroteltavuus määräytyi luokittelijoiden kyvyn mukaan luokitella yksittäiset siirtofunktioestimaatit oikeisiin ryhmiin. Eroteltavuuden arviointi tehtiin sekä yhden että kaikkien puhujien asetelmissa. Käytetyssä datasetissä yksi havainto käsitti siirtofunktioestimaatin 10 millisekunnin aikaikkunalle sekä tiedon aikaikkunan aikana äännetystä äänteestä.
Kumpikaan käytetyistä luokittelijoista ei pystynyt luokittelemaan äänteitä eikä ryhmiä korkealla tarkkuudella. Korkein testitarkkuus (72%) saavutettiin ryhmittelyllä, jossa vokaalit ja konsonantit oli eroteltu omiksi ryhmikseen. Tämä tulos saavutettiin yhden puhujan asetelmassa keskiarvona yli kaikkien puhujien. Ryhmittelyalgoritmin ehdottama ryhmittely luokiteltiin 69% testitarkkuudella samassa asetelmassa.
Algoritmi löysi ryhmittelyn, jossa ryhmät erottuivat toisistaan kohtuullisen hyvin. Lisäksi kyseinen ryhmittely osoittautui systemaattisemmaksi kuin puheentuoton teoriaan perustuvat ryhmittelytavat. Tämä ryhmittely liittyy jossain määrin ääntöväylän avoimmuuteen äännettäessä. Tulokset viittaavat siihen, että luujohtumistie on jonkin verran riippuvainen artikulaatiosta.