Sound Event Localization From Binaural Audio : Using a Classification Approach
Kallioniemi, Ola (2024)
Kallioniemi, Ola
2024
Tieto- ja sähkötekniikan kandidaattiohjelma - Bachelor's Programme in Computing and Electrical Engineering
Informaatioteknologian ja viestinnän tiedekunta - Faculty of Information Technology and Communication Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2024-08-20
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:tuni-202408138072
https://urn.fi/URN:NBN:fi:tuni-202408138072
Tiivistelmä
This thesis investigates the localization of sound events in binaural audio using a classification approach. While localization is typically performed using multiple audio channels, this study explores the feasibility of employing only two channels, mimicking the human auditory perception. The primary objective is to develop an automatic method that can accurately classify sound event positions into four distinct categories: front, back, left, and right, relative to the listener’s perspective. The motivation behind this research stems from the remarkable ability of humans to localize sounds using just their ears, prompting an investigation into the effectiveness of binaural audio for sound event detection.
The research begins by reviewing the fundamental concepts of audio perception and signal processing to establish a theoretical background for the study. The work then details the implementation of feature extraction techniques, focusing on frequency and phase characteristics common for sound localization. A Convolutional Neural Network (CNN) is employed as the classifier, trained on a dataset of 1,000 binaural audio samples labeled with directional information. The data is processed to extract the presented features, which the CNN uses to predict the direction of sound events.
The results show a clear indication of the viability of this method and offer a basis for further research and development. These findings can contribute to various applications, such as enhancing the realism of virtual and augmented reality experiences, improving auditory aids for visually impaired individuals, and advancing hearing aid technologies. Tämä kandidaatintyö tutkii äänitapahtumien paikantamista binauraalisen äänen avulla käyttäen luokittelumenetelmää. Vaikka paikantaminen tehdään tyypillisesti useita äänikanavia käyttäen, tässä työssä tarkastellaan mahdollisuutta käyttää vain kahta kanavaa, jäljitellen ihmisen kuuloaistimusta. Päätavoitteena on kehittää automaattinen menetelmä, joka pystyy luokittelemaan tarkasti äänitapahtumien sijainnit neljään eri luokkaan: eteen, taakse, vasemmalle ja oikealle suhteessa kuulijaan. Tutkimuksen motivaationa on ihmisten merkittävä kyky paikantaa ääniä käyttäen vain korviaan, joka johtaa tutkimaan binauraalisen äänen käyttökelpoisuutta äänitapahtumien havaitsemisessa.
Työ alkaa tarkastelemalla ihmisen kuuloaistia ja äänisignaalien käsittelyn keskeisiä käsitteitä, joista luodaan teoreettinen tausta tutkimukselle. Seuraavaksi työssä kuvataan erinäisiä signaalin ominaispiirteiden laskumetodeja, keskittyen vaihe- ja taajuuskomponentteihin. Luokittelumallina käytetään konvoluutioneuroverkkoa, joka koulutetaan tietoaineistolla, joka sisältää 1000 suuntatiedon sisältävää binauraalista ääninäytettä. Data käsitellään ominaispiirteiden erottamista varten, joita konovoluutioneuroverkko käyttää äänitapahtumien suunnan ennustamiseen.
Tulokset osoittavat selvästi tämän menetelmän toimivuuden, ja tarjoavat perustan jatkotutkimukselle ja kehitykselle. Nämä löydökset voivat edistää erilaisia sovelluksia, kuten virtuaali- ja lisätyn todellisuuden kokemusten realistisuuden parantamista, näkövammaisten kuulonapuvälineiden kehittämistä ja kuulokojeteknologian edistämistä.
The research begins by reviewing the fundamental concepts of audio perception and signal processing to establish a theoretical background for the study. The work then details the implementation of feature extraction techniques, focusing on frequency and phase characteristics common for sound localization. A Convolutional Neural Network (CNN) is employed as the classifier, trained on a dataset of 1,000 binaural audio samples labeled with directional information. The data is processed to extract the presented features, which the CNN uses to predict the direction of sound events.
The results show a clear indication of the viability of this method and offer a basis for further research and development. These findings can contribute to various applications, such as enhancing the realism of virtual and augmented reality experiences, improving auditory aids for visually impaired individuals, and advancing hearing aid technologies.
Työ alkaa tarkastelemalla ihmisen kuuloaistia ja äänisignaalien käsittelyn keskeisiä käsitteitä, joista luodaan teoreettinen tausta tutkimukselle. Seuraavaksi työssä kuvataan erinäisiä signaalin ominaispiirteiden laskumetodeja, keskittyen vaihe- ja taajuuskomponentteihin. Luokittelumallina käytetään konvoluutioneuroverkkoa, joka koulutetaan tietoaineistolla, joka sisältää 1000 suuntatiedon sisältävää binauraalista ääninäytettä. Data käsitellään ominaispiirteiden erottamista varten, joita konovoluutioneuroverkko käyttää äänitapahtumien suunnan ennustamiseen.
Tulokset osoittavat selvästi tämän menetelmän toimivuuden, ja tarjoavat perustan jatkotutkimukselle ja kehitykselle. Nämä löydökset voivat edistää erilaisia sovelluksia, kuten virtuaali- ja lisätyn todellisuuden kokemusten realistisuuden parantamista, näkövammaisten kuulonapuvälineiden kehittämistä ja kuulokojeteknologian edistämistä.
Kokoelmat
- Kandidaatintutkielmat [8894]