Acoustic Scene Classification with Interpretable Deep Neural Networks
Asikainen, Valtteri (2024)
Asikainen, Valtteri
2024
Tieto- ja sähkötekniikan kandidaattiohjelma - Bachelor's Programme in Computing and Electrical Engineering
Informaatioteknologian ja viestinnän tiedekunta - Faculty of Information Technology and Communication Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2024-05-16
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:tuni-202405095615
https://urn.fi/URN:NBN:fi:tuni-202405095615
Tiivistelmä
Environmental sounds are an important source of information, yet one that our devices commonly underutilize. While this has started to change in recent years with the growing interest in acoustic scene classification (ASC) and high prediction accuracies have been reached for some datasets, the commonly used models are complex and difficult to fully understand and trust. This thesis explores the use of an interpretable model for ASC.
The objective of the thesis is to apply the Audio Prototype Network (APNet) proposed in "An Interpretable Deep Learning Model for Automatic Sound Classification" to ASC. The model in question is an interpretable model consisting of an autoencoder and a prototype-based classifier. Three versions of the model with different prototype configurations were trained on the TAU Urban Acoustic Scenes 2019 dataset and evaluated for both accuracy and interpretability.
The experiments show the accuracy and interpretability of the model on an ASC task to be higher than the chosen baseline, but significantly worse compared to the results in "An Interpretable Deep Learning Model for Automatic Sound Classification", which tested the model on datasets consisting of foreground sounds. The experiments also reveal that while the addition of more prototypes in the model is not an effective way to improve classification performance, it does have a significant impact on the interpretability of prediction results. Ympäristön äänet ovat tärkeä tiedonlähde, mutta laitteemme eivät yleensä hyödynnä niitä tehokkaasti. Viime vuosina on kuitenkin tapahtunut muutosta, ja kiinnostus akustiseen paikantunnistukseen (engl. acoustic scene classification) on kasvanut. Vaikka joillakin tietoaineistoilla on saavutettu korkeita tarkkuuksia, yleisimmin käytetyt mallit ovat monimutkaisia, mikä tekee niiden ymmärtämisestä ja luottamisesta vaikeaa. Tässä työssä tarkastellaan tulkittavan mallin soveltamista akustiseen paikantunnistukseen.
Työn tavoitteena on käyttää "An Interpretable Deep Learning Model for Automatic Sound Classification" -artikkelissa ehdotettua Audio Prototype Network (APNet) -mallia akustiseen paikantunnistukseen. Kyseessä on tulkittava malli, joka koostuu autoenkooderista ja prototyyppeihin perustuvasta luokittelijasta. Kolme versiota mallista eri prototyyppikonfiguraatiolla koulutettiin TAU Urban Acoustic Scenes 2019 -aineistolla, ja niitä arvioitiin sekä tarkkuuden että tulkittavuuden suhteen.
Kokeet osoittavat, että mallin tarkkuus ja tulkittavuus akustisessa paikantunnistuksessa ovat korkeammat kuin valitulla vertailukohdalla, mutta merkittävästi huonommat verrattuna "An Interpretable Deep Learning Model for Automatic Sound Classification" -artikkelin tuloksiin, jotka saatiin etualalla olevista äänistä koostuvilla tietoaineistoilla. Kokeet osoittavat myös, että vaikka prototyyppimäärän kasvattaminen ei ole tehokas tapa parantaa mallin luokittelukykyä, sillä on merkittävä vaikutus tulosten tulkittavuuteen.
The objective of the thesis is to apply the Audio Prototype Network (APNet) proposed in "An Interpretable Deep Learning Model for Automatic Sound Classification" to ASC. The model in question is an interpretable model consisting of an autoencoder and a prototype-based classifier. Three versions of the model with different prototype configurations were trained on the TAU Urban Acoustic Scenes 2019 dataset and evaluated for both accuracy and interpretability.
The experiments show the accuracy and interpretability of the model on an ASC task to be higher than the chosen baseline, but significantly worse compared to the results in "An Interpretable Deep Learning Model for Automatic Sound Classification", which tested the model on datasets consisting of foreground sounds. The experiments also reveal that while the addition of more prototypes in the model is not an effective way to improve classification performance, it does have a significant impact on the interpretability of prediction results.
Työn tavoitteena on käyttää "An Interpretable Deep Learning Model for Automatic Sound Classification" -artikkelissa ehdotettua Audio Prototype Network (APNet) -mallia akustiseen paikantunnistukseen. Kyseessä on tulkittava malli, joka koostuu autoenkooderista ja prototyyppeihin perustuvasta luokittelijasta. Kolme versiota mallista eri prototyyppikonfiguraatiolla koulutettiin TAU Urban Acoustic Scenes 2019 -aineistolla, ja niitä arvioitiin sekä tarkkuuden että tulkittavuuden suhteen.
Kokeet osoittavat, että mallin tarkkuus ja tulkittavuus akustisessa paikantunnistuksessa ovat korkeammat kuin valitulla vertailukohdalla, mutta merkittävästi huonommat verrattuna "An Interpretable Deep Learning Model for Automatic Sound Classification" -artikkelin tuloksiin, jotka saatiin etualalla olevista äänistä koostuvilla tietoaineistoilla. Kokeet osoittavat myös, että vaikka prototyyppimäärän kasvattaminen ei ole tehokas tapa parantaa mallin luokittelukykyä, sillä on merkittävä vaikutus tulosten tulkittavuuteen.
Kokoelmat
- Kandidaatintutkielmat [8430]