Smooth Masking Augmentation In Passive Sonar Data Based Ship Type Classification
Sinisalmi, Sami (2023)
Sinisalmi, Sami
2023
Tietotekniikan DI-ohjelma - Master's Programme in Information Technology
Informaatioteknologian ja viestinnän tiedekunta - Faculty of Information Technology and Communication Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2023-05-04
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:tuni-202304023388
https://urn.fi/URN:NBN:fi:tuni-202304023388
Tiivistelmä
In this thesis, a novel data augmentation method for deep neural networks is presented for a ship type classification task. This task is an audio classification task, which utilizes underwater hydrophone recordings.
The provided dataset of hydrophone recordings is prepossessed before usage. The dataset consisted of an uneven amount of data in different classes, which was balanced out with the usage of oversampling and undersampling. As the dataset was lacking in size, cross-validation was utilized to represent more accurately the performance of the classification models. Feature engineering was also conducted for the data, and log mel spectrograms were extracted for the use of the classification models. A custom deep learning-based convolutional neural network model was created with this specific task in mind, achieving an 86.7% accuracy for the test data. The models were created and tuned based on experimentation and a hyperparameter search tool.
To further improve the model's generalization capabilities, data augmentation was utilized. For this, some state-of-the-art mixing and masking-based augmentation methods were utilized. On top of this, a novel smooth masking-based data augmentation method was introduced. The novel method was compared with state-of-the-art methods, and the best performance was obtained with the novel method. Furthermore, some small-scale testing was made to compare differences between masking ratios used in the masking-based augmentation methods, which provided results to further improve the effects of augmentation. Utilizing the novel augmentation method increased the classification accuracy to 91.1%. Tässä Diplomityössä esitellään uusi data augmentaatio menetelmä laivatyyppi luokittelijalle, joka hyödyntää syväoppivaa neuroverkkoa. Laivatyyppi luokittelu on audio luokittelu tehtävä, jossa hyödynnetään vedenalaisia hydrofoni nauhoituksia.
Työtä varten käytettävä data-aineisto, joka sisältää hydrofoni nauhoituksia, esikäsitellään ennen hyödyntämistä. Data-aineisto sisälsi epätasaisen määrän dataa eri luokissa, ja luokat tasoitettiin hyödyntämällä yli- ja alinäytteistystä. Sillä data-aineisto ei ollut tarpeeksi suuri, ristivalidointia hyödynnettiin, jotta voitiin varmistua luokittelijan suorituskyvystä kyseisessä tehtävässä. Myös ominaisuussuunnittelua (feature engineering) käytettiin, ja data-aineiston näytteistä kerättiin log mel spektrogrammit luokittelijoiden käytettäväksi. Luokittelijana käytettiin itse kehitettyä syväoppivaa konvoluutionaalista neuroverkkoa, joka onnistui saavuttamaan 86.7% tarkkuuden testidatalla. Luokittelijat kehitettiin hyödyntämällä hyperparametrietsintä työkalua.
Jo saavutettua suorituskykyä pyrittiin parantamaan data augmentaatiolla. Tätä varten joitain viimeisintä tekniikkaa edustavia miksaus ja maski perusteisia menetelmiä hyödynnettiin. Tämän lisäksi, täysin uusi data augmentaatio menetelmä (pehmeämaski) kehiteltiin tätä työtä varten. Pehmeämaskia vertailtiin viimeisintä tekniikkaa edustaviin menetelmiin ja tuli ilmi, että paras suorituskyky saavutettiin hyödyntämällä pehmeämaski agumentaatiota. Tämän lisäksi pienimuotoista testausta suoritettiin parhaimman maskisuhteen löytämiseksi, jonka johdosta suorituskykyä saatiin parannettua vielä enemmän. Hyödyntämällä kehitettyä pehmeämaski augmentaatiota, saavutettiin 91.1% tarkkuus testidatan luokittelulle.
The provided dataset of hydrophone recordings is prepossessed before usage. The dataset consisted of an uneven amount of data in different classes, which was balanced out with the usage of oversampling and undersampling. As the dataset was lacking in size, cross-validation was utilized to represent more accurately the performance of the classification models. Feature engineering was also conducted for the data, and log mel spectrograms were extracted for the use of the classification models. A custom deep learning-based convolutional neural network model was created with this specific task in mind, achieving an 86.7% accuracy for the test data. The models were created and tuned based on experimentation and a hyperparameter search tool.
To further improve the model's generalization capabilities, data augmentation was utilized. For this, some state-of-the-art mixing and masking-based augmentation methods were utilized. On top of this, a novel smooth masking-based data augmentation method was introduced. The novel method was compared with state-of-the-art methods, and the best performance was obtained with the novel method. Furthermore, some small-scale testing was made to compare differences between masking ratios used in the masking-based augmentation methods, which provided results to further improve the effects of augmentation. Utilizing the novel augmentation method increased the classification accuracy to 91.1%.
Työtä varten käytettävä data-aineisto, joka sisältää hydrofoni nauhoituksia, esikäsitellään ennen hyödyntämistä. Data-aineisto sisälsi epätasaisen määrän dataa eri luokissa, ja luokat tasoitettiin hyödyntämällä yli- ja alinäytteistystä. Sillä data-aineisto ei ollut tarpeeksi suuri, ristivalidointia hyödynnettiin, jotta voitiin varmistua luokittelijan suorituskyvystä kyseisessä tehtävässä. Myös ominaisuussuunnittelua (feature engineering) käytettiin, ja data-aineiston näytteistä kerättiin log mel spektrogrammit luokittelijoiden käytettäväksi. Luokittelijana käytettiin itse kehitettyä syväoppivaa konvoluutionaalista neuroverkkoa, joka onnistui saavuttamaan 86.7% tarkkuuden testidatalla. Luokittelijat kehitettiin hyödyntämällä hyperparametrietsintä työkalua.
Jo saavutettua suorituskykyä pyrittiin parantamaan data augmentaatiolla. Tätä varten joitain viimeisintä tekniikkaa edustavia miksaus ja maski perusteisia menetelmiä hyödynnettiin. Tämän lisäksi, täysin uusi data augmentaatio menetelmä (pehmeämaski) kehiteltiin tätä työtä varten. Pehmeämaskia vertailtiin viimeisintä tekniikkaa edustaviin menetelmiin ja tuli ilmi, että paras suorituskyky saavutettiin hyödyntämällä pehmeämaski agumentaatiota. Tämän lisäksi pienimuotoista testausta suoritettiin parhaimman maskisuhteen löytämiseksi, jonka johdosta suorituskykyä saatiin parannettua vielä enemmän. Hyödyntämällä kehitettyä pehmeämaski augmentaatiota, saavutettiin 91.1% tarkkuus testidatan luokittelulle.