Deep Learning with Fourier Transformed Images
Sassali, Noora (2023)
Sassali, Noora
2023
Tieto- ja sähkötekniikan kandidaattiohjelma - Bachelor's Programme in Computing and Electrical Engineering
Informaatioteknologian ja viestinnän tiedekunta - Faculty of Information Technology and Communication Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2023-05-22
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:tuni-202305205965
https://urn.fi/URN:NBN:fi:tuni-202305205965
Tiivistelmä
The research and applications based on deep learning have increased rapidly over the past years. Image classification is one of the main applicational scopes of deep learning. Many existing image classifiers are based on Convolutional Neural Network (CNN) architectures.
Discrete Fourier Transformation (DFT) is a powerful tool in image processing and can be used to analyze 2D data and perform filtering in the frequency domain. DFT has a few applications in deep learning, such as a spectral pooling layer. Fourier transformation is a frequently used pre-processing method in audio deep learning, as the learning benefits from the signal representation in the frequency domain.
This thesis evaluates how a CNN backbone learns an image classification task if training is performed with Fourier-transformed images instead of spatial RGB images. Two experimental models based on EfficientNetV2-S architecture were created for DFT pre-processed and spatial RGB images. A pre-trained version of the backbone was used as the baseline model. ImageNet 2012 dataset reduced to 64x64 resolution was used as the training and testing data. DFT and RGB models were trained from scratch and evaluated by comparing model accuracies (top-1, -2, -5).
The results suggest that CNN can learn features from both RGB and Fourier-transformed images. However, the spatial image network reaches higher accuracy over the trained epochs. Model accuracies are significantly smaller when compared to the baseline but could be improved by fine-tuning the training process further and using a larger version of the ImageNet dataset. Further studies are suggested to determine what inputs benefit DFT pre-processing the most. Research could be extended to exploit Fourier Transformation properties in CNN architectures further. Neuroverkkoihin perustuvan syväoppimisen (eng. deep learning) tutkimus ja sovellukset ovat kasvattaneet suosiotaan viime vuosien aikana. Kuvien luokitus on yksi syväoppimisen pääkäyttöaloista ja monet olemassa olevista luokittelijoista perustuvat konvoluutioneuroverkkorakenteisiin.
Diskreetti Fourier-muunnos (DFT) on tehokas työkalu kuvankäsittelyssä. Sitä voidaan käyttää kaksiulotteisen datan analysointiin ja erilaisten taajuustasossa tapahtuvien suodatusten toteuttamiseen. Menetelmällä on muutamia sovelluksia kuvien luokitukseen keskittyvässä syväoppimisessa. Sitä käytetään myös syväoppimisen audiosovelluksissa datan esikäsittelymenetelmänä, sillä oppiminen hyötyy äänisignaalien taajuustason kuvauksesta.
Tämän kandidaatintyön tarkoituksena oli arvioida, miten konvoluutioverkkoihin perustuva neuroverkkoarkkitehtuuri oppii kuvien luokitusta, jos kuvasyötteet on muunnettu Fourier-muunnoksen avulla tilatasosta taajuustasoon. Kaksi kokeellista EfficientNetV2-S arkkitehtuuriin perustuvaa verkkoa luotiin sekä DFT-esikäsitellyille että RGB-kuville. Vertailukohtana hyödynnettiin vastaavan verkon esiopetettua versiota. Opetusdatana käytettiin ImageNet 2012 kuva-aineiston 64x64 resoluutioista versiota, joka sisältää 1,2 miljoonaa kuvaa ja 1000 luokkaa. DFT ja RGB-mallit opetettiin alustamattomista verkoista ja niiden suoriutumista arvioitiin mallien tarkkuuksien (top-1,-2 ja -5) avulla.
Työn tulokset osoittavat, että konvoluutioverkko pystyy oppimaan piirteitä sekä RGB- että Fourier-muunnetuista kuvista. Tilatason kuvista oppiva malli saavuttaa kuitenkin DFT-mallia korkeamman tarkkuuden opetusiteraatioiden tuloksena. Mallien saavuttamat tarkkuudet jäävät huomattavasti pienemmäksi esiopetettuun verkkoon verrattuna, mutta niitä voitaisiin parantaa hienosäätämällä oppimisprosessia pidemmälle ja käyttämällä ImageNet kuva-aineiston suurempaa versiota. Tulevaisuudessa voitaisiin tutkia millaiset kuvat hyötyvät Fourier-muunnoksesta eniten ja voidaanko Fourier-muunnoksen erityisominaisuuksia hyödyntää osana konvoluutioverkkoarkkitehtuureja.
Discrete Fourier Transformation (DFT) is a powerful tool in image processing and can be used to analyze 2D data and perform filtering in the frequency domain. DFT has a few applications in deep learning, such as a spectral pooling layer. Fourier transformation is a frequently used pre-processing method in audio deep learning, as the learning benefits from the signal representation in the frequency domain.
This thesis evaluates how a CNN backbone learns an image classification task if training is performed with Fourier-transformed images instead of spatial RGB images. Two experimental models based on EfficientNetV2-S architecture were created for DFT pre-processed and spatial RGB images. A pre-trained version of the backbone was used as the baseline model. ImageNet 2012 dataset reduced to 64x64 resolution was used as the training and testing data. DFT and RGB models were trained from scratch and evaluated by comparing model accuracies (top-1, -2, -5).
The results suggest that CNN can learn features from both RGB and Fourier-transformed images. However, the spatial image network reaches higher accuracy over the trained epochs. Model accuracies are significantly smaller when compared to the baseline but could be improved by fine-tuning the training process further and using a larger version of the ImageNet dataset. Further studies are suggested to determine what inputs benefit DFT pre-processing the most. Research could be extended to exploit Fourier Transformation properties in CNN architectures further.
Diskreetti Fourier-muunnos (DFT) on tehokas työkalu kuvankäsittelyssä. Sitä voidaan käyttää kaksiulotteisen datan analysointiin ja erilaisten taajuustasossa tapahtuvien suodatusten toteuttamiseen. Menetelmällä on muutamia sovelluksia kuvien luokitukseen keskittyvässä syväoppimisessa. Sitä käytetään myös syväoppimisen audiosovelluksissa datan esikäsittelymenetelmänä, sillä oppiminen hyötyy äänisignaalien taajuustason kuvauksesta.
Tämän kandidaatintyön tarkoituksena oli arvioida, miten konvoluutioverkkoihin perustuva neuroverkkoarkkitehtuuri oppii kuvien luokitusta, jos kuvasyötteet on muunnettu Fourier-muunnoksen avulla tilatasosta taajuustasoon. Kaksi kokeellista EfficientNetV2-S arkkitehtuuriin perustuvaa verkkoa luotiin sekä DFT-esikäsitellyille että RGB-kuville. Vertailukohtana hyödynnettiin vastaavan verkon esiopetettua versiota. Opetusdatana käytettiin ImageNet 2012 kuva-aineiston 64x64 resoluutioista versiota, joka sisältää 1,2 miljoonaa kuvaa ja 1000 luokkaa. DFT ja RGB-mallit opetettiin alustamattomista verkoista ja niiden suoriutumista arvioitiin mallien tarkkuuksien (top-1,-2 ja -5) avulla.
Työn tulokset osoittavat, että konvoluutioverkko pystyy oppimaan piirteitä sekä RGB- että Fourier-muunnetuista kuvista. Tilatason kuvista oppiva malli saavuttaa kuitenkin DFT-mallia korkeamman tarkkuuden opetusiteraatioiden tuloksena. Mallien saavuttamat tarkkuudet jäävät huomattavasti pienemmäksi esiopetettuun verkkoon verrattuna, mutta niitä voitaisiin parantaa hienosäätämällä oppimisprosessia pidemmälle ja käyttämällä ImageNet kuva-aineiston suurempaa versiota. Tulevaisuudessa voitaisiin tutkia millaiset kuvat hyötyvät Fourier-muunnoksesta eniten ja voidaanko Fourier-muunnoksen erityisominaisuuksia hyödyntää osana konvoluutioverkkoarkkitehtuureja.
Kokoelmat
- Kandidaatintutkielmat [8996]