Image classification in the Fourier domain
Suominen, Mikko (2024)
Suominen, Mikko
2024
Tieto- ja sähkötekniikan kandidaattiohjelma - Bachelor's Programme in Computing and Electrical Engineering
Informaatioteknologian ja viestinnän tiedekunta - Faculty of Information Technology and Communication Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2024-05-15
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:tuni-202405055342
https://urn.fi/URN:NBN:fi:tuni-202405055342
Tiivistelmä
Artificial intelligence (AI) has recently gained a lot of attention in the media. The main driving force for emerging AI tools such as ChatGPT has been deep learning enabled by modern computational hardware. Deep learning is based on artificial neural networks (ANN) which are computational models inspired by the structure of the brain. Image classification is a task that finds extensive use for neural networks.
Fourier transformation is a process that converts a signal into sinusoidal components. In this thesis, it is studied how transforming the images to the Fourier domain and optimizing an ANN for these transformed inputs affects the ANN's performance.
This study is conducted by studying the recent publications on this topic and examining the presented approaches to creating a neural network model for image classification in the Fourier domain. Then a total of 4 ANN models are defined and tested with a dataset containing images with 10 possible labels. The performance of each model with Fourier-transformed inputs is compared to the same model's performance without the transformation.
The study concludes that there is not enough evidence to support the usefulness of FFT in neural networks for this task, with classification accuracy as the evaluation metric. ANN's accuracy scores with Fourier-transformed inputs were consistently approximately 10\% smaller than those with original inputs. However, the ability of ANN's to utilize transformed inputs without a significant performance drop suggests that these transformed images contain exploitable features. There remains a possibility that a more effective method for feature extraction exists. Tekoäly (AI) on saanut viimeaikoina runsaasti huomiota mediassa. Syväoppiminen on modernin laskentatehon mahdollistama tekoälyn menetelmä, jolla on ollut merkittävä rooli edistyksellisien AI-työkalujen kuten ChatGPT:n kehityksessä. Syväoppiminen perustuu hermoverkkoihin (ANN), jotka ovat ihmisen aivoista inspiraatiota saaneita laskennallisia malleja. Kuvien luokittelu on tehtävä, jossa pystytään runsaasti hyödyntämään neuroverkkoja.
Fourier muunnoksella voidaan muuntaa signaali sen sinimuotoisin komponentteihin. Tässä työssä tutkitaan, miten kuvien muuntaminen Fourier tasoon ja neuroverkon optimoiminen näille muunnetuille syötteille vaikuttaa kyseisen verkon suorityuskykyyn.
Tämä työ toteutetaan tutkimalla viimeaikaisia julkaisuja aiheesta ja perehtymällä esitettyihin lähestymistapohin luoda neuroverkkomalli kuvien luokitteluun Fourier-tasossa. Sen jälkeen, määritetään ja testataan 4 neuroverkko mallia. Mallit koulutetaan ja testataan aineistolla, joka sisältää kuvia 10:stä mahdollisesta kategoriasta. Jokaisen mallin suorituskykyä Fourier muunnetuilla syötteillä verrataan saman mallin suorituskykyyn alkuperäisillä syötteillä.
Työn lopputuloksena ei ole riittävästi näyttöä, että FFT parantaisi neuroverkkojen luokittelutarkuutta. Tarkkuudet Fourier-muunnetuilla syötteillä olivat johdonmukaisesti noin 10\% alhaisempia verrattuna tarkkuuksiin alkuperäisillä syötteillä. Kuitenkin neuroverkkojen kyky hyödyntää Fourier-muunnettuja kuvia ilman suurempaa pudotusta tarkkuudessa viittaa siihen, että muunnetut syötteet sisältävät hyödynnettäviä piirteitä. Ei ole poissuljettu, että toisenlaisia menetelmiä hyödyntymällä, muunnettuilla syötteilä voisi saavuttaa paremman tarkkuuden.
Fourier transformation is a process that converts a signal into sinusoidal components. In this thesis, it is studied how transforming the images to the Fourier domain and optimizing an ANN for these transformed inputs affects the ANN's performance.
This study is conducted by studying the recent publications on this topic and examining the presented approaches to creating a neural network model for image classification in the Fourier domain. Then a total of 4 ANN models are defined and tested with a dataset containing images with 10 possible labels. The performance of each model with Fourier-transformed inputs is compared to the same model's performance without the transformation.
The study concludes that there is not enough evidence to support the usefulness of FFT in neural networks for this task, with classification accuracy as the evaluation metric. ANN's accuracy scores with Fourier-transformed inputs were consistently approximately 10\% smaller than those with original inputs. However, the ability of ANN's to utilize transformed inputs without a significant performance drop suggests that these transformed images contain exploitable features. There remains a possibility that a more effective method for feature extraction exists.
Fourier muunnoksella voidaan muuntaa signaali sen sinimuotoisin komponentteihin. Tässä työssä tutkitaan, miten kuvien muuntaminen Fourier tasoon ja neuroverkon optimoiminen näille muunnetuille syötteille vaikuttaa kyseisen verkon suorityuskykyyn.
Tämä työ toteutetaan tutkimalla viimeaikaisia julkaisuja aiheesta ja perehtymällä esitettyihin lähestymistapohin luoda neuroverkkomalli kuvien luokitteluun Fourier-tasossa. Sen jälkeen, määritetään ja testataan 4 neuroverkko mallia. Mallit koulutetaan ja testataan aineistolla, joka sisältää kuvia 10:stä mahdollisesta kategoriasta. Jokaisen mallin suorituskykyä Fourier muunnetuilla syötteillä verrataan saman mallin suorituskykyyn alkuperäisillä syötteillä.
Työn lopputuloksena ei ole riittävästi näyttöä, että FFT parantaisi neuroverkkojen luokittelutarkuutta. Tarkkuudet Fourier-muunnetuilla syötteillä olivat johdonmukaisesti noin 10\% alhaisempia verrattuna tarkkuuksiin alkuperäisillä syötteillä. Kuitenkin neuroverkkojen kyky hyödyntää Fourier-muunnettuja kuvia ilman suurempaa pudotusta tarkkuudessa viittaa siihen, että muunnetut syötteet sisältävät hyödynnettäviä piirteitä. Ei ole poissuljettu, että toisenlaisia menetelmiä hyödyntymällä, muunnettuilla syötteilä voisi saavuttaa paremman tarkkuuden.
Kokoelmat
- Kandidaatintutkielmat [8907]