Hyppää sisältöön
    • Suomeksi
    • In English
Trepo
  • Suomeksi
  • In English
  • Kirjaudu
Näytä viite 
  •   Etusivu
  • Trepo
  • Kandidaatintutkielmat
  • Näytä viite
  •   Etusivu
  • Trepo
  • Kandidaatintutkielmat
  • Näytä viite
JavaScript is disabled for your browser. Some features of this site may not work without it.

Comparative Study of Data Efficiency in Vision Transformer and ResNet-18 Architectures: Using CIFAR-10 and TinyImageNet

Hukari, Santeri (2024)

 
Avaa tiedosto
HukariSanteri.pdf (8.179Mt)
Lataukset: 



Hukari, Santeri
2024

Tieto- ja sähkötekniikan kandidaattiohjelma - Bachelor's Programme in Computing and Electrical Engineering
Informaatioteknologian ja viestinnän tiedekunta - Faculty of Information Technology and Communication Sciences
Hyväksymispäivämäärä
2024-12-23
Näytä kaikki kuvailutiedot
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:tuni-2024121711321
Tiivistelmä
Deep learning algorithms for computer vision have been primarily based on architectures utilizing convolutional layers for feature extraction until 2020, when Dosovitskiy et al. proved that the Vision Transformer, an attention-based neural network outperforms many state-of-the-art convolutional networks of that time in several computer vision tasks.

The architecture of vision transformers differ fundamentally from convolutional networks. Convolutional layers in convolutional networks excel at capturing local features in images, whereas vision transformers are better suited for learning global features that convolutional networks often miss. This advantage comes at the cost of data efficiency, which has limited the adoption of vision transformers until recently.

This thesis compares the learning efficiency of two neural networks of similar complexity: ResNet-18 by He et al. and the Vision Transformer by Dosovitskiy et al. Both models are trained on varying fractions of the CIFAR-10 and TinyImageNet datasets. Canadian Institute for Advanced Research-10 (CIFAR-10) consists of 60,000 RGB images (32x32 pixels, 10 classes), while TinyImageNet contains 110,000 RGB images (64x64 pixels, 200 classes). Results are compared across epochs and different training dataset fractions.

The results show that as the number of epochs increases, both architectures learn similarly, with ResNet-18 models performing slightly better. The observed differences likely stem from the size of the datasets used in the experiment, which is not enough for the Vision Transformer to outperform ResNet-18.
 
Konenäkösovelluksiin käytettävät tekoälyalgoritmit ovat pohjautuneet konvoluutioon perustuvaan piirteidenirroitukseen vuoteen 2020 asti, jolloin Dosovitskiy et al. opettivat Vision Transformer -arkkitehtuurin suoriutumaan paremmin kuin sen aikaiset parhaiten suoriutuvat konvoluutioneuroverkot tietyissä konenäön tehtävissä. Nämä kaksi algoritmityyppiä ovat toiminnaltaan toisistaan poikkeavia. Konvoluutioneuroverkot poimivat tehokkaammin paikallisia piirteitä, joita kuvat usein sisältävät. Vision Transformer -neuroverkot oppivat tehokkaammin myös piirteitä, joita konvoluutioneuroverkot eivät kykene oppimaan. Tämä kuitenkin vaatii suurta tietomäärää, mikä on rajoittanut Vision Transformer -neuroverkkojen yleistymistä nykypäivään asti.

Kokeellisessa osuudessa verrataan kahden kompleksisuudeltaan samankaltaisen eri neuroverkkoarkkitehtuurin oppimista rajoitetulla määrällä dataa: He et al. kehittämää konvoluutioon perustuvaa ResNet-18 ja Dosovitskiy et al. kehittämää Vision Transformer -arkkitehtuuria. Neuroverkot opetetaan käyttäen kahta tietojoukkoa: Canadian Institute for Advanced Research-10 (CIFAR10) ja TinyImageNet. CIFAR-10 sisältää 60 000 RGB-kuvaa koossa 32x32 pikseliä, luokiteltuna 10 eri luokkaan. TinyImageNet taas 110 000 RGB-kuvaa koossa 64x64 pikseliä, luokiteltuna 200 eri luokkaan. Neuroverkot opetetaan valikoiden tietty prosenttimäärä tietojoukosta. Tuloksia verrataan eepokkien ja opettamiseen käytetyn kuvamäärän perusteella.

Tuloksista selviää, että suuremmalla määrällä eepokkeja molemmat arkkitehtuurit oppivat samankaltaisesti, vaikkakin ResNet-18 -arkkitehtuuriin pohjautuvat mallit suoriutuvat hieman paremmin. Erot johtuvat todennäköisesti työssä käytettyjen tietojoukkojen pienestä koosta, eikä Vision Transformer -mallit vielä ylitä ResNet-18 -mallien suorituskykyä.
 
Kokoelmat
  • Kandidaatintutkielmat [10744]
Kalevantie 5
PL 617
33014 Tampereen yliopisto
oa[@]tuni.fi | Tietosuoja | Saavutettavuusseloste
 

 

Selaa kokoelmaa

TekijätNimekkeetTiedekunta (2019 -)Tiedekunta (- 2018)Tutkinto-ohjelmat ja opintosuunnatAvainsanatJulkaisuajatKokoelmat

Omat tiedot

Kirjaudu sisäänRekisteröidy
Kalevantie 5
PL 617
33014 Tampereen yliopisto
oa[@]tuni.fi | Tietosuoja | Saavutettavuusseloste