Hyppää sisältöön
    • Suomeksi
    • In English
Trepo
  • Suomeksi
  • In English
  • Kirjaudu
Näytä viite 
  •   Etusivu
  • Trepo
  • Opinnäytteet - ylempi korkeakoulututkinto
  • Näytä viite
  •   Etusivu
  • Trepo
  • Opinnäytteet - ylempi korkeakoulututkinto
  • Näytä viite
JavaScript is disabled for your browser. Some features of this site may not work without it.

Image coding for machines : Deep learning based post-processing filters

Ahonen, Jukka (2021)

 
Avaa tiedosto
AhonenJukka.pdf (13.58Mt)
Lataukset: 



Ahonen, Jukka
2021

Master's Programme in Information Technology
Informaatioteknologian ja viestinnän tiedekunta - Faculty of Information Technology and Communication Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2021-11-25
Näytä kaikki kuvailutiedot
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:tuni-202111128376
Tiivistelmä
Machine vision tasks such as object detection and instance segmentation are becoming more and more popular these days due to the quickly increasing performance of deep neural networks. Consequently, more and more multimedia content such as images will presumably be consumed by machines in the years to come. Since the images coded with state-of-the-art traditional codecs such as Versatile Video Coding (VVC) are designed to maximize the subjective quality perceived by humans, they may not be optimal for machine consumption. Hence, to address this, new codecs designed solely for machines are needed.

There are roughly three different directions on machine-oriented compression methods explored in the literature. First type of methods are based on adapting the existing traditional codecs, for example, by changing their parameters, while the second type of methods are based fully on End-to-End (E2E) learned neural networks. The third type of methods are hybrids, which combine the traditional codecs with learned approaches. The hybrid methods are usually performance wise superior to the solely traditional based methods, while they also have intriguing properties, which E2E based methods might lack. These include certain benefits such as real-time decoding, hardware implementation availability and interoperability.

In this regard, this thesis introduces a hybrid system to train post-processing filters that aim to enhance the performance of the VVC reconstructed images on different machine tasks. One of these filters called Task Specific Enhancement (TSE) filter achieves 45% and 49% Bjøntegaard Delta Rate (BD-rate) gains over plain VVC on instance segmentation and object detection tasks, validated on a subset of Open Images validation dataset with Mask R-CNN and Faster R-CNN based models, respectively. Moreover, another filter called Task Agnostic Enhancement (TAE) filter also achieves over 40% BD-rate gain when validated similarly. It also generalizes well, preserving a high performance even when the validation dataset and the model are changed.
 
Koneiden välinen kommunikointi ja erityisesti niiden käyttökohteet, kuten kohteen tunnistaminen ja segmentointi (engl. object detection ja instance segmentation) ovat jatkuvassa kasvussa ja niiden voidaan sanoa olevan nykyään jo melko arkipäiväistä. Tämä johtaa suurella todennäköisyydellä siihen, että tulevaisuudessa suurin osa multimedialiikenteestä on koneiden välistä. Koneiden väliselle dataliikenteelle tarvitaan siis täysin omanlaisensa kompressiokoodekit, sillä jo olemassa olevat koodekit on tehty ihmisiä varten, eivätkä ne sen takia ole optimaalisimmillaan konekäytössä.

Kirjallisuudessa esitetyt tekniikat voidaan jakaa karkeasti kolmeen eri ryhmään. Ensimmäisessä ryhmässä ovat metodit, jotka perustuvat jo olemassa olevien koodekkien, kuten Versatile Video Coding (VVC) muokkaamiseen koneille sopivammiksi esimerkiksi parametreja muuttamalla (engl. traditional based methods). Toiseen ryhmään kuuluvat täysin neuroverkkopohjaiset koodekit (engl. End-to-End learned methods) ja kolmannessa ryhmässä ovat ns. hybridijärjestelmät (engl. hybrid methods), joissa perinteiseen koodekkiin yhdistetään neuroverkkopohjaisia tekniikoita. Erityisesti hybridijärjestelmien etuna on niiden nopeus yhdistettynä korkeaan suorituskykyyn sekä mahdollisuus hyödyntää jo olemassa olevia laitteistotason toteutuksia.

Tässä diplomityössä esitellään hybridijärjestelmä, joka perustuu Versatile Video Codingilla pakattujen kuvien parantamiseen autoenkooderipohjaisella (engl. autoencoder) ratkaisulla. Versatile Video Codingiin verrattuna, hybridijärjestelmällä valmistettu Task-Specific Enhancement (TSE) -suodatin parantaa Open Images tietoaineistossa (engl. dataset) kohteen tunnistamistehtäviä 45 prosenttia Bjøntegaard Delta -asteikolla (BD-rate) ja kohteen segmentointitehtäviä 49 prosenttia samalla asteikolla mitattuna. Task-Agnostic Enhancement (TAE) -suodatin saavuttaa keskimäärin yli 40 prosentin Bjøntegaard Delta -asteikon parannuksen VVC-koodekkiin nähden, kun se evaluoidaan samalla tavalla. TAE-suodatin säilyttää korkean suorituskykynsä, vaikka evaluoinnissa käytetty tietojoukko tai neuroverkko vaihdettaisiin täysin erilaisiksi.
 
Kokoelmat
  • Opinnäytteet - ylempi korkeakoulututkinto [39999]
Kalevantie 5
PL 617
33014 Tampereen yliopisto
oa[@]tuni.fi | Tietosuoja | Saavutettavuusseloste
 

 

Selaa kokoelmaa

TekijätNimekkeetTiedekunta (2019 -)Tiedekunta (- 2018)Tutkinto-ohjelmat ja opintosuunnatAvainsanatJulkaisuajatKokoelmat

Omat tiedot

Kirjaudu sisäänRekisteröidy
Kalevantie 5
PL 617
33014 Tampereen yliopisto
oa[@]tuni.fi | Tietosuoja | Saavutettavuusseloste