Hyppää sisältöön
    • Suomeksi
    • In English
Trepo
  • Suomeksi
  • In English
  • Kirjaudu
Näytä viite 
  •   Etusivu
  • Trepo
  • Opinnäytteet - ylempi korkeakoulututkinto
  • Näytä viite
  •   Etusivu
  • Trepo
  • Opinnäytteet - ylempi korkeakoulututkinto
  • Näytä viite
JavaScript is disabled for your browser. Some features of this site may not work without it.

Audio Captioning with Keyword Guidance

Afolaranmi, James (2025)

 
Avaa tiedosto
AfolaranmiJames.pdf (604.2Kt)
Lataukset: 



Afolaranmi, James
2025

Master's Programme in Computing Sciences and Electrical Engineering
Informaatioteknologian ja viestinnän tiedekunta - Faculty of Information Technology and Communication Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2025-05-17
Näytä kaikki kuvailutiedot
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:tuni-202504294374
Tiivistelmä
The field of Automatic Audio Captioning is getting more traction as it has led to the development of several systems capable of generating textual descriptions of sound events and their inter-relationship in an acoustic environment.

However, many of these systems are bound to produce repetitive and highly generic captions. The aim of this thesis is to propose an AAC system that generates captions targeted towards different sound events through keyword guidance. This thesis investigates the performance of this system on two different datasets, Clotho and MACS, with various keyword setup in the training and testing phase.

This system involves the encoding of audio files with the pre-trained HTS-AT (Hierarchical Token-Semantic Audio Transformer), the encoding of keywords with word2vec, and the generation of captions with a transformer decoder that is built from scratch.

The proposed method with keywords achieved a satisfactory result by producing over 2000 unique captions when tested on the Clotho dataset. This is a significant improvement compared to the baseline model (the proposed system without keywords), which produced about 500 unique captions.
Kokoelmat
  • Opinnäytteet - ylempi korkeakoulututkinto [40800]
Kalevantie 5
PL 617
33014 Tampereen yliopisto
oa[@]tuni.fi | Tietosuoja | Saavutettavuusseloste
 

 

Selaa kokoelmaa

TekijätNimekkeetTiedekunta (2019 -)Tiedekunta (- 2018)Tutkinto-ohjelmat ja opintosuunnatAvainsanatJulkaisuajatKokoelmat

Omat tiedot

Kirjaudu sisäänRekisteröidy
Kalevantie 5
PL 617
33014 Tampereen yliopisto
oa[@]tuni.fi | Tietosuoja | Saavutettavuusseloste