Hyppää sisältöön
    • Suomeksi
    • In English
Trepo
  • Suomeksi
  • In English
  • Kirjaudu
Näytä viite 
  •   Etusivu
  • Trepo
  • TUNICRIS-julkaisut
  • Näytä viite
  •   Etusivu
  • Trepo
  • TUNICRIS-julkaisut
  • Näytä viite
JavaScript is disabled for your browser. Some features of this site may not work without it.

Representation Learning for Semantic Alignment of Language, Audio, and Visual Modalities

Sudarsanam, Parthasaarathy; Martín-Morató, Irene; Virtanen, Tuomas (2025)

 
Avaa tiedosto
Representation_Learning_for_Semantic_Alignment_of_Language_Audio_and_Visual_Modalities.pdf (189.8Kt)
Lataukset: 

URI
https://eurasip.org/Proceedings/Eusipco/Eusipco2025/pdfs/0000051.pdf


Sudarsanam, Parthasaarathy
Martín-Morató, Irene
Virtanen, Tuomas
2025

This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
doi:10.23919/EUSIPCO63237.2025.11226503
Näytä kaikki kuvailutiedot
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:tuni-202601261867

Kuvaus

Peer reviewed
Tiivistelmä
This paper proposes a single-stage training approach that semantically aligns three modalities - audio, visual, and text using a contrastive learning framework. Contrastive training has gained prominence for multimodal alignment, utilizing large-scale unlabeled data to learn shared representations. Existing deep learning approach for trimodal alignment involves two-stages, that separately align visual-text and audiotext modalities. This approach suffers from mismatched data distributions, resulting in suboptimal alignment. Leveraging the AVCaps dataset, which provides audio, visual and audio-visual captions for video clips, our method jointly optimizes the representation of all the modalities using contrastive training. Our Results demonstrate that the single-stage approach outperforms the two-stage method, achieving a two-fold improvement in audio based visual retrieval, highlighting the advantages of unified multimodal representation learning.
Kokoelmat
  • TUNICRIS-julkaisut [24610]
Kalevantie 5
PL 617
33014 Tampereen yliopisto
oa[@]tuni.fi | Tietosuoja | Saavutettavuusseloste
 

 

Selaa kokoelmaa

TekijätNimekkeetTiedekunta (2019 -)Tiedekunta (- 2018)Tutkinto-ohjelmat ja opintosuunnatAvainsanatJulkaisuajatKokoelmat

Omat tiedot

Kirjaudu sisäänRekisteröidy
Kalevantie 5
PL 617
33014 Tampereen yliopisto
oa[@]tuni.fi | Tietosuoja | Saavutettavuusseloste