Hyppää sisältöön
    • Suomeksi
    • In English
Trepo
  • Suomeksi
  • In English
  • Kirjaudu
Näytä viite 
  •   Etusivu
  • Trepo
  • Kandidaatintutkielmat
  • Näytä viite
  •   Etusivu
  • Trepo
  • Kandidaatintutkielmat
  • Näytä viite
JavaScript is disabled for your browser. Some features of this site may not work without it.

Synteettisen datan generointialgoritmit

Haavisto, Valma (2025)

 
Avaa tiedosto
HaavistoValma.pdf (551.9Kt)
Lataukset: 



Haavisto, Valma
2025

Tietojenkäsittelytieteiden kandidaattiohjelma - Bachelor's Programme in Computer Sciences
Informaatioteknologian ja viestinnän tiedekunta - Faculty of Information Technology and Communication Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2025-04-25
Näytä kaikki kuvailutiedot
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:tuni-202504093509
Tiivistelmä
Tämän kandidaatintutkielman tavoitteena on vertailla erilaisia synteettisen datan generointialgoritmeja ja arvioida niitä eri kriteerien avulla, painoittuen taulukkomuotoisen datan tuottamiseen. Synteettinen data on keskeinen osa koneoppimismallien koulutusprosessia, sillä se mahdollistaa turvallisemman ja tehokkaamman oppimisprosessin erityisesti sellaisissa tilanteissa, joissa aito data on rajoitettua, arkaluonteista tai vaikeasti saatavilla. Laadukas synteettisen datan generointi näkyy siis suoraan koneoppimismallien suorituskyvyssä ja yleistettävyydessä.

Tutkielman alkuosassa käsitellään kunkin generointialgoritmin perusperiaatteita sekä niiden keskeisiä etuja ja rajoitteita. Lisäksi tarkastellaan mahdollisia jatkokehitysversioita, mutta varsinainen vertailu keskittyy menetelmien perusmuotoihin. Empiirisen ja teoreettisen analyysin pohjalta muodostetaan arvio kunkin algoritmin kyvystä tuottaa laadukasta synteettistä dataa eri käyttötarkoituksiin. Tämän jälkeen tutkielmassa vertaillaan menetelmiä laskennallisen vaativuuden, tuotetun datan laadun, sovellettavuuden sekä yksityisyyden perusteella. Vertailun tavoitteena on tunnistaa kunkin algoritmin vahvuudet ja heikkoudet eri näkökulmista. Analyysi perustuu sekä empiirisiin tutkimuksiin että menetelmien teoreettisiin ominaisuuksiin, kuten aikakompleksisuuteen ja alkuperäisen menetelmän tieteelliseen vaikuttavuuteen. Näitä yhdistelemällä saadaan kattava kuva kustakin generointialgortimista.

Tutkimuksen tulokset osoittavat, että parhaiten suoriutuva algoritmi riippuu arviointikriteeristä. Yhteenvetona esitetään kriteerikohtaiset parhaat menetelmät sekä kokonaisvertailu, jossa menetelmiä pisteytetään niiden suorituskyvyn perusteella eri osa-alueilla. Yhteispisteiden perusteella voidaan todeta, että synteettisen datan generointimenetelmien vertailu on perusteltua, sillä niiden suorituskyvyssä on huomattavia eroja riippuen tarkastelunäkökulmasta ja sovelluskohteesta.
Kokoelmat
  • Kandidaatintutkielmat [9818]
Kalevantie 5
PL 617
33014 Tampereen yliopisto
oa[@]tuni.fi | Tietosuoja | Saavutettavuusseloste
 

 

Selaa kokoelmaa

TekijätNimekkeetTiedekunta (2019 -)Tiedekunta (- 2018)Tutkinto-ohjelmat ja opintosuunnatAvainsanatJulkaisuajatKokoelmat

Omat tiedot

Kirjaudu sisäänRekisteröidy
Kalevantie 5
PL 617
33014 Tampereen yliopisto
oa[@]tuni.fi | Tietosuoja | Saavutettavuusseloste