Synteettisen datan generointialgoritmit
Haavisto, Valma (2025)
Haavisto, Valma
2025
Tietojenkäsittelytieteiden kandidaattiohjelma - Bachelor's Programme in Computer Sciences
Informaatioteknologian ja viestinnän tiedekunta - Faculty of Information Technology and Communication Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2025-04-25
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:tuni-202504093509
https://urn.fi/URN:NBN:fi:tuni-202504093509
Tiivistelmä
Tämän kandidaatintutkielman tavoitteena on vertailla erilaisia synteettisen datan generointialgoritmeja ja arvioida niitä eri kriteerien avulla, painoittuen taulukkomuotoisen datan tuottamiseen. Synteettinen data on keskeinen osa koneoppimismallien koulutusprosessia, sillä se mahdollistaa turvallisemman ja tehokkaamman oppimisprosessin erityisesti sellaisissa tilanteissa, joissa aito data on rajoitettua, arkaluonteista tai vaikeasti saatavilla. Laadukas synteettisen datan generointi näkyy siis suoraan koneoppimismallien suorituskyvyssä ja yleistettävyydessä.
Tutkielman alkuosassa käsitellään kunkin generointialgoritmin perusperiaatteita sekä niiden keskeisiä etuja ja rajoitteita. Lisäksi tarkastellaan mahdollisia jatkokehitysversioita, mutta varsinainen vertailu keskittyy menetelmien perusmuotoihin. Empiirisen ja teoreettisen analyysin pohjalta muodostetaan arvio kunkin algoritmin kyvystä tuottaa laadukasta synteettistä dataa eri käyttötarkoituksiin. Tämän jälkeen tutkielmassa vertaillaan menetelmiä laskennallisen vaativuuden, tuotetun datan laadun, sovellettavuuden sekä yksityisyyden perusteella. Vertailun tavoitteena on tunnistaa kunkin algoritmin vahvuudet ja heikkoudet eri näkökulmista. Analyysi perustuu sekä empiirisiin tutkimuksiin että menetelmien teoreettisiin ominaisuuksiin, kuten aikakompleksisuuteen ja alkuperäisen menetelmän tieteelliseen vaikuttavuuteen. Näitä yhdistelemällä saadaan kattava kuva kustakin generointialgortimista.
Tutkimuksen tulokset osoittavat, että parhaiten suoriutuva algoritmi riippuu arviointikriteeristä. Yhteenvetona esitetään kriteerikohtaiset parhaat menetelmät sekä kokonaisvertailu, jossa menetelmiä pisteytetään niiden suorituskyvyn perusteella eri osa-alueilla. Yhteispisteiden perusteella voidaan todeta, että synteettisen datan generointimenetelmien vertailu on perusteltua, sillä niiden suorituskyvyssä on huomattavia eroja riippuen tarkastelunäkökulmasta ja sovelluskohteesta.
Tutkielman alkuosassa käsitellään kunkin generointialgoritmin perusperiaatteita sekä niiden keskeisiä etuja ja rajoitteita. Lisäksi tarkastellaan mahdollisia jatkokehitysversioita, mutta varsinainen vertailu keskittyy menetelmien perusmuotoihin. Empiirisen ja teoreettisen analyysin pohjalta muodostetaan arvio kunkin algoritmin kyvystä tuottaa laadukasta synteettistä dataa eri käyttötarkoituksiin. Tämän jälkeen tutkielmassa vertaillaan menetelmiä laskennallisen vaativuuden, tuotetun datan laadun, sovellettavuuden sekä yksityisyyden perusteella. Vertailun tavoitteena on tunnistaa kunkin algoritmin vahvuudet ja heikkoudet eri näkökulmista. Analyysi perustuu sekä empiirisiin tutkimuksiin että menetelmien teoreettisiin ominaisuuksiin, kuten aikakompleksisuuteen ja alkuperäisen menetelmän tieteelliseen vaikuttavuuteen. Näitä yhdistelemällä saadaan kattava kuva kustakin generointialgortimista.
Tutkimuksen tulokset osoittavat, että parhaiten suoriutuva algoritmi riippuu arviointikriteeristä. Yhteenvetona esitetään kriteerikohtaiset parhaat menetelmät sekä kokonaisvertailu, jossa menetelmiä pisteytetään niiden suorituskyvyn perusteella eri osa-alueilla. Yhteispisteiden perusteella voidaan todeta, että synteettisen datan generointimenetelmien vertailu on perusteltua, sillä niiden suorituskyvyssä on huomattavia eroja riippuen tarkastelunäkökulmasta ja sovelluskohteesta.
Kokoelmat
- Kandidaatintutkielmat [9818]