Generatiivisen tekoälyn visuaaliset käyttökohteet
Haug, Teemu (2024)
Haug, Teemu
2024
Tietojenkäsittelytieteiden kandidaattiohjelma - Bachelor's Programme in Computer Sciences
Informaatioteknologian ja viestinnän tiedekunta - Faculty of Information Technology and Communication Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2024-01-16
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:tuni-2023122811222
https://urn.fi/URN:NBN:fi:tuni-2023122811222
Tiivistelmä
Generoivat tekoälymallit ovat saaneet paljon huomiota viime vuosien aikana niiden laajan soveltuvuuden ja alan nopean kehityksen ansiosta, mutta mediassa harvoin kerrotaan tarkemmin käytetyistä tekoälymalleista. Työ on toteutettu kirjallisuuskatsauksena, ja sen tavoitteena on selvittää, mitä erilaisia visuaaliseen generointiin kykeneviä tekoälymalleja on käytetty ja miten ne toimivat, sekä perehtyä mallien mahdollisiin käyttötapoihin ja sovelluksiin. Oleellisimpia mallityyppejä, joihin työssä keskitytään, on kolme: generatiiviset kilpailevat verkostot, autoenkooderit ja diffuusiomallit. Etenkin näiden mallityyppien tärkeimpiin alatyyppeihin, kuten variaatioautoenkoodereihin sekä näitä hyödyntäviin latentteihin diffuusiomalleihin, perehdytään tarkemmin.
Työ on jaettu kahteen osaan. Ensimmäisessä osassa esitellään keskeisten mallien arkkitehtuuria ja toimintaa, ja toisessa tarkastellaan esiteltyjen mallien visuaalisia käyttötapoja ja -tarkoituksia niin yksityishenkilöiden kuin eri toimialojenkin näkökulmasta. Visuaalisen generoinnin johtavat mallit pohjautuvat yleensä diffuusioon, mutta myös erikoistuneita GAN-malleja käytetään edelleen paikoittain. Etenkin latentit diffuusiomallit ovat saaneet suurta suosiota generointien laadun, monipuolisuuden, helppokäyttöisyyden sekä tehokkuuden ansiosta.
Työssä käsitellään erilaisia kuvien ja videoiden tuottamis- ja muokkausmenetelmiä. Tuottamisella tarkoitetaan uuden materiaalin generointia erilaisten syötteiden avulla, kun taas muokkaamisella tarkoitetaan jo olemassa olevan median muuntamista joko syötettä tai pelkkää mallia hyödyntäen. Visuaaliseen generointiin kykeneviä malleja voidaan hyödyntää monella alalla. Esimerkiksi lääketieteessä CT- ja MR-kuvattuja kuvia voidaan tarkentaa superresoluutiolla, elokuvatuotannossa hahmojen luonti voidaan toteuttaa kuvasynteesillä, ja yksityishenkilöt voivat helposti värittää isovanhempiensa mustavalkokuvia väritykseen erikoistuvilla malleilla.
Alan nopea kehitys ja uusien käyttötarkoitusten suuri määrä viittaavat tekoälyn käytännöllisen tärkeyden kasvamiseen, ja tekoäly tulee varmasti mullistamaan monia aloja tulevaisuudessa tehostamalla ja automatisoimalla manuaalista työtä vaativia prosesseja, kuten se on jo tehnyt eri toimialoilla viime vuosina. Täydellisiä, ihmisiä jatkuvasti huijaavia generointeja tuottavia malleja ei olla vielä kehitetty, mutta ollaan jo todella lähellä 50 %:n huijausastetta kuvien generoinnissa, ja uusia malleja kehitetään lähes päivittäin. Videoiden tuotto ja muokkaus tuovat uusia haasteita, joista oleellisimpana voitaisiin mainita aikakoherenssi (engl. Temporal coherence).
Työ on jaettu kahteen osaan. Ensimmäisessä osassa esitellään keskeisten mallien arkkitehtuuria ja toimintaa, ja toisessa tarkastellaan esiteltyjen mallien visuaalisia käyttötapoja ja -tarkoituksia niin yksityishenkilöiden kuin eri toimialojenkin näkökulmasta. Visuaalisen generoinnin johtavat mallit pohjautuvat yleensä diffuusioon, mutta myös erikoistuneita GAN-malleja käytetään edelleen paikoittain. Etenkin latentit diffuusiomallit ovat saaneet suurta suosiota generointien laadun, monipuolisuuden, helppokäyttöisyyden sekä tehokkuuden ansiosta.
Työssä käsitellään erilaisia kuvien ja videoiden tuottamis- ja muokkausmenetelmiä. Tuottamisella tarkoitetaan uuden materiaalin generointia erilaisten syötteiden avulla, kun taas muokkaamisella tarkoitetaan jo olemassa olevan median muuntamista joko syötettä tai pelkkää mallia hyödyntäen. Visuaaliseen generointiin kykeneviä malleja voidaan hyödyntää monella alalla. Esimerkiksi lääketieteessä CT- ja MR-kuvattuja kuvia voidaan tarkentaa superresoluutiolla, elokuvatuotannossa hahmojen luonti voidaan toteuttaa kuvasynteesillä, ja yksityishenkilöt voivat helposti värittää isovanhempiensa mustavalkokuvia väritykseen erikoistuvilla malleilla.
Alan nopea kehitys ja uusien käyttötarkoitusten suuri määrä viittaavat tekoälyn käytännöllisen tärkeyden kasvamiseen, ja tekoäly tulee varmasti mullistamaan monia aloja tulevaisuudessa tehostamalla ja automatisoimalla manuaalista työtä vaativia prosesseja, kuten se on jo tehnyt eri toimialoilla viime vuosina. Täydellisiä, ihmisiä jatkuvasti huijaavia generointeja tuottavia malleja ei olla vielä kehitetty, mutta ollaan jo todella lähellä 50 %:n huijausastetta kuvien generoinnissa, ja uusia malleja kehitetään lähes päivittäin. Videoiden tuotto ja muokkaus tuovat uusia haasteita, joista oleellisimpana voitaisiin mainita aikakoherenssi (engl. Temporal coherence).
Kokoelmat
- Kandidaatintutkielmat [8453]