Tukivektorikoneiden optimointiteoria
Kärnä, Juho (2021)
Kärnä, Juho
2021
Tekniikan ja luonnontieteiden kandidaattiohjelma - Bachelor's Programme in Engineering and Natural Sciences
Tekniikan ja luonnontieteiden tiedekunta - Faculty of Engineering and Natural Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2021-11-11
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:tuni-202111098295
https://urn.fi/URN:NBN:fi:tuni-202111098295
Tiivistelmä
Tämä työ on lyhyt kirjallisuuskatsaus tukivektorikoneiden taustalla vaikuttavaan matematiikkaan. Työn tarkoituksena on antaa lukijalle käsitys tukivektorikoneiden matemaattisesta teoriasta tiivistetysti, keskittyen erityisesti optimointiteoriaan. Työssä esitellään keskeisiä tuloksia tukivektorikoneista koneoppimisen alan kirjallisuudesta. Aluksi käydään läpi muutama keskeinen tulos funktionaalianalyysistä ja optimointiteoriasta. Tämä taustateoria on kriittistä lopun työn ymmärtämiselle.
Kirjallisuuskatsaus aloitetaan esittelemällä lyhyesti tukivektorikoneiden ominaisuudet koneoppimisen menetelmänä. Seuraavaksi käydään läpi lineaaristen tukivektorikoneiden toimintaperiaate ja siihen liittyvä optimointiteoria. Tarkastelu aloitetaan yksinkertaisimmista tukivektorikoneista eli lineaarisista kovan marginaalin tukivektorikoneista. Sitten esitellään lineaariset pehmeän marginaalin tukivektorikoneet, jotka ovat laajennus edellisiin lineaarisiin kovan marginaalin tukivektorikoneisiin. Lineaaristen tukivektorikoneiden käyttökohteet ovat kuitenkin hyvin rajoitetut, joten tarkastelua jatketaan epälineaarisiin tukivektorikoneisiin. Niiden toimintaperiaate esitellään. Epälineaaristen tukivektorikoneiden parametrien ratkaisemiseksi vaadittava optimointiongelma sekä esitetään että johdetaan aiemmin esitetyn teorian pohjalta. Käydään läpi epälineaaristen tukivektorikoneiden kannalta tärkeät käsitteet piirreavaruus ja ydinfunktio.
Epälineaariset tukivektorikoneet perustuvat ydinfunktioiden käyttöön. Tukivektorikoneiden hyvä mallinnuskyky on näiden ydinfunktioiden ansiota. Ydinfunktioiden toimintaperusteet ja niiden ominaisuuksia käydään läpi. Työssä esitellään yleisimmin tukivektorikoneiden kanssa käytettyjä ydinfunktioita ja niiden parametrien säätämistä. Käydään läpi myös ydinfunktioiden valintaperiaatteita. Esimerkkinä annetaan koneoppimisessa usein käytetty ristiinvalidointimenetelmä, jonka avulla voidaan kokeilla ydinfunktion sopivuutta dataan. Esitellään myös lyhyesti, mitä on ylisovittuminen ja miten sitä hallitaan.
Lopuksi tutustutaan vielä lyhyesti tukivektorikoneiden optimointiongelmien ratkaisumenetelmiin. Käydään läpi gradienttinousun menetelmä, sekä annetaan esimerkkejä muista ratkaisumenetelmistä. Esitellään tukivektorikoneiden optimointiongelmien ratkaisussa esiintyviä yleisiä ongelmia sekä niihin ratkaisuja. Näitä ovat esimerkiksi lohkottamis- ja hajotelmamenetelmät, joilla voidaan soveltaa yleisiä optimointiongelmien ratkaisumenetelmiä tukivektorikoneiden optimointiongelmien ratkaisuun.
Kirjallisuuskatsaus aloitetaan esittelemällä lyhyesti tukivektorikoneiden ominaisuudet koneoppimisen menetelmänä. Seuraavaksi käydään läpi lineaaristen tukivektorikoneiden toimintaperiaate ja siihen liittyvä optimointiteoria. Tarkastelu aloitetaan yksinkertaisimmista tukivektorikoneista eli lineaarisista kovan marginaalin tukivektorikoneista. Sitten esitellään lineaariset pehmeän marginaalin tukivektorikoneet, jotka ovat laajennus edellisiin lineaarisiin kovan marginaalin tukivektorikoneisiin. Lineaaristen tukivektorikoneiden käyttökohteet ovat kuitenkin hyvin rajoitetut, joten tarkastelua jatketaan epälineaarisiin tukivektorikoneisiin. Niiden toimintaperiaate esitellään. Epälineaaristen tukivektorikoneiden parametrien ratkaisemiseksi vaadittava optimointiongelma sekä esitetään että johdetaan aiemmin esitetyn teorian pohjalta. Käydään läpi epälineaaristen tukivektorikoneiden kannalta tärkeät käsitteet piirreavaruus ja ydinfunktio.
Epälineaariset tukivektorikoneet perustuvat ydinfunktioiden käyttöön. Tukivektorikoneiden hyvä mallinnuskyky on näiden ydinfunktioiden ansiota. Ydinfunktioiden toimintaperusteet ja niiden ominaisuuksia käydään läpi. Työssä esitellään yleisimmin tukivektorikoneiden kanssa käytettyjä ydinfunktioita ja niiden parametrien säätämistä. Käydään läpi myös ydinfunktioiden valintaperiaatteita. Esimerkkinä annetaan koneoppimisessa usein käytetty ristiinvalidointimenetelmä, jonka avulla voidaan kokeilla ydinfunktion sopivuutta dataan. Esitellään myös lyhyesti, mitä on ylisovittuminen ja miten sitä hallitaan.
Lopuksi tutustutaan vielä lyhyesti tukivektorikoneiden optimointiongelmien ratkaisumenetelmiin. Käydään läpi gradienttinousun menetelmä, sekä annetaan esimerkkejä muista ratkaisumenetelmistä. Esitellään tukivektorikoneiden optimointiongelmien ratkaisussa esiintyviä yleisiä ongelmia sekä niihin ratkaisuja. Näitä ovat esimerkiksi lohkottamis- ja hajotelmamenetelmät, joilla voidaan soveltaa yleisiä optimointiongelmien ratkaisumenetelmiä tukivektorikoneiden optimointiongelmien ratkaisuun.
Kokoelmat
- Kandidaatintutkielmat [8996]