Koneoppimisalgoritmin valinta Scikit-learn-kirjastossa
Ruusiala, Arttu (2018)
Ruusiala, Arttu
2018
Tietotekniikka
Tieto- ja sähkötekniikan tiedekunta - Faculty of Computing and Electrical Engineering
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2018-06-06
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:tty-201805221720
https://urn.fi/URN:NBN:fi:tty-201805221720
Tiivistelmä
Tässä työssä vertailtiin Pythonin Scikit-learn-kirjaston koneoppimisalgoritmien suorituskykyä hahmontunnistusongelmassa, jossa tavoitteena oli tunnistaa kuvista käsinkirjoitettuja numeroita. Harjoitus- ja testidatana käytettiin MNIST-datasettiä. Vertailu toteutettiin kahdessa vaiheessa, joista ensimmäisessä algoritmeja käytettiin oletussäädöin ja toisessa testaten niiden suorituskykyä erilaisin säädöin.
Tuloksina saatiin, että k:n lähin naapuri -menetelmä (K-Nearest Neighbors) tuotti parhaimman tuloksen, kun harjoitusdataa oli paljon. Harjoitusdatan määrää pienenettäessä ja algoritmeja säädettäessä huomattiin, että tukivektorikone ja satunnaismetsäalgoritmi ovat myös tehokkaita ratkaisemaan tätä ongelmaa. Työssä päädyttiin siihen lopputulokseen, että algoritmin valintaan vaikuttaa se, kuinka paljon harjoitusdataa on käytössä ja kuinka paljon aikaa mallin kouluttamiseen voidaan käyttää. Yksiselitteisesti on vaikea vastata, mikä algoritmeista on paras, sillä se riippuu tilanteesta ja vaatii vertailua ja testausta.
Tuloksina saatiin, että k:n lähin naapuri -menetelmä (K-Nearest Neighbors) tuotti parhaimman tuloksen, kun harjoitusdataa oli paljon. Harjoitusdatan määrää pienenettäessä ja algoritmeja säädettäessä huomattiin, että tukivektorikone ja satunnaismetsäalgoritmi ovat myös tehokkaita ratkaisemaan tätä ongelmaa. Työssä päädyttiin siihen lopputulokseen, että algoritmin valintaan vaikuttaa se, kuinka paljon harjoitusdataa on käytössä ja kuinka paljon aikaa mallin kouluttamiseen voidaan käyttää. Yksiselitteisesti on vaikea vastata, mikä algoritmeista on paras, sillä se riippuu tilanteesta ja vaatii vertailua ja testausta.
Kokoelmat
- Kandidaatintutkielmat [8344]