Vahvistusoppimis- ja minimax-agentin analysointi ja vertailu ristinollan avulla
Hautalahti, Joona (2021)
Hautalahti, Joona
2021
Tietojenkäsittelyopin maisteriohjelma - Master's Programme in Computer Science
Informaatioteknologian ja viestinnän tiedekunta - Faculty of Information Technology and Communication Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2021-05-12
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:tuni-202104284030
https://urn.fi/URN:NBN:fi:tuni-202104284030
Tiivistelmä
Vahvistusoppimista käytetään koneoppimisessa opettamaan tekoälylle erilaisia tehtäviä. Nämä tehtävät voivat vaihdella pelien tekoälystä ihmisten kasvojen tunnistukseen. Vahvistusoppiminen voi käyttää monia erilaisia algoritmeja tekoälyn opettamiseen ja osa niistä soveltuu tiettyihin tehtäviin paremmin kuin toiset.
Vahvistusoppimismenetelmät voi karkeasti jakaa kahteen metodiin: mallivapaisiin metodeihin ja malliin perustuviin metodeihin. Molemmilla metodeilla on hyvät ja huonot puolensa, mutta mallivapaat metodit ovat osoittautuneet tehokkaaksi tavaksi opettaa tekoälylle erilaisia pelejä.
Tässä tutkielmassa esitellään tapa, jolla tekoälylle voidaan opettaa ristinollan pelaamista itseoppimismenetelmällä. Tavoitteena on tutkia, kuinka hyvin itseoppiva tekoäly oppii pelaamaan peliä ja kuinka ristinollan siirtojen laadullisuus kasvaa opetuskierrosten edetessä. Laadun vertailussa käytetään puuhakualgoritmia nimeltä minimax, jota verrataan käytettyyn vahvistusoppimismenetelmään. Vahvistusoppimisalgoritmina käytetään Q-oppimista (q-learning), joka perustuu niin sanottuun q-funktioon.
Itseoppimismenetelmän laatua mitattiin kokeellisissa testeissä. Näissä kokeissa vahvistusoppimismenetelmää hyödyntävää tekoälyä verrattiin minimax-tekoälyyn vertailemalla niiden tekemien siirtojen laatua. Kokeet osoittivat, että itseoppimismenetelmän laatu paranee lukumäärän n kasvaessa.
Testien tulosten perusteella voi tehdä johtopäätöksen, että itseoppivan tekoälyn on mahdollista saavuttaa minimax-puuhakualgoritmin kaltaisia tuloksia pelin laadussa. Itseoppiva tekoäly on myös paljon tehokkaampi ja nopeampi laskemaan tekemiään siirtoja kuin minimax-puuhakualgoritmi. Parannettavaa itseoppivalla tekoälyllä on kuitenkin jossain määrin siirtojen optimaalisessa valinnassa. Kokeellisen toteutuksen tuloksia voidaan käyttää kehittämään entistä tehokkaampia agentteja.
Vahvistusoppimismenetelmät voi karkeasti jakaa kahteen metodiin: mallivapaisiin metodeihin ja malliin perustuviin metodeihin. Molemmilla metodeilla on hyvät ja huonot puolensa, mutta mallivapaat metodit ovat osoittautuneet tehokkaaksi tavaksi opettaa tekoälylle erilaisia pelejä.
Tässä tutkielmassa esitellään tapa, jolla tekoälylle voidaan opettaa ristinollan pelaamista itseoppimismenetelmällä. Tavoitteena on tutkia, kuinka hyvin itseoppiva tekoäly oppii pelaamaan peliä ja kuinka ristinollan siirtojen laadullisuus kasvaa opetuskierrosten edetessä. Laadun vertailussa käytetään puuhakualgoritmia nimeltä minimax, jota verrataan käytettyyn vahvistusoppimismenetelmään. Vahvistusoppimisalgoritmina käytetään Q-oppimista (q-learning), joka perustuu niin sanottuun q-funktioon.
Itseoppimismenetelmän laatua mitattiin kokeellisissa testeissä. Näissä kokeissa vahvistusoppimismenetelmää hyödyntävää tekoälyä verrattiin minimax-tekoälyyn vertailemalla niiden tekemien siirtojen laatua. Kokeet osoittivat, että itseoppimismenetelmän laatu paranee lukumäärän n kasvaessa.
Testien tulosten perusteella voi tehdä johtopäätöksen, että itseoppivan tekoälyn on mahdollista saavuttaa minimax-puuhakualgoritmin kaltaisia tuloksia pelin laadussa. Itseoppiva tekoäly on myös paljon tehokkaampi ja nopeampi laskemaan tekemiään siirtoja kuin minimax-puuhakualgoritmi. Parannettavaa itseoppivalla tekoälyllä on kuitenkin jossain määrin siirtojen optimaalisessa valinnassa. Kokeellisen toteutuksen tuloksia voidaan käyttää kehittämään entistä tehokkaampia agentteja.