Tiimityöhön kykenevän tekoälyn toteuttaminen
Ahonen, Santtu (2025)
Ahonen, Santtu
2025
Tietojenkäsittelytieteiden kandidaattiohjelma - Bachelor's Programme in Computer Sciences
Informaatioteknologian ja viestinnän tiedekunta - Faculty of Information Technology and Communication Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2025-07-22
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:tuni-202507087602
https://urn.fi/URN:NBN:fi:tuni-202507087602
Tiivistelmä
Tässä kandidaatintyössä selvitettiin, kuinka vahvistusoppimista voidaan hyödyntää tekoälyagentin toteuttamisessa padel-peliin, jossa tehokas suoriutuminen edellyttää pelaajien välistä yhteistyötä. Tavoitteena oli rakentaa tekoäly, joka kykenee tekemään tilannekohtaisia ja tiimipohaisia päätöksiä nopeasti muuttuvassa peliympäristössä. Agenttien koulutus toteutettiin Unity ML-Agents -alustalla käyttäen MA-POCA-algoritmia, joka mahdollistaa useiden agenttien yhteistoiminnan keskitetyn kriitikon avulla. Koulutusympäristö, havaintotiedot, toimintotilat ja palkitsemislogiikka suunniteltiin padelin sääntöjen ja pelidynamiikan pohjalta.
Tulokset osoittivat, että self-play menetelmällä koulutetut agentit oppivat nopeammin ja kehittyivät monipuolisemmiksi kuin ilman self-playta koulutetut agentit. Ne pystyivät pelaamaan pidempiä ja hallitumpia palloralleja sekä tekemään strategisesti järkevämpiä päätöksiä. Oppimisen onnistumisen kannalta palkkiorakenteen huolellinen suunnittelu osoittautui keskeiseksi tekijäksi.
Tutkielmassa käsitellään myös tekoälyn ja koneoppimisen keskeisiä peruskäsitteitä, erityisesti vahvistusoppimisen taustateoriaa, kuten Markovin päätösprosesseja, syväoppimista ja multi-agent menetelmiä. Lisäksi työssä vertaillaan kehitettyä lähestymistapaa perinteisiin sääntöpohjaisiin tekoälyratkaisuihin ja esitetään jatkokehitysmahdollisuutena vahvistusoppimisen yhdistäminen influence map -tekniikkaan agenttien taktisen päätöksenteon tukemiseksi.
Tulokset osoittivat, että self-play menetelmällä koulutetut agentit oppivat nopeammin ja kehittyivät monipuolisemmiksi kuin ilman self-playta koulutetut agentit. Ne pystyivät pelaamaan pidempiä ja hallitumpia palloralleja sekä tekemään strategisesti järkevämpiä päätöksiä. Oppimisen onnistumisen kannalta palkkiorakenteen huolellinen suunnittelu osoittautui keskeiseksi tekijäksi.
Tutkielmassa käsitellään myös tekoälyn ja koneoppimisen keskeisiä peruskäsitteitä, erityisesti vahvistusoppimisen taustateoriaa, kuten Markovin päätösprosesseja, syväoppimista ja multi-agent menetelmiä. Lisäksi työssä vertaillaan kehitettyä lähestymistapaa perinteisiin sääntöpohjaisiin tekoälyratkaisuihin ja esitetään jatkokehitysmahdollisuutena vahvistusoppimisen yhdistäminen influence map -tekniikkaan agenttien taktisen päätöksenteon tukemiseksi.
Kokoelmat
- Kandidaatintutkielmat [11029]
