Datan siivouksen vaikutus luokitteleviin malleihin
Pääkkönen, Niilo (2022)
Pääkkönen, Niilo
2022
Tietojenkäsittelytieteiden kandidaattiohjelma - Bachelor's Programme in Computer Sciences
Informaatioteknologian ja viestinnän tiedekunta - Faculty of Information Technology and Communication Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2022-08-09
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:tuni-202207015959
https://urn.fi/URN:NBN:fi:tuni-202207015959
Tiivistelmä
Datan laatu on yksi merkittävimmistä tekijöistä data-analyysissä, sillä likainen data voi johtaa epätarkkoihin tuloksiin ja virheellisiin päätöksiin. Koneoppimismallin laatu on käytännössä yhtä hyvä kuin datan laatu, jolla malli on koulutettu. Datan siivousta (engl. Data cleaning) käytetäänkin yhtenä datan esikäsittelyn tekniikkana, jonka tavoitteena on tuottaa alkuperäisestä virheitä sisältävästä datajoukosta puhtaampaa luotettavien tulosten saavuttamiseksi. Tässä tutkielmassa esitetään datan siivouksen käytäntöjä ja menetelmiä sekä niiden vaikutusta luokittelevien koneoppimismallien tarkkuuteen useiden kokeellisten tutkimusten perusteella. Työn tavoite on luoda yleiskuvaa luokittelevien koneoppimismallien työnkulusta datan siivouksen yhteydessä ja tarkastella kyseisessä ympäristössä toteutettuja tutkimuksia.
Työ on kirjallisuuskatsaus, joka jakaantuu kahteen osaan. Ensimmäisessä osassa avataan tutkielmaan liittyviä käsitteitä datan siivouksesta sekä luokittelevista koneoppimismalleista. Osan tarkoituksena on luoda ymmärrystä tutkielmaan rajatusta ympäristöstä ja kontekstista. Työn toinen osa yhdistää avatut käsitteet (datan siivous ja luokittelevat koneoppimismallit) luoden ympäristön, jonka pohjalta tutkimustulokset on laadittu. Työ sisältää yhteenvedon kokeellisista tuloksista, joita on saatu muista tutkimuksista. Tulokset perustuvat seitsemään kokeelliseen tutkimukseen, joissa käytetään useita tutkielmassa esiteltyjä käytäntöjä ja teknologioita. Niissä tarkastellaan eri virhetyyppien korjaamisen vaikutusta yhteen tai useampaan luokittelevaan koneoppimismalliin. Tutkimukset on luokiteltu niissä tarkasteltavien virhetyyppien mukaan ja niiden tulokset voivat olla joko positiivisia, negatiivisia tai merkityksettömiä.
Tulokset osoittavat, että oikeaoppisella datan siivouksella voi olla mahdollisia positiivisia vaikutuksia perustana olevan koneoppimismallin tarkkuuteen. Datan siivous vaatii kuitenkin erityistä kriittisyyttä ja ammattitaitoa. Tutkimuksista ilmenee, että niiden tulokset ovat erittäin riippuvaisia niiden ympäristöistä, jotka sisältävät monia eri muuttujia ja pienikin muutos parametreissä voi vaikuttaa tuloksiin. Täten samaa tilannetta tutkivissa kokeissa voi ilmetä täysin vastakkaisia tuloksia. Tutkimuksien ympäristöt voivat olla hyvinkin erilaisia, joten yleiskuvaa on vaikea luoda ja niitä löytyy kirjallisuudessa vain rajallisesti. Useimmat tutkimukset perustuvat niiden omissa ympäristöissä laadittuihin empiirisiin tuloksiin ja näiden yhdistäminen voi olla ongelmallista. Tutkielman tuloksiin on valittu mahdollisimman samankaltaisia tutkimuksia, joissa käsitellään tutkielmassa esiteltyjä virhetyyppejä ja luokittelevia koneoppimismalleja.
Työ on kirjallisuuskatsaus, joka jakaantuu kahteen osaan. Ensimmäisessä osassa avataan tutkielmaan liittyviä käsitteitä datan siivouksesta sekä luokittelevista koneoppimismalleista. Osan tarkoituksena on luoda ymmärrystä tutkielmaan rajatusta ympäristöstä ja kontekstista. Työn toinen osa yhdistää avatut käsitteet (datan siivous ja luokittelevat koneoppimismallit) luoden ympäristön, jonka pohjalta tutkimustulokset on laadittu. Työ sisältää yhteenvedon kokeellisista tuloksista, joita on saatu muista tutkimuksista. Tulokset perustuvat seitsemään kokeelliseen tutkimukseen, joissa käytetään useita tutkielmassa esiteltyjä käytäntöjä ja teknologioita. Niissä tarkastellaan eri virhetyyppien korjaamisen vaikutusta yhteen tai useampaan luokittelevaan koneoppimismalliin. Tutkimukset on luokiteltu niissä tarkasteltavien virhetyyppien mukaan ja niiden tulokset voivat olla joko positiivisia, negatiivisia tai merkityksettömiä.
Tulokset osoittavat, että oikeaoppisella datan siivouksella voi olla mahdollisia positiivisia vaikutuksia perustana olevan koneoppimismallin tarkkuuteen. Datan siivous vaatii kuitenkin erityistä kriittisyyttä ja ammattitaitoa. Tutkimuksista ilmenee, että niiden tulokset ovat erittäin riippuvaisia niiden ympäristöistä, jotka sisältävät monia eri muuttujia ja pienikin muutos parametreissä voi vaikuttaa tuloksiin. Täten samaa tilannetta tutkivissa kokeissa voi ilmetä täysin vastakkaisia tuloksia. Tutkimuksien ympäristöt voivat olla hyvinkin erilaisia, joten yleiskuvaa on vaikea luoda ja niitä löytyy kirjallisuudessa vain rajallisesti. Useimmat tutkimukset perustuvat niiden omissa ympäristöissä laadittuihin empiirisiin tuloksiin ja näiden yhdistäminen voi olla ongelmallista. Tutkielman tuloksiin on valittu mahdollisimman samankaltaisia tutkimuksia, joissa käsitellään tutkielmassa esiteltyjä virhetyyppejä ja luokittelevia koneoppimismalleja.
Kokoelmat
- Kandidaatintutkielmat [8709]