Hypoteesin testaus tiedonlouhinnassa
Rantala, Jussi (2021)
Rantala, Jussi
2021
Matematiikan ja tilastotieteen kandidaattiohjelma - Bachelor's Programme in Mathematics and Statistics
Informaatioteknologian ja viestinnän tiedekunta - Faculty of Information Technology and Communication Sciences
This publication is copyrighted. Only for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2021-05-20
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:tuni-202104304206
https://urn.fi/URN:NBN:fi:tuni-202104304206
Tiivistelmä
Tutkielman tarkoituksena on demonstroida tilastollisia hypoteesin testaus menetelmiä, joita voitaisiin hyödyntää tiedonlouhinnassa. Tiedonlouhinta kuuluu laajempaan viitekehykseen nimeltä tietämyksen muodostaminen tietokannoista. Prosessin tarkoituksena on löytää kerätystä aineistosta hahmoja, jotka auttavat tunnistamaan säännönmukaisuuksia aineistosta. Säännönmukaisuuden avulla suurikokoisetkin aineistot voivat muuttua selkeäksi.
Ongelmaksi myös muodostuu, jos kerätty aineisto valtavan kokoinen. Löydettyjä hahmoja saattaa olla tuhansia. Tämän seurauksena osa hahmoista on heikkolaatuisia ja niiden suodattamiseen tarvitaan hypoteesin testausta. Yksittäisessä hypoteesin testauksessa kahta ryhmää vertaillaan keskenään, jotta selvitetään, onko ryhmien välillä tilastollista eroa. Testauksessa asetetaan nollahypoteesi, sekä vastahypoteesi. Vastahypoteesi tulee voimaan, jos ryhmien välille löytyi tilastollisia eroja. Jos hypoteesitestejä on kuitenkin useampia, todennäköisyys suorittaa tyypin I virhe kasvaa. Tyypin I virheessä nollahypoteesi on hylätty virheellisesti. Tiedonlouhinnassa tarvittavien testien määrä saattaa nousta tuhansiin, jonka seurauksena tyypin I virheitä tapahtuu useita.
Bonferroni-korjaus sekä Holmin-menetelmä perustuvat tyypin I virheen eliminoimiseen. Menetelmät ovat todella tiukkoja, jonka seurauksena nollahypoteesin hylkäyksiä on huomattavan pieni määrä. Benjamini-Hochberg-menetelmä pyrkii tyypin I virheen poistamisen sijaan kontrolloimaan virheiden määrää. Työn tulokset perustuvat edellä mainittujen menetelmien simulointiin. Simuloinnissa nousi esille, kuinka kaikki menetelmät poistavat tyypin I virheen onnistuneesti, jos testattavat ryhmät ovat samankaltaiset, mutta Benjamini-Hochberg-menetelmä toimii huomattavasti paremmin, jos tiedämme että testattavien ryhmien välillä on eroja.
Ongelmaksi myös muodostuu, jos kerätty aineisto valtavan kokoinen. Löydettyjä hahmoja saattaa olla tuhansia. Tämän seurauksena osa hahmoista on heikkolaatuisia ja niiden suodattamiseen tarvitaan hypoteesin testausta. Yksittäisessä hypoteesin testauksessa kahta ryhmää vertaillaan keskenään, jotta selvitetään, onko ryhmien välillä tilastollista eroa. Testauksessa asetetaan nollahypoteesi, sekä vastahypoteesi. Vastahypoteesi tulee voimaan, jos ryhmien välille löytyi tilastollisia eroja. Jos hypoteesitestejä on kuitenkin useampia, todennäköisyys suorittaa tyypin I virhe kasvaa. Tyypin I virheessä nollahypoteesi on hylätty virheellisesti. Tiedonlouhinnassa tarvittavien testien määrä saattaa nousta tuhansiin, jonka seurauksena tyypin I virheitä tapahtuu useita.
Bonferroni-korjaus sekä Holmin-menetelmä perustuvat tyypin I virheen eliminoimiseen. Menetelmät ovat todella tiukkoja, jonka seurauksena nollahypoteesin hylkäyksiä on huomattavan pieni määrä. Benjamini-Hochberg-menetelmä pyrkii tyypin I virheen poistamisen sijaan kontrolloimaan virheiden määrää. Työn tulokset perustuvat edellä mainittujen menetelmien simulointiin. Simuloinnissa nousi esille, kuinka kaikki menetelmät poistavat tyypin I virheen onnistuneesti, jos testattavat ryhmät ovat samankaltaiset, mutta Benjamini-Hochberg-menetelmä toimii huomattavasti paremmin, jos tiedämme että testattavien ryhmien välillä on eroja.