Hyppää sisältöön
    • Suomeksi
    • In English
Trepo
  • Suomeksi
  • In English
  • Kirjaudu
Näytä viite 
  •   Etusivu
  • Trepo
  • Kandidaatintutkielmat (Limited access)
  • Näytä viite
  •   Etusivu
  • Trepo
  • Kandidaatintutkielmat (Limited access)
  • Näytä viite
JavaScript is disabled for your browser. Some features of this site may not work without it.

Hypoteesin testaus tiedonlouhinnassa

Rantala, Jussi (2021)

 
Avaa tiedosto
RantalaJussi.pdf (379.3Kt)
Lataukset: 

Tekijä ei ole antanut lupaa avoimeen julkaisuun, aineisto on luettavissa vain Tampereen yliopiston kirjastojen opinnäytepisteillä. The author has not given permission to publish the thesis online. The thesis can be read at the thesis point at Tampere University Library.

Rantala, Jussi
2021

Matematiikan ja tilastotieteen kandidaattiohjelma - Bachelor's Programme in Mathematics and Statistics
Informaatioteknologian ja viestinnän tiedekunta - Faculty of Information Technology and Communication Sciences
This publication is copyrighted. Only for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2021-05-20
Näytä kaikki kuvailutiedot
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:tuni-202104304206
Tiivistelmä
Tutkielman tarkoituksena on demonstroida tilastollisia hypoteesin testaus menetelmiä, joita voitaisiin hyödyntää tiedonlouhinnassa. Tiedonlouhinta kuuluu laajempaan viitekehykseen nimeltä tietämyksen muodostaminen tietokannoista. Prosessin tarkoituksena on löytää kerätystä aineistosta hahmoja, jotka auttavat tunnistamaan säännönmukaisuuksia aineistosta. Säännönmukaisuuden avulla suurikokoisetkin aineistot voivat muuttua selkeäksi.

Ongelmaksi myös muodostuu, jos kerätty aineisto valtavan kokoinen. Löydettyjä hahmoja saattaa olla tuhansia. Tämän seurauksena osa hahmoista on heikkolaatuisia ja niiden suodattamiseen tarvitaan hypoteesin testausta. Yksittäisessä hypoteesin testauksessa kahta ryhmää vertaillaan keskenään, jotta selvitetään, onko ryhmien välillä tilastollista eroa. Testauksessa asetetaan nollahypoteesi, sekä vastahypoteesi. Vastahypoteesi tulee voimaan, jos ryhmien välille löytyi tilastollisia eroja. Jos hypoteesitestejä on kuitenkin useampia, todennäköisyys suorittaa tyypin I virhe kasvaa. Tyypin I virheessä nollahypoteesi on hylätty virheellisesti. Tiedonlouhinnassa tarvittavien testien määrä saattaa nousta tuhansiin, jonka seurauksena tyypin I virheitä tapahtuu useita.

Bonferroni-korjaus sekä Holmin-menetelmä perustuvat tyypin I virheen eliminoimiseen. Menetelmät ovat todella tiukkoja, jonka seurauksena nollahypoteesin hylkäyksiä on huomattavan pieni määrä. Benjamini-Hochberg-menetelmä pyrkii tyypin I virheen poistamisen sijaan kontrolloimaan virheiden määrää. Työn tulokset perustuvat edellä mainittujen menetelmien simulointiin. Simuloinnissa nousi esille, kuinka kaikki menetelmät poistavat tyypin I virheen onnistuneesti, jos testattavat ryhmät ovat samankaltaiset, mutta Benjamini-Hochberg-menetelmä toimii huomattavasti paremmin, jos tiedämme että testattavien ryhmien välillä on eroja.
Kokoelmat
  • Kandidaatintutkielmat (Limited access) [1900]
Kalevantie 5
PL 617
33014 Tampereen yliopisto
oa[@]tuni.fi | Tietosuoja | Saavutettavuusseloste
 

 

Selaa kokoelmaa

TekijätNimekkeetTiedekunta (2019 -)Tiedekunta (- 2018)Tutkinto-ohjelmat ja opintosuunnatAvainsanatJulkaisuajatKokoelmat

Omat tiedot

Kirjaudu sisäänRekisteröidy
Kalevantie 5
PL 617
33014 Tampereen yliopisto
oa[@]tuni.fi | Tietosuoja | Saavutettavuusseloste