Korvalääketieteellisen aineiston luokittelu Bayes -verkoilla
MIETTINEN, KATJA (2007)
MIETTINEN, KATJA
2007
Tilastotiede - Statistics
Informaatiotieteiden tiedekunta - Faculty of Information Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2007-06-13
Julkaisun pysyvä osoite on
https://urn.fi/urn:nbn:fi:uta-1-17077
https://urn.fi/urn:nbn:fi:uta-1-17077
Tiivistelmä
Tämän työn teoriaosuudessa on esitetty luokittelevien Bayes-verkkojen teoriaa. Koska kysymyksessä on luokitteluongelma, niin teoriaosuudessa esitetään luokittelutehtävään liittyviä näkohtia. Tavoitteena on rakentaa luokittelija siten, että väärinluokituksen mahdollisuus minimoidaan. Muita tärkeitä hyvän luokittelijan piirteitä ovat väärin luokittelemisen ja a priori esiintymistodennäköisyyksien huomioon ottaminen. Koska työn konteksti on Bayes -verkot, niin työssä on johdateltu bayesilaiseen päättelyyn ja esitelty ehdollisen todennäköisyyden käsite sekä Bayesin lause. Lisäksi teoriaosuudessa on vertailtu bayesilaista todennäköisyyden määritelmää frekventistiseen määritelmään. Bayes -verkkoa esittävän graafin oletetaan olevan suunnattu ja syklitön (DAG) siksi teoriosuudessa on esitetty myös graafiteoriaa.
Bayes -verkon oppimisessa on kaksi vaihetta. Ensinnäkin on opittava Bayes -verkon rakenne. Bayes -verkon rakenteen oppimiseen on kaksi lähestymistapaa. Tässä työssä rakenteen oppimiseen on käytetty pistemääräperustaista lähestymistapaa. Siinä haetaan kaikki mahdolliset verkkorakenteet jollain hakualgoritmilla, pisteytetään saadut verkot ja valitaan parhaimman pistemäärän saanut verkko Bayes -verkon rakenteeksi. Tähän liittyen työssä on esiteltynä vuorikiipeilyalgoritmi. Vaihtoehtoinen Bayes -verkon rakenteen oppimiseen käytetty menelmä, nimeltään rajoiteperustainen menetelmä (constraint based), on esitelty tässä työssä suppeasti. Toinen Bayes -verkon oppimiseen liittyvä näkökohta on Bayes -verkon parametrien estimointi. Työssä on paneuduttu tarkemmin parametrien estimointiin yleensä frekventistisessä ja bayesilaisessa mielessä. Huomionarvoista on se, että Bayes -verkko voi olla frekventistinen. Tämän työn empiirisessä osuudessa on luokiteltu 815 huimauspotilasta tautiryhmiin käyttäen luokittelijoita: naiivi, TAN, GBN1, GBN2 ja GBN3. Naiivi luokittelija perustuu oletukseen, että muuttujat ovat ehdollisesti riippumattomia, kun luokittelumuuttuja on annettu. Verkkorakenne on tällä luokittelijalla puu, jossa ainoa vanhempi on luokittelumuuttuja. TAN (Tree Augmented Naive-Bayes) -luokittelija sallii toisen vanhemman luokittelumuuttujan lisäksi. TAN -luokittelijan rakenteen oppiminen pohjautuu tunnettuun Chown ja Liun vuonna 1968 esittämään menetelmään puutyyppisten Bayes -verkkojen oppimiseen.
Yleisessä Bayes -verkossa (General Bayes Network, GBN) luokittelumuuttuja on kuten mikä tahansa solmu, eikä solmujen vanhempien lukumäärää ole rajoitettu.
Tässä työssä käsitellään kolmea yleistä luokittelijaa. Näiden luokittelijoiden rakenteiden oppimiseen on käytetty pistemääräperustaista lähestymistapaa. Käytetyt pistemäärät eroavat näillä luokittelijoilla. Luokittelijalla GBN1 käytetty pistemäärä on Bayes -pistemäärä. Luokittelijalla GBN2 käytetty pistemäärä on MDL (Minimum Description Length) -pistemäärä ja luokittelijalla GBN3 käytetyn pistemäärän ollessa AIC (Akaike Information Criterion) -pistemäärä. Koska tässä työssä käsitellään verkkoja, jossa puuttuvia arvoja ei sallita, niin puuttuvat arvot korvattiin muuttujien keskiluvuilla. Puuttuviin arvoihin liittyvää problematiikka on myös näin ollen käsitelty empiriaosuudessa. Kaiken kaikkiaan empiriaosuudessa käsitellään 15 eri luokittelijaa, edellä esitettyjä luokittelijoita selittävien muuttujien lukumäärillä 40, yhdeksän ja viisi. Tämän aineiston potilaiden luokittelu tautiryhmiin Akustikus Neurinoma, Bening positional vertigo, Menièren tauti, Sudden Deaffness, Traumatic Vertigo ja Vesbular Neuritis tehtiin käyttäen open-source ohjelmaa Weka 3 (Waikato Environment for Knowledge Analysis).
Bayes -verkon oppimisessa on kaksi vaihetta. Ensinnäkin on opittava Bayes -verkon rakenne. Bayes -verkon rakenteen oppimiseen on kaksi lähestymistapaa. Tässä työssä rakenteen oppimiseen on käytetty pistemääräperustaista lähestymistapaa. Siinä haetaan kaikki mahdolliset verkkorakenteet jollain hakualgoritmilla, pisteytetään saadut verkot ja valitaan parhaimman pistemäärän saanut verkko Bayes -verkon rakenteeksi. Tähän liittyen työssä on esiteltynä vuorikiipeilyalgoritmi. Vaihtoehtoinen Bayes -verkon rakenteen oppimiseen käytetty menelmä, nimeltään rajoiteperustainen menetelmä (constraint based), on esitelty tässä työssä suppeasti. Toinen Bayes -verkon oppimiseen liittyvä näkökohta on Bayes -verkon parametrien estimointi. Työssä on paneuduttu tarkemmin parametrien estimointiin yleensä frekventistisessä ja bayesilaisessa mielessä. Huomionarvoista on se, että Bayes -verkko voi olla frekventistinen. Tämän työn empiirisessä osuudessa on luokiteltu 815 huimauspotilasta tautiryhmiin käyttäen luokittelijoita: naiivi, TAN, GBN1, GBN2 ja GBN3. Naiivi luokittelija perustuu oletukseen, että muuttujat ovat ehdollisesti riippumattomia, kun luokittelumuuttuja on annettu. Verkkorakenne on tällä luokittelijalla puu, jossa ainoa vanhempi on luokittelumuuttuja. TAN (Tree Augmented Naive-Bayes) -luokittelija sallii toisen vanhemman luokittelumuuttujan lisäksi. TAN -luokittelijan rakenteen oppiminen pohjautuu tunnettuun Chown ja Liun vuonna 1968 esittämään menetelmään puutyyppisten Bayes -verkkojen oppimiseen.
Yleisessä Bayes -verkossa (General Bayes Network, GBN) luokittelumuuttuja on kuten mikä tahansa solmu, eikä solmujen vanhempien lukumäärää ole rajoitettu.
Tässä työssä käsitellään kolmea yleistä luokittelijaa. Näiden luokittelijoiden rakenteiden oppimiseen on käytetty pistemääräperustaista lähestymistapaa. Käytetyt pistemäärät eroavat näillä luokittelijoilla. Luokittelijalla GBN1 käytetty pistemäärä on Bayes -pistemäärä. Luokittelijalla GBN2 käytetty pistemäärä on MDL (Minimum Description Length) -pistemäärä ja luokittelijalla GBN3 käytetyn pistemäärän ollessa AIC (Akaike Information Criterion) -pistemäärä. Koska tässä työssä käsitellään verkkoja, jossa puuttuvia arvoja ei sallita, niin puuttuvat arvot korvattiin muuttujien keskiluvuilla. Puuttuviin arvoihin liittyvää problematiikka on myös näin ollen käsitelty empiriaosuudessa. Kaiken kaikkiaan empiriaosuudessa käsitellään 15 eri luokittelijaa, edellä esitettyjä luokittelijoita selittävien muuttujien lukumäärillä 40, yhdeksän ja viisi. Tämän aineiston potilaiden luokittelu tautiryhmiin Akustikus Neurinoma, Bening positional vertigo, Menièren tauti, Sudden Deaffness, Traumatic Vertigo ja Vesbular Neuritis tehtiin käyttäen open-source ohjelmaa Weka 3 (Waikato Environment for Knowledge Analysis).