Naiivin Bayesin luokittelijan ilmaisukyvyn kasvattaminen attribuuttijoukkoa rajaamalla
Porkamaa, Tuomas (2020)
Porkamaa, Tuomas
2020
Tietojenkäsittelytieteiden kandidaattiohjelma - Bachelor's Programme in Computer Sciences
Informaatioteknologian ja viestinnän tiedekunta - Faculty of Information Technology and Communication Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2020-10-13
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:tuni-202009217061
https://urn.fi/URN:NBN:fi:tuni-202009217061
Tiivistelmä
Bayesilaiseen päättelymalliin pohjautuvat ja Bayesin verkkoina tunnetut graafirakenteet ovat saavuttaneet suurta suosiota koneoppimisen ja erityisesti luokitteluongelmien yhteydessä, missä tiedonlouhinnan kohteena olevan datan ominaisuudet mallinnetaan luokittelijan attribuuteiksi kutsuttavien satunnaismuuttujien ehdollisten todennäköisyysjakaumien avulla. Naiivi Bayesin luokittelija on eräs tunnetuimmista Bayesilaista ajattelutapaa lainaavista luokittelijamalleista erityisesti sen naiivien jakaumaoletusten johdosta, missä satunnaismuuttujien oletetaan olevan ehdollisesti riippumattomia toisistaan. Todellisissa tilanteissa kyseiset oletukset harvoin pitävät paikkansa ja niiden korjaaminen onkin yleisin menetelmä Naiivin Bayesin luokittelijan ilmaisukyvyn parantamiseksi.
Tässä kirjallisuuskatsauksessa tutustutaan Bayesin verkkojen ja Naiivin Bayesin luokittelijan peruskäsitteisiin ja tulkintaan sekä attribuuttijoukon rajoitusmenetelmiin, jotka pyrkivät kasvattamaan Naiivin Bayesin luokittelijan yleistyskykyä tunnistamalla ja poistamalla mallista riippumattomuusoletuksia rikkovat attribuutit. Attribuuttijoukon rajoitusmenetelmistä käsitellään erityisesti suodatus- ja paketointimenetelminä tunnetut valikointiproseduurit, joita voidaan pitää toteutuksen kannalta yksinkertaisimpina tapoina parantaa Naiivin Bayesin luokittelijan ilmaisukykyä, vaikkakin luokittelukyvyn kasvaminen jää usein vähäisemmäksi edistyneempiin tekniikoihin verrattuna. Tästä huolimatta attribuuttien valikoiminen on kuitenkin yleisesti käytetty menetelmä koneoppimiskonteksteissa esimerkiksi datan esiprosessoinnin yhteydessä ja sen avulla voidaan vähintäänkin laajentaa Naiivin Bayesin luokittelijan sovellusaluetta. Tutkielman tarkoitus on antaa lukijalle perustietämys riippumattomuusoletuksia rikkovien ja luokittelun kannalta oleellisten attribuuttien tunnistamiseen liittyvistä lähestymistavoista sekä lopullisen attribuuttijoukon valikoimiseen liittyvistä toteutustekniikoista yksinkertaisten esimerkkien muodossa.
Tässä kirjallisuuskatsauksessa tutustutaan Bayesin verkkojen ja Naiivin Bayesin luokittelijan peruskäsitteisiin ja tulkintaan sekä attribuuttijoukon rajoitusmenetelmiin, jotka pyrkivät kasvattamaan Naiivin Bayesin luokittelijan yleistyskykyä tunnistamalla ja poistamalla mallista riippumattomuusoletuksia rikkovat attribuutit. Attribuuttijoukon rajoitusmenetelmistä käsitellään erityisesti suodatus- ja paketointimenetelminä tunnetut valikointiproseduurit, joita voidaan pitää toteutuksen kannalta yksinkertaisimpina tapoina parantaa Naiivin Bayesin luokittelijan ilmaisukykyä, vaikkakin luokittelukyvyn kasvaminen jää usein vähäisemmäksi edistyneempiin tekniikoihin verrattuna. Tästä huolimatta attribuuttien valikoiminen on kuitenkin yleisesti käytetty menetelmä koneoppimiskonteksteissa esimerkiksi datan esiprosessoinnin yhteydessä ja sen avulla voidaan vähintäänkin laajentaa Naiivin Bayesin luokittelijan sovellusaluetta. Tutkielman tarkoitus on antaa lukijalle perustietämys riippumattomuusoletuksia rikkovien ja luokittelun kannalta oleellisten attribuuttien tunnistamiseen liittyvistä lähestymistavoista sekä lopullisen attribuuttijoukon valikoimiseen liittyvistä toteutustekniikoista yksinkertaisten esimerkkien muodossa.
Kokoelmat
- Kandidaatintutkielmat [8918]