Kolmen erilaisen ryhmittelymenetelmän vertailu palkka-aineiston avulla
Juhola, Joni (2023)
Juhola, Joni
2023
Matematiikan ja tilastotieteen kandidaattiohjelma - Bachelor's Programme in Mathematics and Statistics
Informaatioteknologian ja viestinnän tiedekunta - Faculty of Information Technology and Communication Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2023-05-16
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:tuni-202304264701
https://urn.fi/URN:NBN:fi:tuni-202304264701
Tiivistelmä
Tämän tutkielman tarkoituksena oli vertailla kolmea erilaista ryhmittelymenetelmää. Menetelmät kuuluvat tilastollisen ryhmittelyanalyysin laajaan menetelmäperheeseen. Ryhmittelyanalyysin avulla aineistosta voidaan havaita ryväksiä, joissa havainnot ovat jossakin suhteessa samankaltaisia. Ryhmittelyanalyysin käytön hankaluutena on menetelmäperheen laajuus, jonka myötä pätevimmän menetelmän valinta on usein hankalaa analyysin tekijälle. Tutkielman tavoitteena olikin tarkastella kolmen ryhmittelymenetelmän toimintaa käytännön aineistossa.
Tutkielmaan ryhmittelymenetelmiksi valittiin K-means, Ward ja DBSCAN. Menetelmien perusteet esitettiin tarkemmin tutkielman teoriaosuudessa, jonka jälkeen menetelmiä sovellettiin käytännön aineistoon. Aineistona käytettiin palkka-aineistoa, joka on muodostettu Suomen Ekonomit ry:n kyselytutkimuksesta. Tutkielman toiseksi tavoitteeksi asetettiin palkkatasoon vaikuttavien tekijöiden löytäminen aineistosta ryhmittelymenetelmien avulla.
Tutkielman ryhmittelyosuudessa havaittiin eroavaisuuksia ryhmittelymenetelmien toiminnassa. K-means ja Ward:n menetelmät tuottivat suurimmaksi osaksi samanlaisia ryhmittelytuloksia palkka-aineistosta. Tuloksista havaittiin työtehtävien vaikutus palkkatasoon. Lisäksi tuloksista havaittiin, että vähäinen kokemus toimialasta ja työtehtävästä on yhteydessä matalampaan palkkatasoon. DBSCAN menetelmän tuottamat tulokset erosivat paljon K-means ja Ward:n menetelmien tuloksista. DBSCAN menetelmän tuloksista pystyttiin havaitsemaan esimerkiksi työtehtäviä, jotka selkeästi poikkesivat jollain tasolla keskimääräisistä työtehtävistä. Mutta ryhmittymiä DBSCAN menetelmän tuloksista ei pystytty havaitsemaan, toisin kuin K-means ja Ward:n menetelmien tuloksista.
Tutkielman yhteenvedossa todettiin, että ryhmittelyn tavoitteet saattavat vaikuttaa ryhmittelymenetelmän pätevyyteen. Ryhmittelytulosten pohjalta voidaan todeta, että mikäli tavoitteena on ryhmitellä aineiston kaikki havainnot ryväksiin, niin K-means ja Ward:n menetelmät ovat siihen pätevämpiä menetelmiä kuin DBSCAN. DBSCAN menetelmä soveltuu hyvin ryhmittelyyn, jonka tavoitteena on etsiä poikkeavat havainnot ja jättää ne ryhmittelyn ulkopuolelle.
Tutkielmaan ryhmittelymenetelmiksi valittiin K-means, Ward ja DBSCAN. Menetelmien perusteet esitettiin tarkemmin tutkielman teoriaosuudessa, jonka jälkeen menetelmiä sovellettiin käytännön aineistoon. Aineistona käytettiin palkka-aineistoa, joka on muodostettu Suomen Ekonomit ry:n kyselytutkimuksesta. Tutkielman toiseksi tavoitteeksi asetettiin palkkatasoon vaikuttavien tekijöiden löytäminen aineistosta ryhmittelymenetelmien avulla.
Tutkielman ryhmittelyosuudessa havaittiin eroavaisuuksia ryhmittelymenetelmien toiminnassa. K-means ja Ward:n menetelmät tuottivat suurimmaksi osaksi samanlaisia ryhmittelytuloksia palkka-aineistosta. Tuloksista havaittiin työtehtävien vaikutus palkkatasoon. Lisäksi tuloksista havaittiin, että vähäinen kokemus toimialasta ja työtehtävästä on yhteydessä matalampaan palkkatasoon. DBSCAN menetelmän tuottamat tulokset erosivat paljon K-means ja Ward:n menetelmien tuloksista. DBSCAN menetelmän tuloksista pystyttiin havaitsemaan esimerkiksi työtehtäviä, jotka selkeästi poikkesivat jollain tasolla keskimääräisistä työtehtävistä. Mutta ryhmittymiä DBSCAN menetelmän tuloksista ei pystytty havaitsemaan, toisin kuin K-means ja Ward:n menetelmien tuloksista.
Tutkielman yhteenvedossa todettiin, että ryhmittelyn tavoitteet saattavat vaikuttaa ryhmittelymenetelmän pätevyyteen. Ryhmittelytulosten pohjalta voidaan todeta, että mikäli tavoitteena on ryhmitellä aineiston kaikki havainnot ryväksiin, niin K-means ja Ward:n menetelmät ovat siihen pätevämpiä menetelmiä kuin DBSCAN. DBSCAN menetelmä soveltuu hyvin ryhmittelyyn, jonka tavoitteena on etsiä poikkeavat havainnot ja jättää ne ryhmittelyn ulkopuolelle.
Kokoelmat
- Kandidaatintutkielmat [8683]