Otantamenetelmien A-optimaalisuus logistisessa regressiossa
Väistö, Max (2023)
Väistö, Max
2023
Matematiikan ja tilastotieteen kandidaattiohjelma - Bachelor's Programme in Mathematics and Statistics
Informaatioteknologian ja viestinnän tiedekunta - Faculty of Information Technology and Communication Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2023-05-16
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:tuni-202305024984
https://urn.fi/URN:NBN:fi:tuni-202305024984
Tiivistelmä
Otantateoria tutkii aineiston alijoukon analysoinnista syntyvää päättelyn epävarmuutta. Tutkielmassa perehdytään otantateoriaan erityisesti satunnaisotannan näkökulmasta, jossa analysoitava aineiston alijoukko eli otos valitaan alkioiden poimintatodennäköisyyksien avulla. Otoksen poimimiseen käytetyt otantamenetelmät vaikuttavat otannasta syntyvään otantaharhaan, joka vaikuttaa tutkimusten analysoinnin epävarmuuteen.
Optimaalisuuskriteeri on työkalu, joka kuvaa, kuinka hyvin regressiomalli noudattaa annettua kriteeriä. Eräitä optimaalisuuden kriteerejä ovat A-, D- ja E-optimaalisuuskriteerit, jotka liittyvät parametrien varianssien minimointiin. Tutkielman mielenkiintona oleva A-optimaalisuuskriteeri mittaa parametrien varianssien keskimääräistä vaihtelua, jonka minimointi johtaa A-optimaalisimpaan malliin.
Tutkielman tarkoituksena on selvittää, mitkä otantamenetelmät tuottavat A-optimaalisimpia logistisen regressiomallin parametriestimaatteja tutkimusaineistolle. Logistisessa regressiossa tutkitaan selittävien muuttujien vaikutusta kaksiarvoisen vastemuuttujan kuvaaman tapahtuman todennäköisyyteen. Tutkielmassa käytetyn logistisen regressiomallin parametrit perustuvat aikaisempaan maksuhäiriötutkimukseen. Tutkielman tutkimusaineistona on lainan maksuhäiriöitä kuvaava suuraineisto. Aineistosta poimitaan tutkittavilla otantamenetelmillä jokaisella otoskoolla 500 otosta, joista muodostettujen logististen regressiomallien parametrien estimaattien avulla arvioidaan otantamenetelmien A-optimaalisuutta.
Tarkasteltavat otantamenetelmät ovat yksinkertainen satunnaisotanta, tasakiintiöity ositettu otanta, Neyman kiintiöity ositettu otanta, mMSE-otanta sekä mVc-otanta. Yksinkertaisessa satunnaisotannassa poiminnan kohteena olevasta perusjoukosta eli kehikkoperusjoukosta poimitaan havainnot antamalla kaikille havainnoille sama todennäköisyys kuulua otokseen. Ositetussa otannassa kehikkoperusjoukko jaetaan toisensa poissulkeviin ositteisiin, joista poimitaan ositetta vastaavan kiintiön verran alkioita. Kiintiön suuruus voidaan määrittää toisistaan poikkeavilla tavoilla. Tasakiintiöinnissä jokaisesta ositteesta poimitaan yhtä monta havaintoa. Neyman kiintiöinnissä ositteen suuruus ja keskihajonta vaikuttavat kiintiön kokoon. mMSE-otantamenetelmässä (engl. minimal mean squared error sampling) havaintojen poimintatodennäköisyydet muodostetaan logistisen regressiomallin parametrien estimaattien avulla. mVc-otantamenetelmä on mMSE-otantamenetelmää approksimoiva ja tätä nopeampi otantamenetelmä.
Tutkimuksessa havaittiin laskennallisesti intensiivisten mVc- ja mMSE-otantamenetelmän tuottavan A-optimaalisimpia otoksia tutkimusaineiston kannalta. Ositetuista otantamenetelmistä tasakiintiöity ositettu otanta tuotti pienempiä A-optimaalisuuden estimaatteja kuin Neyman kiintiöity ositettu otanta. Lisäksi yksinkertainen satunnaisotanta oli otantamenetelmistä huonoin optimaalisuuskriteerin näkökulmasta.
Optimaalisuuskriteeri on työkalu, joka kuvaa, kuinka hyvin regressiomalli noudattaa annettua kriteeriä. Eräitä optimaalisuuden kriteerejä ovat A-, D- ja E-optimaalisuuskriteerit, jotka liittyvät parametrien varianssien minimointiin. Tutkielman mielenkiintona oleva A-optimaalisuuskriteeri mittaa parametrien varianssien keskimääräistä vaihtelua, jonka minimointi johtaa A-optimaalisimpaan malliin.
Tutkielman tarkoituksena on selvittää, mitkä otantamenetelmät tuottavat A-optimaalisimpia logistisen regressiomallin parametriestimaatteja tutkimusaineistolle. Logistisessa regressiossa tutkitaan selittävien muuttujien vaikutusta kaksiarvoisen vastemuuttujan kuvaaman tapahtuman todennäköisyyteen. Tutkielmassa käytetyn logistisen regressiomallin parametrit perustuvat aikaisempaan maksuhäiriötutkimukseen. Tutkielman tutkimusaineistona on lainan maksuhäiriöitä kuvaava suuraineisto. Aineistosta poimitaan tutkittavilla otantamenetelmillä jokaisella otoskoolla 500 otosta, joista muodostettujen logististen regressiomallien parametrien estimaattien avulla arvioidaan otantamenetelmien A-optimaalisuutta.
Tarkasteltavat otantamenetelmät ovat yksinkertainen satunnaisotanta, tasakiintiöity ositettu otanta, Neyman kiintiöity ositettu otanta, mMSE-otanta sekä mVc-otanta. Yksinkertaisessa satunnaisotannassa poiminnan kohteena olevasta perusjoukosta eli kehikkoperusjoukosta poimitaan havainnot antamalla kaikille havainnoille sama todennäköisyys kuulua otokseen. Ositetussa otannassa kehikkoperusjoukko jaetaan toisensa poissulkeviin ositteisiin, joista poimitaan ositetta vastaavan kiintiön verran alkioita. Kiintiön suuruus voidaan määrittää toisistaan poikkeavilla tavoilla. Tasakiintiöinnissä jokaisesta ositteesta poimitaan yhtä monta havaintoa. Neyman kiintiöinnissä ositteen suuruus ja keskihajonta vaikuttavat kiintiön kokoon. mMSE-otantamenetelmässä (engl. minimal mean squared error sampling) havaintojen poimintatodennäköisyydet muodostetaan logistisen regressiomallin parametrien estimaattien avulla. mVc-otantamenetelmä on mMSE-otantamenetelmää approksimoiva ja tätä nopeampi otantamenetelmä.
Tutkimuksessa havaittiin laskennallisesti intensiivisten mVc- ja mMSE-otantamenetelmän tuottavan A-optimaalisimpia otoksia tutkimusaineiston kannalta. Ositetuista otantamenetelmistä tasakiintiöity ositettu otanta tuotti pienempiä A-optimaalisuuden estimaatteja kuin Neyman kiintiöity ositettu otanta. Lisäksi yksinkertainen satunnaisotanta oli otantamenetelmistä huonoin optimaalisuuskriteerin näkökulmasta.
Kokoelmat
- Kandidaatintutkielmat [8452]