Korrespondenssianalyysin teoriaa ja käytäntöä.
HELLSTEN, RAFAEL (2003)
HELLSTEN, RAFAEL
2003
Tilastotiede - Statistics
Informaatiotieteiden tiedekunta - Faculty of Information Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2003-05-27
Julkaisun pysyvä osoite on
https://urn.fi/urn:nbn:fi:uta-1-11915
https://urn.fi/urn:nbn:fi:uta-1-11915
Sisällysluettelo
0. JOHDANTO 3 1. KAKSI JOHDATTELEVAA ESIMERKKIÄ 5 1.1. Tenttitulokset - kahdet tulokset esitetään samalla suoralla 5 1.2. Tuotteiden ostajien ikäjakauma ja kolmiodiagrammi 6 2. KORRESPONDENSSIANALYYSIN LÄHEISET MONIMUUTTUJAMENETELMÄT 11 2. 1. Pääkomponenttianalyysi 11 2.2. Kanonisen korrelaatioanalyysin yhteys korrespondenssianalyysiin 16 3. KORRESPONDENSSIANALYYSIN TEORIA – KÄYTÄNNÖLLINEN LÄHESTYMISTAPA 24 3.1. Ensimmäinen kasviaineisto 3.1.1. Kasvupaikat 25 3.1.2. c2 -testi - korrespondenssianalyysin esiaste 26 3.1.3. Riviprofiilit eli suhteelliset määrät eri kasvupaikoissa 27 3.1.4. Ensimmäinen korrespondenssianalyysin akseli 29 3.1.5. Ensimmäisen akselin arvot ja selitykset 30 3.1.6. Toinen akseli ja sen selitysaste 31 3.1.7. Päätelmiä kaksiulotteisen kuvion perusteella 33 3.2. Toinen kasviaineisto 33 3.3. Yritystutkimusaineisto 35 3.3.1. Ensimmäinen yritystutkimusaineisto 35 3.3.2. Korostettu erikoisaineisto 40 3.4. Ensimmäisen kasviaineiston kasvupaikat ja kasvilajit 43 4. AVARUUSGEOMETRIAAN PERUSTUVA LÄHESTYMISTAPA 44 4.1. Etäisyysmitat 44 4.1.1. Euklidinen etäisyys 44 4.1.2. Painotettu euklidinen etäisyys 45 4.1.3. Samojen etäisyyksien tasa-arvokäyrät 46 4.1.4. c2 -etäisyys, odotetut ja havaitut profiilit, kokonaisinertia 46 4.2. Etäisyyksien minimointi ja inertian maksimointi 51 5. ANALYYSIN TUNNUSLUKUJA SPSS-OHJELMAN TULOSTEIDEN AVULLA 53 5.1. Selitysaste singulaariarvojen neliöistä 54 5.2. Inertia ja kontribuutio mittaavat hajaantumista ja vaikutusta 56 5.3. Akselin ja profiilipisteen välinen kulma 62 5.4. Kuvakoordinaattien skaalaustavat 64 6. KORRESPONDENSSIANALYYSIN ALGORITMI 67 6.1. Singulaariarvoalgoritmilla peruskoordinaatit 67 6.2. Singulaariarvohajotelman ominaisuuksia 71 7. VALMISOHJELMISTOT JA KORRESPONDENSSIANALYYSI 77 7.1. Katsauksen ohjelmien yleisesittely 77 7.1.1. Survo (Survo MM syksy 2002 -versio) 77 7.1.2. SPSS (versio 11) 78 7.1.3. SAS (versio 8.01) 78 7.1.4. WinBasp (versio 5 noin vuodelta 1997) 79 7.1.5. Excel 79 7.2. Ohjelmat korrespondenssianalyysin kannalta 79 7.2.1. Survo 80 7.2.2. SPSS (versio 11) 80 7.2.3. SAS (versio 8.01) 82 7.2.4. WinBasp (versio 5.2) 85 7.3. Ohjelmille asetettavat vaatimukset 86 8. SOVELLUSESIMERKKEJÄ 88 8.1. Sosio-ekonominen tausta ja mielenterveys 88 8.2. Arkeologinen aineisto aikajärjestykseen 91 8.3. Välimatkataulukosta kartta 93 9. JATKOSUUNNITELMAT 96 10. KIRJALLISUUSKATSAUS 97 LÄHTEET 101 LIITE 1 Korrespondenssianalyysin singulaariarvoalgoritmi Survo-ohjelmalla LIITE 2 Korrespondenssianalyysin termit ja niiden yhteys kontingenssitauluihin
Tiivistelmä
Tutkielman aiheena on tilastollisiin monimuuttujamenetelmiin kuuluva korrespondenssianalyysi. Tutkielman tarkoitus on tehdä sekä teoreettinen että käytännöllinen selvitys menetelmästä, sen käyttämisestä ja saatavilla olevasta lähdeaineistosta.
Tutkielmassa selvitetään korrespondenssianalyysin teoreettiset yhteydet kahteen muuhun monimuuttujamenetelmään: pääkomponenttianalyysiin ja kanoniseen korrelaatioanalyysiin. Korrespondenssianalyysin teoriaa selitetään esimerkkiaineistoilla ja avaruusgeometrisella lähestymistavalla. Pääasiallisena teoreettisena lähteenä on M.J. Greenacren kirja ”Theory and application of correspondence analysis”.
Tutkielmassa ei käsitellä varsinaista tutkimusaineistoa. Korrespondenssianalyysia voidaan käytännössä tehdä monilla tilastollisilla tietokoneohjelmilla, niinpä tutkielmassa vertaillaan muutamaa tilastollista ohjelmaa ja testataan, miten ne tekevät korrespondenssianalyysin.
Myös saatavilla olleista kirjallisuuslähteistä ja aiheeseen liittyvistä Internetin linkeistä on tutkielmassa lyhyt selvitys, jossa vertaillaan kirjojen ja muiden saatavilla olleiden tietolähteiden käyttökelpoisuutta korrespondenssianalyysin esittäjinä.
Tutkielmassa selvitetään korrespondenssianalyysin teoreettiset yhteydet kahteen muuhun monimuuttujamenetelmään: pääkomponenttianalyysiin ja kanoniseen korrelaatioanalyysiin. Korrespondenssianalyysin teoriaa selitetään esimerkkiaineistoilla ja avaruusgeometrisella lähestymistavalla. Pääasiallisena teoreettisena lähteenä on M.J. Greenacren kirja ”Theory and application of correspondence analysis”.
Tutkielmassa ei käsitellä varsinaista tutkimusaineistoa. Korrespondenssianalyysia voidaan käytännössä tehdä monilla tilastollisilla tietokoneohjelmilla, niinpä tutkielmassa vertaillaan muutamaa tilastollista ohjelmaa ja testataan, miten ne tekevät korrespondenssianalyysin.
Myös saatavilla olleista kirjallisuuslähteistä ja aiheeseen liittyvistä Internetin linkeistä on tutkielmassa lyhyt selvitys, jossa vertaillaan kirjojen ja muiden saatavilla olleiden tietolähteiden käyttökelpoisuutta korrespondenssianalyysin esittäjinä.