Application of Data Mining Methods in the Study of Crime Based on International Data Sources
Li, Xingan (2014)
Li, Xingan
Tampere University Press
2014
Tietojenkäsittelyoppi - Computer Science
Informaatiotieteiden yksikkö - School of Information Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Väitöspäivä
2014-04-25
Julkaisun pysyvä osoite on
https://urn.fi/URN:ISBN:978-951-44-9419-2
https://urn.fi/URN:ISBN:978-951-44-9419-2
Tiivistelmä
Kansainvälisten tietokantojen maakohtaisten rikostilastojen tiedonlouhintaa
Väitöstutkimuksessaan tekijä sovelsi tiedonlouhinnan laskennallisia välineitä kansainvälisistä lähteistä etsimiinsä rikollisuuden tilastotietoihin tehdäkseen vertailevaa tutkimusta eri maiden välillä ja eri vuosien välillä yhdessä maassa, Yhdysvalloissa. Tutkimuksen tekijä keräsi datansa pääosin YK:n tietokannoista sekä Yhdysvaltojen ja Suomen tilastokeskuksen tietokannoista. Modernin yhteiskunnan hyvinvoinnin, vakauden ja kehityksen turvaamiseksi rikollisuuden torjunta ja valvonta ovat polttopisteessä. Rikollisuuden esiintymistä voidaan kuvata useilla tekijöillä eli muuttujilla, jotka eivät useinkaan ole hallintokoneiston, yhteiskunnan tai kansalaisten kontrolloitavissa. Nämä ovat luokiteltavissa kolmeen ryhmään, demografiset, taloudelliset ja historialliset muuttujat. Nämä näyttelevät toisaalta näkyvää ja toisaalta näkymätöntä roolia kuvatessaan rikollisten ilmiöiden maantieteellistä jakaumaa kansainvälisellä tasolla, käsittäessään määrättyjen rikosten piirteitä sekä muodostaen laskennallisen perustan maiden klusterointiin eli ryhmittelyyn, jossa muuttujat määrittävät rikollisuuspiirteiltään keskenään läheiset maat.
Mainitun ryhmittelyn suorittamisessa tiedonlouhinnan menetelmät osoittautuivat hyödyllisiksi. Näitä laskentamenetelmiä on aiemmin sovellettu mitä erilaisimmille datoille, mutta väitöstutkimuksen makrotason eli maakohtaisten rikostilastojen tiedonlouhinta lienee ensimmäisiä alallaan. Tutkimuksen tekijä käytti erityisesti laskentamenetelmää nimeltä itseorganisoituvat kartat ryhmittelyssä, vertailussa ja myös visualisoinnissa. Tekijä selvitti myös demografisten, taloudellisten ja sosiaalisten muuttujien suhteita korrelaatioina rikostilastomuuttujiin nähden eri maissa. Niin ikään hän selvitti itseorganisoituvien karttojen ja muiden tiedonlouhintamenetelmien käyttökelpoisuutta rikollisuuden analysointiin maittain.
Tutkimus kattoi viisi osajulkaisua maakohtaisen datan käsittäessä 22:sta 68:aan erilaista muuttujaa. Kolmessa osajulkaisussa tutkija analysoi tiedonlouhinnalla noin puolen sadan maan joukkoja. Yhdessä osajulkaisussa hän tutki ajallisesti rikollisuuden muutosta Yhdysvalloissa 48 perättäisen vuoden aikana alkaen vuoden 1960 rikostilastoista. Yhdysvalloissa, joista dataa oli saatavissa pitkittäistutkimusta varten, rikollisuus oli lisääntynyt tasaisesti 1990-luvulle asti, jonka jälkeen vaihtelevien syiden takia, kuten rikollisuuden torjunta, rikollisuus on pääosin vähentynyt. Viimeinen osajulkaisu käsitti lähes koko maailman, 181 maata, tiedonlouhintaa erilaisten demografisten, taloudellisten ja sosiaalisten muuttujien suhteesta vain yhteen muuttujaan, henkirikoksiin. Tämä oli kohteena keskeisyytensä vuoksi ja käytännöllisen syyn vuoksi, kun kyseistä tietoa oli saatu YK:n tietokantoihin lähes kaikista maista. Jokin toinen rikollisuuden muoto, esimerkiksi tietoverkkorikokset, ei olisi ollut tällainen.
Väitöstutkimuksen ensimmäinen laaja osuus oli datan eli rikostilastojen keräys ja valikointi em. julkisista tietokannoista. Kunkin osajulkaisun muuttuja- ja maavalikoimaan vaikuttivat rikollisuuteen mahdollisesti tavalla tai toisella liittyvien muuttujien tilastointi ja eri maista saatavilla ollut data sekä Yhdysvalloista erityisesti vuosilta 1960-2007 saatavilla ollut data. Tutkija analysoi tiedonlouhinnan esikäsittelymenetelmin, mitkä muuttujista erottelivat eri maita voidakseen tehokkaasti hyödyntää valitsemiaan muuttujia luokitukseen ja ryhmittelyyn. Tutkimuksessa oli käytössä useita eri luokitusmenetelmiä (algoritmisessa mielessä ohjattua oppimista) yksinkertaisesta lähimmän naapurin etsinnästä tukivektorikoneisiin. Näiden antamia tuloksia tutkija vertasi itseorganisoituvien karttojen (ohjaamatonta oppimista) antamiin voidakseen todeta riittävää yhdenmukaisuutta tulosten välillä, ts. todentaen tulosten mielekkyyden ja oikeellisuuden. Lisäksi hän käytti apuna tilastollisia menetelmiä johtopäätöstensä tueksi.
Tutkimuksen tekijä saattoi todeta itseorganisoituvien karttojen ja muiden tiedonlouhinnassa käytettävien koneoppimismenetelmien soveltuvan hyvin maakohtaisten rikostilastojen tiedonlouhintaan ja analyysiin. Tutkimus kuvasi kiinnostavia tuloksia, maakohtaisia eroja ja samankaltaisuuksia ja hieman yllättäviäkin löydöksiä, kuten lievempien omaisuusrikostyyppien yleisyyden vauraissa maissa ja vähäisyyden monissa köyhissä maissa. Monet maat sijoittuivat ryhmittelyssä odotettavissa olevin maaryhmiin, mutta toisaalta näissä oli myös vaihtelevia eroja. Kiinnostavaa tässä oli luonnollisesti laajimmin tutkittu rikostyyppi, henkirikos ja tämän kanssa korreloivat muuttujat.
Väitöstutkimuksessaan tekijä sovelsi tiedonlouhinnan laskennallisia välineitä kansainvälisistä lähteistä etsimiinsä rikollisuuden tilastotietoihin tehdäkseen vertailevaa tutkimusta eri maiden välillä ja eri vuosien välillä yhdessä maassa, Yhdysvalloissa. Tutkimuksen tekijä keräsi datansa pääosin YK:n tietokannoista sekä Yhdysvaltojen ja Suomen tilastokeskuksen tietokannoista. Modernin yhteiskunnan hyvinvoinnin, vakauden ja kehityksen turvaamiseksi rikollisuuden torjunta ja valvonta ovat polttopisteessä. Rikollisuuden esiintymistä voidaan kuvata useilla tekijöillä eli muuttujilla, jotka eivät useinkaan ole hallintokoneiston, yhteiskunnan tai kansalaisten kontrolloitavissa. Nämä ovat luokiteltavissa kolmeen ryhmään, demografiset, taloudelliset ja historialliset muuttujat. Nämä näyttelevät toisaalta näkyvää ja toisaalta näkymätöntä roolia kuvatessaan rikollisten ilmiöiden maantieteellistä jakaumaa kansainvälisellä tasolla, käsittäessään määrättyjen rikosten piirteitä sekä muodostaen laskennallisen perustan maiden klusterointiin eli ryhmittelyyn, jossa muuttujat määrittävät rikollisuuspiirteiltään keskenään läheiset maat.
Mainitun ryhmittelyn suorittamisessa tiedonlouhinnan menetelmät osoittautuivat hyödyllisiksi. Näitä laskentamenetelmiä on aiemmin sovellettu mitä erilaisimmille datoille, mutta väitöstutkimuksen makrotason eli maakohtaisten rikostilastojen tiedonlouhinta lienee ensimmäisiä alallaan. Tutkimuksen tekijä käytti erityisesti laskentamenetelmää nimeltä itseorganisoituvat kartat ryhmittelyssä, vertailussa ja myös visualisoinnissa. Tekijä selvitti myös demografisten, taloudellisten ja sosiaalisten muuttujien suhteita korrelaatioina rikostilastomuuttujiin nähden eri maissa. Niin ikään hän selvitti itseorganisoituvien karttojen ja muiden tiedonlouhintamenetelmien käyttökelpoisuutta rikollisuuden analysointiin maittain.
Tutkimus kattoi viisi osajulkaisua maakohtaisen datan käsittäessä 22:sta 68:aan erilaista muuttujaa. Kolmessa osajulkaisussa tutkija analysoi tiedonlouhinnalla noin puolen sadan maan joukkoja. Yhdessä osajulkaisussa hän tutki ajallisesti rikollisuuden muutosta Yhdysvalloissa 48 perättäisen vuoden aikana alkaen vuoden 1960 rikostilastoista. Yhdysvalloissa, joista dataa oli saatavissa pitkittäistutkimusta varten, rikollisuus oli lisääntynyt tasaisesti 1990-luvulle asti, jonka jälkeen vaihtelevien syiden takia, kuten rikollisuuden torjunta, rikollisuus on pääosin vähentynyt. Viimeinen osajulkaisu käsitti lähes koko maailman, 181 maata, tiedonlouhintaa erilaisten demografisten, taloudellisten ja sosiaalisten muuttujien suhteesta vain yhteen muuttujaan, henkirikoksiin. Tämä oli kohteena keskeisyytensä vuoksi ja käytännöllisen syyn vuoksi, kun kyseistä tietoa oli saatu YK:n tietokantoihin lähes kaikista maista. Jokin toinen rikollisuuden muoto, esimerkiksi tietoverkkorikokset, ei olisi ollut tällainen.
Väitöstutkimuksen ensimmäinen laaja osuus oli datan eli rikostilastojen keräys ja valikointi em. julkisista tietokannoista. Kunkin osajulkaisun muuttuja- ja maavalikoimaan vaikuttivat rikollisuuteen mahdollisesti tavalla tai toisella liittyvien muuttujien tilastointi ja eri maista saatavilla ollut data sekä Yhdysvalloista erityisesti vuosilta 1960-2007 saatavilla ollut data. Tutkija analysoi tiedonlouhinnan esikäsittelymenetelmin, mitkä muuttujista erottelivat eri maita voidakseen tehokkaasti hyödyntää valitsemiaan muuttujia luokitukseen ja ryhmittelyyn. Tutkimuksessa oli käytössä useita eri luokitusmenetelmiä (algoritmisessa mielessä ohjattua oppimista) yksinkertaisesta lähimmän naapurin etsinnästä tukivektorikoneisiin. Näiden antamia tuloksia tutkija vertasi itseorganisoituvien karttojen (ohjaamatonta oppimista) antamiin voidakseen todeta riittävää yhdenmukaisuutta tulosten välillä, ts. todentaen tulosten mielekkyyden ja oikeellisuuden. Lisäksi hän käytti apuna tilastollisia menetelmiä johtopäätöstensä tueksi.
Tutkimuksen tekijä saattoi todeta itseorganisoituvien karttojen ja muiden tiedonlouhinnassa käytettävien koneoppimismenetelmien soveltuvan hyvin maakohtaisten rikostilastojen tiedonlouhintaan ja analyysiin. Tutkimus kuvasi kiinnostavia tuloksia, maakohtaisia eroja ja samankaltaisuuksia ja hieman yllättäviäkin löydöksiä, kuten lievempien omaisuusrikostyyppien yleisyyden vauraissa maissa ja vähäisyyden monissa köyhissä maissa. Monet maat sijoittuivat ryhmittelyssä odotettavissa olevin maaryhmiin, mutta toisaalta näissä oli myös vaihtelevia eroja. Kiinnostavaa tässä oli luonnollisesti laajimmin tutkittu rikostyyppi, henkirikos ja tämän kanssa korreloivat muuttujat.
Kokoelmat
- Väitöskirjat [4970]