Avoimen datan hyödyntämisen haasteet globaalin organisaation big data analytiikassa
Heinonen, Kristiina (2016)
Heinonen, Kristiina
2016
Tietojohtamisen koulutusohjelma
Talouden ja rakentamisen tiedekunta - Faculty of Business and Built Environment
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2016-04-06
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:tty-201603233749
https://urn.fi/URN:NBN:fi:tty-201603233749
Tiivistelmä
Useat organisaatiot ovat viime vuosina ryhtyneet avaamaan dataansa kaikkien vapaasti saataville. Avoimelle datalle ei ole vielä olemassa vakiintunutta määritelmää, mutta usein avoimella datalla tarkoitetaan dataa, johon kuka tahansa voi avoimesti päästä käsiksi, käyttää, muokata ja jakaa sitä mihin tahansa käyttötarkoitukseen. Big data on avoimen datan tavoin hyvin uusi ilmiö, jolla tarkoitetaan erityisen suurten ja järjestämättömien tietomassojen keräämistä, säilyttämistä sekä analysointia tietoteknisten ratkaisujen avulla.
Tutkimuksessa keskityttiin suurten ja sisällöltään vaihtelevien avoimien data-aineistojen tarkasteluun, jolloin puhutaan avoimesta big datasta. Tutkimusongelmana oli tietämättömyys siitä, mitä haasteita esiintyy avoimen datan hyödyntämisessä osana globaalin organisaation big data analytiikkaa. Tutkimus toteutettiin tarkastelemalla avoimien datalähteiden saatavuutta, kokonaisuutta ja laatua, dataformaattia, arkkitehtuurikuvausta ja rajapintoja, käyttöehtoja, kustannuksia sekä metadatan kuvaamista. Lisäksi tarkasteltiin data-aineiston maantieteellistä kattavuutta, havaintotarkkuutta sekä ajanjaksoa. Tutkimus toteutettiin laadullisena dokumenttisanalyysinä, joka hyödyntää eksploratiivisen tutkimuksen strategiaa.
Tutkimuksen havaintoina määriteltiin seitsemän haastetta: tiedostomuotojen eroavaisuudet, puutteet metadatassa, erot havaintotarkkuuksissa, maantieteelliset rajoitteet, heikko arkkitehtuurikuvaus ja rajapinnat, eroavaisuudet datan laadussa sekä heikko saatavuus ja löydettävyys. Avoimien datalähteiden yhdisteleminen on haastavaa ja työlästä eikä aineistojen sisältämää dataa kuvata usein tarpeeksi tarkalla tasolla. Ratkaisuvaihtoehtona avoimen datan yhtenäistämiselle tutkimus esittää erillisen avoimen datan standardin määrittämistä. Standardin tulisi pitää sisällään yksiselitteinen määritelmä avoimelle datalle sekä ehdot sille, miten avointa dataa tulisi tarjota ja avata uudelleenhyödynnettäväksi.
Tutkimuksessa keskityttiin suurten ja sisällöltään vaihtelevien avoimien data-aineistojen tarkasteluun, jolloin puhutaan avoimesta big datasta. Tutkimusongelmana oli tietämättömyys siitä, mitä haasteita esiintyy avoimen datan hyödyntämisessä osana globaalin organisaation big data analytiikkaa. Tutkimus toteutettiin tarkastelemalla avoimien datalähteiden saatavuutta, kokonaisuutta ja laatua, dataformaattia, arkkitehtuurikuvausta ja rajapintoja, käyttöehtoja, kustannuksia sekä metadatan kuvaamista. Lisäksi tarkasteltiin data-aineiston maantieteellistä kattavuutta, havaintotarkkuutta sekä ajanjaksoa. Tutkimus toteutettiin laadullisena dokumenttisanalyysinä, joka hyödyntää eksploratiivisen tutkimuksen strategiaa.
Tutkimuksen havaintoina määriteltiin seitsemän haastetta: tiedostomuotojen eroavaisuudet, puutteet metadatassa, erot havaintotarkkuuksissa, maantieteelliset rajoitteet, heikko arkkitehtuurikuvaus ja rajapinnat, eroavaisuudet datan laadussa sekä heikko saatavuus ja löydettävyys. Avoimien datalähteiden yhdisteleminen on haastavaa ja työlästä eikä aineistojen sisältämää dataa kuvata usein tarpeeksi tarkalla tasolla. Ratkaisuvaihtoehtona avoimen datan yhtenäistämiselle tutkimus esittää erillisen avoimen datan standardin määrittämistä. Standardin tulisi pitää sisällään yksiselitteinen määritelmä avoimelle datalle sekä ehdot sille, miten avointa dataa tulisi tarjota ja avata uudelleenhyödynnettäväksi.