Tietokuution muodostaminen heterogeenisista XML-dokumenteista
NÄPPILÄ, TURKKA (2006)
NÄPPILÄ, TURKKA
2006
Tietojenkäsittelyoppi - Computer Science
Informaatiotieteiden tiedekunta - Faculty of Information Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2006-03-09
Julkaisun pysyvä osoite on
https://urn.fi/urn:nbn:fi:uta-1-15493
https://urn.fi/urn:nbn:fi:uta-1-15493
Tiivistelmä
Tutkielmassa käsitellään tietokuution muodostamista rakenteeltaan heterogeenisista XML-dokumenteista. Tietokuutio on OLAP (Online Analytical Processing) -toiminnallisuuden toteutuksissa yleisesti käytettävä tietomalli ja tiedon visualisointitapa. OLAP tarkoittaa analyysia, jossa yksittäisistä tietoalkioista koostettuja yhteenvetotietoja tarkastellaan moniulotteisesti, so. samanaikaisesti usean, tavallisesti toisistaan riippumattoman dimension suhteen. Organisaatioiden ja yhteisöjen tuottamien jatkuvasti kasvavien tietomäärien vuoksi on ennakoitavissa, että tällainen tietojen analysointitapa on vastaisuudessa entistäkin relevantimpaa. Yhtenä syynä tietomäärien jatkuvaan kasvuun on ollut XML (Extensible Markup Language) -merkintäkielen nousu tietojen vaihdon standardiksi. XML on poistanut yhden keskeisimmistä modernin tietojenkäsittelyn aikana vaikuttaneista laajamittaisen tietojen vaihdon esteistä -- tietoformaattien heterogeenisuuden. Nykyään voidaankin jo olettaa, että kaikista tietojärjestelmistä ovat tiedot saatavissa XML-muodossa. XML-esitystapa sallii kuitenkin dokumenttien välisen ja sisäisen rakenteellisen heterogeenisuuden. Kun enenevässä määrin siirrytään toimimaan globaalissa ympäristössä, ei enää voida olettaa, että käsiteltävien tietoaineistojen rakennetta voitaisiin hallita keskitetysti, vaan on kehitettävä uusia menetelmiä, joilla autonomisissa tietolähteissä olevia tietoja saadaan helposti integroitua. Tulevaisuudessa myös ad hoc -tyyppiset tiedontarpeet lisääntyvät, ja sen seurauksena syntyy tarve nykyistä nopeammille tiedon analysointivälineille.
Tutkielmassa esitellään teoreettisia ja käytännöllisiä haasteita, joita liittyy tietokuution muodostamiseen rakenteellisesti toisistaan eroavien XML-dokumenttien perusteella. Teoreettisen viitekehyksen tueksi tutkielman yhteydessä on toteutettu järjestelmäprototyyppi, jossa erikseen tarkoitusta varten kehitetyn kyselyprimitiivin avulla pystytään helposti integroimaan tietoja rakenteeltaan heterogeenisista XML-muotoisista tietolähteistä ja muodostamaan saatujen tietojen perusteella tietokuutioita. Kehitetty kyselyprimitiivi tarjoaa olemassa olevia XML-kyselykieliä intuitiivisemman tavan käsitellä XML-rakenteita. Kyselyprimitiivissä on helpotettu tarkoitusta varten kehitetyn erityisen suppeimman mahdollisen kontekstin semantiikan avulla XML-dokumenttien rakenteellisen tuntemattomuuden käsittelyä, mikä vähentää käyttäjän XML-dokumenteissa suorittaman eksplisiittisen navigoinnin tarvetta.
Avainsanat ja -sanonnat: tiedon integrointi, XML, OLAP, tietovarastointi, tiedonhaku.
Tutkielmassa esitellään teoreettisia ja käytännöllisiä haasteita, joita liittyy tietokuution muodostamiseen rakenteellisesti toisistaan eroavien XML-dokumenttien perusteella. Teoreettisen viitekehyksen tueksi tutkielman yhteydessä on toteutettu järjestelmäprototyyppi, jossa erikseen tarkoitusta varten kehitetyn kyselyprimitiivin avulla pystytään helposti integroimaan tietoja rakenteeltaan heterogeenisista XML-muotoisista tietolähteistä ja muodostamaan saatujen tietojen perusteella tietokuutioita. Kehitetty kyselyprimitiivi tarjoaa olemassa olevia XML-kyselykieliä intuitiivisemman tavan käsitellä XML-rakenteita. Kyselyprimitiivissä on helpotettu tarkoitusta varten kehitetyn erityisen suppeimman mahdollisen kontekstin semantiikan avulla XML-dokumenttien rakenteellisen tuntemattomuuden käsittelyä, mikä vähentää käyttäjän XML-dokumenteissa suorittaman eksplisiittisen navigoinnin tarvetta.
Avainsanat ja -sanonnat: tiedon integrointi, XML, OLAP, tietovarastointi, tiedonhaku.