Serving Sophisticated Ad Hoc Information Needs Based on Beforehand Unknown, Autonomous, and Heterogeneous XML Data Sources
Näppilä, Turkka (2013)
Näppilä, Turkka
Tampere University Press
2013
Tietojenkäsittelyoppi - Computer Science
Informaatiotieteiden yksikkö - School of Information Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Väitöspäivä
2013-12-04
Julkaisun pysyvä osoite on
https://urn.fi/URN:ISBN:978-951-44-9285-3
https://urn.fi/URN:ISBN:978-951-44-9285-3
Tiivistelmä
Vaativien, ennakoimattomien tietotarpeiden tukeminen perustuen aiemmin tuntemattomiin, autonomisiin ja heterogeenisiin XML-muotoisiin tietolähteisiin
FM Turkka Näppilän tietojenkäsittelyopin alaan kuuluvassa väitöstutkimuksessa tarkastellaan, miten käyttäjien vaativien, ennakoimattomien tietotarpeiden tyydyttämistä voidaan tukea perustuen heille aiemmin tuntemattomiin, autonomisiin ja heterogeenisiin XML-muotoisiin tietolähteisiin. Asioiden, esineiden ja vastaavien analysointia ja vertailua edellyttävien vaativien tietotarpeiden tyydyttäminen merkitsee usein tietojen yhdistämistä ja koostamista erillisistä ja itsenäisistä tietolähteistä. Koska tällaiset tietolähteet on suunniteltu toisistaan riippumattomasti, on niiden sisältämät tiedot tavallisesti organisoitu ja esitetty keskenään yhteensopimattomalla tavalla. Tietojen yhteiskäytön mahdollistamisesta käytetään tietojenkäsittelytieteissä nimitystä tiedon integrointi, ja se on ollut aina 1980-luvulta asti keskeisessä asemassa tiedonhallinnan ja tietokantojen tutkimuksessa, johon myös käsillä oleva väitöstutkimus sijoittuu.
Väitöstutkimuksessa käsiteltävät vaativat tietotarpeet ovat luonteeltaan ennakoimattomia, tilapäisiä ja lyhytkestoisia. Perinteinen tiedonintegrointilähestymistapa soveltuu huonosti tällaisten tietotarpeiden palvelemiseen, sillä integrointijärjestelmän suunnittelu ja toteutus vaatii tyypillisesti huomattavia voimavaroja. Lisäksi perinteisten integrointimenetelmien soveltaminen edellyttää käyttäjältä yleensä huomattavaa teknistä asiantuntemusta ja syvällistä perehtyneisyyttä käytettäviin tietolähteisiin, kun taas nykyaikaisissa tietojenkäsittely-ympäristöissä integrointisovellutusten käyttäjät ovat yhä useammin muita kuin tietotekniikka-alan ammattilaisia ja globaalit tietoverkot ovat tuoneet heidän saatavilleen ennennäkemättömät määrät tietolähteitä.
Nykyaikaisten tietojenkäsittely-ympäristöjen vakiintuessa esitettiin 2000-luvun puolivälissä dataspace-käsite uutena tiedonhallinnan abstraktiona, jossa tarkoituksena on kehittää muuttuneisiin olosuhteisiin soveltuvia tiedonhallinnan järjestelmiä, jotka ovat teknisiltä ratkaisuiltaan aiempaa edullisempia ja helpommin toteutettavia mutta jotka sisältävät silti monipuolisia ominaisuuksia. Erotuksena säännöllisesti organisoituihin tietokantoihin (engl. database) dataspace määritellään kokoelmaksi erilaisia tietolähteitä, jotka sisältävät kaikki tietyn käyttäjän tai tehtävän suorittamisessa tarvittavat tiedot riippumatta niiden esitysmuodosta tai niiden käytön edellyttämistä rajapinnoista. Näin ollen heterogeenisuuden hallinta ja tiedon integrointiin liittyvät toiminnallisuudet ovat dataspace-järjestelmien keskeisiä osatekijöitä. Tiedon integroinnin suhteen dataspace-järjestelmissä sovelletaan ns. pay-as-you-go-periaatetta. Siinä ajatuksena on, että saatavilla olevat tietolähteet integroidaan vasta sitten, kun se on suoritettavan tehtävän kannalta aivan välttämätöntä – ei valmiiksi etukäteen kuten perinteisissä tiedonintegrointijärjestelmissä. Dataspace-järjestelmissä olevien tietolähteiden välisen integroinnin aste siis kasvaa ajan myötä järjestelmän ja käyttäjän välisen vuorovaikutuksen kautta. Väitöstutkimuksessa esitettyä lähestymistapaa voidaan luonnehtia dataspace-suuntautuneeksi.
Alkuperäisen dataspace-vision mukaan dataspace-järjestelmän on tarkoitus tukea useita tietomuotoja. Käsillä olevassa väitöstutkimuksessa on lähtökohdaksi kuitenkin otettu se, että vastaava yleinen sovellettavuus saavutetaan esittämällä kaikki käsiteltävät tietolähteet XML-pohjaisesti. XML (Extensible Markup Language) on yleisesti käytetty merkintäkieli, joka mahdollistaa tietojen esittämisen tavalla, joka on sekä ihmisen ymmärrettävissä että tietokoneen prosessoitavissa. Useat syyt puoltavat tätä tutkimuksessa otettua lähtökohtaa. Niistä merkittävimpinä mainittakoon, että ns. puolirakenteisen tietomalliin perustuva XML tarjoaa alustariippumattoman tavan esittää tietoja ja että se on nykyään sekä rakenteettoman että rakenteisen tiedon vaihdannan tosiasiallinen standardi.
Näppilän väitöstutkimus esittelee nelivaiheisen mallin, jolla kuvataan, miten käyttäjän vaativia, ennakoimattomia tietotarpeita voidaan tukea XML-muotoisten tietolähteiden pohjalta. Mallin yhteydessä esitetään ja kehitetään useita uusia menetelmiä, tekniikoita ja välineitä, joiden avulla voidaan (i) etsiä tietotarpeen kannalta potentiaalisesti hyödyllisiä tietolähteitä, (ii) arvioida löydettyjen, käyttäjälle aiemmin tuntemattomien tietolähteiden tarkoituksenmukaisuus sekä niiden keskinäinen yhdenmukaisuus; (iii) häivyttää ja/tai poistaa niissä mahdollisesti olevat epäyhtenäisyydet ja (iv) lopuksi mahdollistaa käyttäjän vaativan tietotarpeen täyttäminen ilmaisuvoimaisella kyselykielellä, jossa tiedon integrointi on yhdistetty saumattomasti perinteiseen tietokeskeiseen käsittelyyn.
FM Turkka Näppilän tietojenkäsittelyopin alaan kuuluvassa väitöstutkimuksessa tarkastellaan, miten käyttäjien vaativien, ennakoimattomien tietotarpeiden tyydyttämistä voidaan tukea perustuen heille aiemmin tuntemattomiin, autonomisiin ja heterogeenisiin XML-muotoisiin tietolähteisiin. Asioiden, esineiden ja vastaavien analysointia ja vertailua edellyttävien vaativien tietotarpeiden tyydyttäminen merkitsee usein tietojen yhdistämistä ja koostamista erillisistä ja itsenäisistä tietolähteistä. Koska tällaiset tietolähteet on suunniteltu toisistaan riippumattomasti, on niiden sisältämät tiedot tavallisesti organisoitu ja esitetty keskenään yhteensopimattomalla tavalla. Tietojen yhteiskäytön mahdollistamisesta käytetään tietojenkäsittelytieteissä nimitystä tiedon integrointi, ja se on ollut aina 1980-luvulta asti keskeisessä asemassa tiedonhallinnan ja tietokantojen tutkimuksessa, johon myös käsillä oleva väitöstutkimus sijoittuu.
Väitöstutkimuksessa käsiteltävät vaativat tietotarpeet ovat luonteeltaan ennakoimattomia, tilapäisiä ja lyhytkestoisia. Perinteinen tiedonintegrointilähestymistapa soveltuu huonosti tällaisten tietotarpeiden palvelemiseen, sillä integrointijärjestelmän suunnittelu ja toteutus vaatii tyypillisesti huomattavia voimavaroja. Lisäksi perinteisten integrointimenetelmien soveltaminen edellyttää käyttäjältä yleensä huomattavaa teknistä asiantuntemusta ja syvällistä perehtyneisyyttä käytettäviin tietolähteisiin, kun taas nykyaikaisissa tietojenkäsittely-ympäristöissä integrointisovellutusten käyttäjät ovat yhä useammin muita kuin tietotekniikka-alan ammattilaisia ja globaalit tietoverkot ovat tuoneet heidän saatavilleen ennennäkemättömät määrät tietolähteitä.
Nykyaikaisten tietojenkäsittely-ympäristöjen vakiintuessa esitettiin 2000-luvun puolivälissä dataspace-käsite uutena tiedonhallinnan abstraktiona, jossa tarkoituksena on kehittää muuttuneisiin olosuhteisiin soveltuvia tiedonhallinnan järjestelmiä, jotka ovat teknisiltä ratkaisuiltaan aiempaa edullisempia ja helpommin toteutettavia mutta jotka sisältävät silti monipuolisia ominaisuuksia. Erotuksena säännöllisesti organisoituihin tietokantoihin (engl. database) dataspace määritellään kokoelmaksi erilaisia tietolähteitä, jotka sisältävät kaikki tietyn käyttäjän tai tehtävän suorittamisessa tarvittavat tiedot riippumatta niiden esitysmuodosta tai niiden käytön edellyttämistä rajapinnoista. Näin ollen heterogeenisuuden hallinta ja tiedon integrointiin liittyvät toiminnallisuudet ovat dataspace-järjestelmien keskeisiä osatekijöitä. Tiedon integroinnin suhteen dataspace-järjestelmissä sovelletaan ns. pay-as-you-go-periaatetta. Siinä ajatuksena on, että saatavilla olevat tietolähteet integroidaan vasta sitten, kun se on suoritettavan tehtävän kannalta aivan välttämätöntä – ei valmiiksi etukäteen kuten perinteisissä tiedonintegrointijärjestelmissä. Dataspace-järjestelmissä olevien tietolähteiden välisen integroinnin aste siis kasvaa ajan myötä järjestelmän ja käyttäjän välisen vuorovaikutuksen kautta. Väitöstutkimuksessa esitettyä lähestymistapaa voidaan luonnehtia dataspace-suuntautuneeksi.
Alkuperäisen dataspace-vision mukaan dataspace-järjestelmän on tarkoitus tukea useita tietomuotoja. Käsillä olevassa väitöstutkimuksessa on lähtökohdaksi kuitenkin otettu se, että vastaava yleinen sovellettavuus saavutetaan esittämällä kaikki käsiteltävät tietolähteet XML-pohjaisesti. XML (Extensible Markup Language) on yleisesti käytetty merkintäkieli, joka mahdollistaa tietojen esittämisen tavalla, joka on sekä ihmisen ymmärrettävissä että tietokoneen prosessoitavissa. Useat syyt puoltavat tätä tutkimuksessa otettua lähtökohtaa. Niistä merkittävimpinä mainittakoon, että ns. puolirakenteisen tietomalliin perustuva XML tarjoaa alustariippumattoman tavan esittää tietoja ja että se on nykyään sekä rakenteettoman että rakenteisen tiedon vaihdannan tosiasiallinen standardi.
Näppilän väitöstutkimus esittelee nelivaiheisen mallin, jolla kuvataan, miten käyttäjän vaativia, ennakoimattomia tietotarpeita voidaan tukea XML-muotoisten tietolähteiden pohjalta. Mallin yhteydessä esitetään ja kehitetään useita uusia menetelmiä, tekniikoita ja välineitä, joiden avulla voidaan (i) etsiä tietotarpeen kannalta potentiaalisesti hyödyllisiä tietolähteitä, (ii) arvioida löydettyjen, käyttäjälle aiemmin tuntemattomien tietolähteiden tarkoituksenmukaisuus sekä niiden keskinäinen yhdenmukaisuus; (iii) häivyttää ja/tai poistaa niissä mahdollisesti olevat epäyhtenäisyydet ja (iv) lopuksi mahdollistaa käyttäjän vaativan tietotarpeen täyttäminen ilmaisuvoimaisella kyselykielellä, jossa tiedon integrointi on yhdistetty saumattomasti perinteiseen tietokeskeiseen käsittelyyn.
Kokoelmat
- Väitöskirjat [4943]