Tekstimuotoisen datan haasteet lähes reaaliaikaisessa ETL-putkessa
Salmensaari, Patrik (2025)
Salmensaari, Patrik
2025
Tieto- ja sähkötekniikan kandidaattiohjelma - Bachelor's Programme in Computing and Electrical Engineering
Informaatioteknologian ja viestinnän tiedekunta - Faculty of Information Technology and Communication Sciences
Hyväksymispäivämäärä
2025-05-13
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:tuni-202505095213
https://urn.fi/URN:NBN:fi:tuni-202505095213
Tiivistelmä
Tutkielmassa tarkasteltiin tekstimuotoisen datan käsittelyyn liittyviä teknisiä haasteita lähes reaaliaikaisessa ETL-putkessa (Extract, Transform, Load). ETL-prosessi koostuu kolmesta päävaiheesta: datan poimimisesta, muuntamisesta ja lataamisesta. Prosessin tavoitteena on poimia data lähdejärjestelmistä, muuntaa se analysoitavaan muotoon ja ladata kohdejärjestelmään. Tekstimuotoinen data, kuten sähköpostit ja asiakirjat, sisältää merkittävää liiketoiminnallista arvoa, mutta sen rakenteettomuus, monitulkintaisuus ja kontekstisidonnaisuus tekevät sen käsittelystä haastavaa.
Tutkimuksen tavoitteena oli tunnistaa keskeiset tekniset haasteet, joita lähes reaaliaikainen tekstimuotoinen ETL-prosessi kohtaa. Tutkimus toteutettiin kirjallisuuskatsauksena. Tutkielmassa havaittiin, että haasteet ilmenevät kaikissa prosessin vaiheissa. Poimintavaiheessa korostuvat lähdejärjestelmien kuormitus ja datan oikeellisuuden varmistaminen. Muunnosvaiheessa suurimmat haasteet liittyvät tekstin muuttamiseen rakenteelliseen muotoon lyhyessä ajassa sekä eri datalähteiden yhdistämiseen. Latausvaiheessa resurssikiistat kohdejärjestelmässä voivat heikentää suorituskykyä ja aiheuttaa viiveitä.
Tutkimus osoittaa myös, että tekstimuotoisen datan monimuotoisuus lisää prosessin monimutkaisuutta. Kirjoitusvirheet, monikielisyys ja kontekstin tulkinta tuottavat vaikeuksia. Lisäksi tietosuoja-asetukset (esim. GDPR) tuovat lisähaasteita erityisesti henkilötietojen käsittelyyn.
Tutkielma osoittaa, että vaikka lähes reaaliaikaisen tekstimuotoisen ETL-putken toteuttaminen on teknisesti haastavaa, se tarjoaa organisaatioille mahdollisuuden hyödyntää tekstimuotoista dataa tehokkaasti päätöksenteossa. Prosessi mahdollistaa tekstimuotoisen datan tehokkaan hyödyntämisen päätöksenteossa ja liiketoiminnassa. Suunnittelun ja toteutuksen huolellisuus ovat kuitenkin avainasemassa haasteiden minimoimisessa. Jatkotutkimuksissa voitaisiin keskittyä yksittäisiin prosessin vaiheisiin tai kehittää uusia ratkaisuja tekoälyn ja koneoppimisen avulla.
Tutkimuksen tavoitteena oli tunnistaa keskeiset tekniset haasteet, joita lähes reaaliaikainen tekstimuotoinen ETL-prosessi kohtaa. Tutkimus toteutettiin kirjallisuuskatsauksena. Tutkielmassa havaittiin, että haasteet ilmenevät kaikissa prosessin vaiheissa. Poimintavaiheessa korostuvat lähdejärjestelmien kuormitus ja datan oikeellisuuden varmistaminen. Muunnosvaiheessa suurimmat haasteet liittyvät tekstin muuttamiseen rakenteelliseen muotoon lyhyessä ajassa sekä eri datalähteiden yhdistämiseen. Latausvaiheessa resurssikiistat kohdejärjestelmässä voivat heikentää suorituskykyä ja aiheuttaa viiveitä.
Tutkimus osoittaa myös, että tekstimuotoisen datan monimuotoisuus lisää prosessin monimutkaisuutta. Kirjoitusvirheet, monikielisyys ja kontekstin tulkinta tuottavat vaikeuksia. Lisäksi tietosuoja-asetukset (esim. GDPR) tuovat lisähaasteita erityisesti henkilötietojen käsittelyyn.
Tutkielma osoittaa, että vaikka lähes reaaliaikaisen tekstimuotoisen ETL-putken toteuttaminen on teknisesti haastavaa, se tarjoaa organisaatioille mahdollisuuden hyödyntää tekstimuotoista dataa tehokkaasti päätöksenteossa. Prosessi mahdollistaa tekstimuotoisen datan tehokkaan hyödyntämisen päätöksenteossa ja liiketoiminnassa. Suunnittelun ja toteutuksen huolellisuus ovat kuitenkin avainasemassa haasteiden minimoimisessa. Jatkotutkimuksissa voitaisiin keskittyä yksittäisiin prosessin vaiheisiin tai kehittää uusia ratkaisuja tekoälyn ja koneoppimisen avulla.
Kokoelmat
- Kandidaatintutkielmat [10626]
