Suuren datan käsittely eri tiedostoformaateilla
Soumah, Alya (2025)
Soumah, Alya
2025
Tieto- ja sähkötekniikan kandidaattiohjelma - Bachelor's Programme in Computing and Electrical Engineering
Informaatioteknologian ja viestinnän tiedekunta - Faculty of Information Technology and Communication Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2025-05-05
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:tuni-202505024589
https://urn.fi/URN:NBN:fi:tuni-202505024589
Tiivistelmä
Digitaalisen datan määrä on kasvanut merkittävästi viime vuosikymmeninä, mikä on lisännyt tarvetta tehokkaille ja skaalautuville tiedostomuodoille. Tämä kandidaatin tutkielma tarkastelee suurten datamäärien käsittelyn vaatimuksia ja eri tiedostoformaattien suorituskykyä. Työssä analysoidaan erityisesti CSV-, JSON-, Parquet-, ORC- ja Avro-formaattien soveltuvuutta Big Datan käsittelyyn keskittyen tallennustehokkuuteen, käsittelynopeuteen ja yhteensopivuuteen eri järjestelmien kanssa.
Tutkimuksen tulokset osoittavat, että sarakepohjaiset formaatit, kuten Parquet ja ORC, ovat erityisen tehokkaita suurten tietomäärien analysoinnissa, sillä ne mahdollistavat selektiivisen datan lukemisen ilman tarpeetonta käsittelyä. Rivipohjaiset formaatit, kuten CSV ja Avro, ovat laajalti tuettuja ja helppokäyttöisiä, mutta ne eivät tarjoa samanlaista suorituskykyä suurten tietomassojen käsittelyssä. JSON puolestaan tarjoaa joustavuutta rakenteellisen datan tallennuksessa, mutta sen käsittely voi olla raskasta suurilla tietomäärillä.
Tutkimus vahvistaa aiemmat havainnot siitä, että tiedostoformaatin valinta riippuu käyttötapauksesta: analytiikkasovelluksissa sarakepohjaiset formaatit ovat optimaalisia, kun taas monimutkaisemman datan tallennuksessa ja käsittelyssä JSON ja Avro voivat olla parempia vaihtoehtoja. Jatkossa olisi tärkeää tutkia tiedostoformaattien vaikutusta Big Datan muihin ulottuvuuksiin, kuten tietojen luotettavuuteen ja arvoon. Lisäksi on mahdollista, että tulevaisuudessa kehittyy uusia tiedostoformaatteja, jotka vastaavat entistä paremmin erilaisten sovellusten tarpeisiin.
Tutkimuksen tulokset osoittavat, että sarakepohjaiset formaatit, kuten Parquet ja ORC, ovat erityisen tehokkaita suurten tietomäärien analysoinnissa, sillä ne mahdollistavat selektiivisen datan lukemisen ilman tarpeetonta käsittelyä. Rivipohjaiset formaatit, kuten CSV ja Avro, ovat laajalti tuettuja ja helppokäyttöisiä, mutta ne eivät tarjoa samanlaista suorituskykyä suurten tietomassojen käsittelyssä. JSON puolestaan tarjoaa joustavuutta rakenteellisen datan tallennuksessa, mutta sen käsittely voi olla raskasta suurilla tietomäärillä.
Tutkimus vahvistaa aiemmat havainnot siitä, että tiedostoformaatin valinta riippuu käyttötapauksesta: analytiikkasovelluksissa sarakepohjaiset formaatit ovat optimaalisia, kun taas monimutkaisemman datan tallennuksessa ja käsittelyssä JSON ja Avro voivat olla parempia vaihtoehtoja. Jatkossa olisi tärkeää tutkia tiedostoformaattien vaikutusta Big Datan muihin ulottuvuuksiin, kuten tietojen luotettavuuteen ja arvoon. Lisäksi on mahdollista, että tulevaisuudessa kehittyy uusia tiedostoformaatteja, jotka vastaavat entistä paremmin erilaisten sovellusten tarpeisiin.
Kokoelmat
- Kandidaatintutkielmat [9204]