Hyppää sisältöön
    • Suomeksi
    • In English
Trepo
  • Suomeksi
  • In English
  • Kirjaudu
Näytä viite 
  •   Etusivu
  • Trepo
  • Kandidaatintutkielmat
  • Näytä viite
  •   Etusivu
  • Trepo
  • Kandidaatintutkielmat
  • Näytä viite
JavaScript is disabled for your browser. Some features of this site may not work without it.

Suuren datan käsittely eri tiedostoformaateilla

Soumah, Alya (2025)

 
Avaa tiedosto
SoumahAlya.pdf (838.6Kt)
Lataukset: 



Soumah, Alya
2025

Tieto- ja sähkötekniikan kandidaattiohjelma - Bachelor's Programme in Computing and Electrical Engineering
Informaatioteknologian ja viestinnän tiedekunta - Faculty of Information Technology and Communication Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2025-05-05
Näytä kaikki kuvailutiedot
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:tuni-202505024589
Tiivistelmä
Digitaalisen datan määrä on kasvanut merkittävästi viime vuosikymmeninä, mikä on lisännyt tarvetta tehokkaille ja skaalautuville tiedostomuodoille. Tämä kandidaatin tutkielma tarkastelee suurten datamäärien käsittelyn vaatimuksia ja eri tiedostoformaattien suorituskykyä. Työssä analysoidaan erityisesti CSV-, JSON-, Parquet-, ORC- ja Avro-formaattien soveltuvuutta Big Datan käsittelyyn keskittyen tallennustehokkuuteen, käsittelynopeuteen ja yhteensopivuuteen eri järjestelmien kanssa.
Tutkimuksen tulokset osoittavat, että sarakepohjaiset formaatit, kuten Parquet ja ORC, ovat erityisen tehokkaita suurten tietomäärien analysoinnissa, sillä ne mahdollistavat selektiivisen datan lukemisen ilman tarpeetonta käsittelyä. Rivipohjaiset formaatit, kuten CSV ja Avro, ovat laajalti tuettuja ja helppokäyttöisiä, mutta ne eivät tarjoa samanlaista suorituskykyä suurten tietomassojen käsittelyssä. JSON puolestaan tarjoaa joustavuutta rakenteellisen datan tallennuksessa, mutta sen käsittely voi olla raskasta suurilla tietomäärillä.
Tutkimus vahvistaa aiemmat havainnot siitä, että tiedostoformaatin valinta riippuu käyttötapauksesta: analytiikkasovelluksissa sarakepohjaiset formaatit ovat optimaalisia, kun taas monimutkaisemman datan tallennuksessa ja käsittelyssä JSON ja Avro voivat olla parempia vaihtoehtoja. Jatkossa olisi tärkeää tutkia tiedostoformaattien vaikutusta Big Datan muihin ulottuvuuksiin, kuten tietojen luotettavuuteen ja arvoon. Lisäksi on mahdollista, että tulevaisuudessa kehittyy uusia tiedostoformaatteja, jotka vastaavat entistä paremmin erilaisten sovellusten tarpeisiin.
Kokoelmat
  • Kandidaatintutkielmat [9204]
Kalevantie 5
PL 617
33014 Tampereen yliopisto
oa[@]tuni.fi | Tietosuoja | Saavutettavuusseloste
 

 

Selaa kokoelmaa

TekijätNimekkeetTiedekunta (2019 -)Tiedekunta (- 2018)Tutkinto-ohjelmat ja opintosuunnatAvainsanatJulkaisuajatKokoelmat

Omat tiedot

Kirjaudu sisäänRekisteröidy
Kalevantie 5
PL 617
33014 Tampereen yliopisto
oa[@]tuni.fi | Tietosuoja | Saavutettavuusseloste