Energy Efficiency of Data Storage Systems in Cluster Computing
Tuominen, Mikko Rikhartti (2011)
Tuominen, Mikko Rikhartti
2011
Tietotekniikan koulutusohjelma
Tieto- ja sähkötekniikan tiedekunta - Faculty of Computing and Electrical Engineering
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2011-06-08
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:tty-2011061714718
https://urn.fi/URN:NBN:fi:tty-2011061714718
Tiivistelmä
Energy efficiency is an important part of the development of any technology. Cluster computing is no exception. As the energy prices rise, the costs of running a cluster can easily overcome the costs of buying one. A euro saved is a euro earned.
This thesis examines and compares different hardware level approaches and software level configurations used in clusters to storage data. Solid state drives are not commonly used in clusters and one of the goals of this thesis is to study whether or not this relatively new technology is suitable to be used in clusters. The main goal is to understand what affects to the energy efficiency of a cluster from a data storage point of view. To reach these goals, the performance and energy consumption of a cluster, with different system configurations, is measured and analysed. These results can further be used to optimise existing clusters.
The thesis is divided into two parts. In the literature study part, issues related to energy efficiency, data storage models, block devices, file systems and I/O schedulers are studied. In the experimental part, the test environment is introduced in detail and the results are reported and analysed. The tests are conducted using the CMS software with real LHC data to simulate heavy physics computing. During these tests, both hard disk and solid state drives are used with three different data storage schemes; a distributed approach with GlusterFS (a distributed file system) on compute nodes, a centralised approach with dedicated file server and a local approach with drives in the compute nodes of the cluster.
The test results reveal that no significant gain is achieved by using solid state drives. Another key result is that a cluster can suffer from a major performance loss if the file system and I/O scheduler is not properly selected. The conclusion of this thesis is, that although there is no fundamental reason why solid state drives should not be used in clusters, considering the multifold price and low capacity compared to hard disk drives, it is not justifiable. As the development of solid state drives progress, a new study is in order. If the prices decline and storage capacity increases, solid state drives could abolish mechanical drives. /Kir11 Energiatehokkuus on tärkeä osa-alue minkä tahansa teknologian kehityksessä, eikä klusterilaskenta tee tähän poikkeusta. Energian hinnan noustessa klusterin ylläpidon kustannukset ylittävät helposti sen hankkimiseen tarvittavat kustannukset. Jokainen säästetty euro on samanarvoinen kuin ansaittu euro.
Tämä työ tarkastelee ja vertailee erilaisia laite- ja ohjelmistotason ratkaisuja, joita käytetään klusterilaskennassa datan tallentamiseen. SSD-levyjä ei yleisesti käytetä klustereissa ja yksi tämän työn päämääristä onkin selvittää soveltuuko tämä suhteellisen uusi tekniikka käytettäväksi klustereissa. Tärkein päämäärä on ymmärtää mitkä seikat vaikuttavat klusterin energiatehokkuuteen datan tallennuksen näkökulmasta. Näiden päämäärien saavuttamiseksi klusterin tehokkuutta ja energian kulutusta mitataan ja arvioidaan eri kokoonpanoilla. Tästä saatuja tuloksia voidaan käyttää energiatehokkuuden optimointiin muissa klustereissa.
Työ on jaettu kahteen osaan. Taustatietoja tutkivassa kirjallisuusosassa paneudutaan asioihin, jotka liittyvät energiatehokkuuteen, datan tallennusmalleihin, levyihin, tiedostojärjestelmiin ja levyskedulereihin. Kokeellisessa osassa esitetään testiympäristö sekä raportoidaan ja analysoidaan työn tulokset. Testien suorittamisessa käytetään apuna CERNin CMS-ohjelmistoa ja LHC:n tuottamaa dataa mallintamaan raskasta fysiikkalaskentaa. Testeissä käytetään sekä SSD-levyjä että perinteisiä kiintolevyjä yhdessä kolmen erilaisen datan tallennusmallin kanssa. Tähän kuuluvat hajautettuun tiedostojärjestelmään, levypalvelimeen ja paikalliseen levyyn pohjautuvat ratkaisut.
Tulokset paljastavat, että SSD-levyjen käytöllä ei saavuteta merkittävää etua. Toinen tärkeä tulos on, että huomattava osa klusterin kapasiteetista voi jäädä käyttämättä, mikäli tiedostojärjestelmä ja levyskeduleri eivät ole huolella valittuja. Työn johtopäätös on, että vaikka mitään estettä SSD-levyjen käytölle ei ole, kun otetaan huomioon sekä levyjen hinta että kapasiteetti, ei niiden käyttö ole perusteltua. Kun SSD-levyjen kehitys etenee, on syytä arvioida tilanne uudelleen. Mikäli hinnat laskevat ja tallennuskapasiteetti kasvaa, voi mekaaninen kiintolevy siirtyä historiaan.
This thesis examines and compares different hardware level approaches and software level configurations used in clusters to storage data. Solid state drives are not commonly used in clusters and one of the goals of this thesis is to study whether or not this relatively new technology is suitable to be used in clusters. The main goal is to understand what affects to the energy efficiency of a cluster from a data storage point of view. To reach these goals, the performance and energy consumption of a cluster, with different system configurations, is measured and analysed. These results can further be used to optimise existing clusters.
The thesis is divided into two parts. In the literature study part, issues related to energy efficiency, data storage models, block devices, file systems and I/O schedulers are studied. In the experimental part, the test environment is introduced in detail and the results are reported and analysed. The tests are conducted using the CMS software with real LHC data to simulate heavy physics computing. During these tests, both hard disk and solid state drives are used with three different data storage schemes; a distributed approach with GlusterFS (a distributed file system) on compute nodes, a centralised approach with dedicated file server and a local approach with drives in the compute nodes of the cluster.
The test results reveal that no significant gain is achieved by using solid state drives. Another key result is that a cluster can suffer from a major performance loss if the file system and I/O scheduler is not properly selected. The conclusion of this thesis is, that although there is no fundamental reason why solid state drives should not be used in clusters, considering the multifold price and low capacity compared to hard disk drives, it is not justifiable. As the development of solid state drives progress, a new study is in order. If the prices decline and storage capacity increases, solid state drives could abolish mechanical drives. /Kir11
Tämä työ tarkastelee ja vertailee erilaisia laite- ja ohjelmistotason ratkaisuja, joita käytetään klusterilaskennassa datan tallentamiseen. SSD-levyjä ei yleisesti käytetä klustereissa ja yksi tämän työn päämääristä onkin selvittää soveltuuko tämä suhteellisen uusi tekniikka käytettäväksi klustereissa. Tärkein päämäärä on ymmärtää mitkä seikat vaikuttavat klusterin energiatehokkuuteen datan tallennuksen näkökulmasta. Näiden päämäärien saavuttamiseksi klusterin tehokkuutta ja energian kulutusta mitataan ja arvioidaan eri kokoonpanoilla. Tästä saatuja tuloksia voidaan käyttää energiatehokkuuden optimointiin muissa klustereissa.
Työ on jaettu kahteen osaan. Taustatietoja tutkivassa kirjallisuusosassa paneudutaan asioihin, jotka liittyvät energiatehokkuuteen, datan tallennusmalleihin, levyihin, tiedostojärjestelmiin ja levyskedulereihin. Kokeellisessa osassa esitetään testiympäristö sekä raportoidaan ja analysoidaan työn tulokset. Testien suorittamisessa käytetään apuna CERNin CMS-ohjelmistoa ja LHC:n tuottamaa dataa mallintamaan raskasta fysiikkalaskentaa. Testeissä käytetään sekä SSD-levyjä että perinteisiä kiintolevyjä yhdessä kolmen erilaisen datan tallennusmallin kanssa. Tähän kuuluvat hajautettuun tiedostojärjestelmään, levypalvelimeen ja paikalliseen levyyn pohjautuvat ratkaisut.
Tulokset paljastavat, että SSD-levyjen käytöllä ei saavuteta merkittävää etua. Toinen tärkeä tulos on, että huomattava osa klusterin kapasiteetista voi jäädä käyttämättä, mikäli tiedostojärjestelmä ja levyskeduleri eivät ole huolella valittuja. Työn johtopäätös on, että vaikka mitään estettä SSD-levyjen käytölle ei ole, kun otetaan huomioon sekä levyjen hinta että kapasiteetti, ei niiden käyttö ole perusteltua. Kun SSD-levyjen kehitys etenee, on syytä arvioida tilanne uudelleen. Mikäli hinnat laskevat ja tallennuskapasiteetti kasvaa, voi mekaaninen kiintolevy siirtyä historiaan.