Jätevesipumppaamojen ylivuotojen ennustaminen
Hämäläinen, Eveliina (2026)
Hämäläinen, Eveliina
2026
Automaatiotekniikan DI-ohjelma - Master's Programme in Automation Engineering
Tekniikan ja luonnontieteiden tiedekunta - Faculty of Engineering and Natural Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2026-03-09
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:tuni-202603063026
https://urn.fi/URN:NBN:fi:tuni-202603063026
Tiivistelmä
Jätevesipumppaamot ovat tärkeässä roolissa vesihuollossa ja ovat näin ollen osa kriittistä infrastruktuuria. Jätevesipumppaamoilla ilmenee ylivuotoja, jotka voivat aiheutua pumppaamon rikkoutumisesta, sähkökatkoista tai sääilmiöistä kuten voimakkaista sateista ja lumen sulamisesta. Ylivuototilanteessa jätevesi purkautuu suoraan maastoon, varasäiliöön tai vesistöön. Ylivuodot voivat aiheuttaa terveydellisiä, ympäristöllisiä, taloudellisia ja vesihuoltolaitoksen maineeseen liittyviä haittoja. Ympäristösuojelulain mukaan toiminnanharjoittajien eli tässä tapauksessa vesihuoltolaitosten tulee järjestää toimintansa niin, että ympäristön pilaantuminen voidaan ehkäistä ennakolta tai mikäli pilaantumista ei voida kokonaan ehkäistä niin se on rajoitettava mahdollisimman vähäiseksi. Jos ylivuodot olisivat ennustettavissa tarpeeksi luotettavasti, voitaisiin tehdä mahdollisesti dataperusteisia ennakoivia päätöksiä ja toimenpiteitä ylivuotojen ehkäisemiseksi.
Tämän työn tavoitteena on tutkia millaisilla malleilla ja kuinka ylivuotoja voidaan ennustaa. Lisäksi tutkitaan miten luotettavasti ylivuotoja voidaan ennustaa, kuinka suuri osa ylivuodoista saadaan ennustettua ja mitä tietoja ennustamiseen vaaditaan. Työn tavoitteena on ennustaa ylivuotoja 24 tunnin päähän. Työssä käytettävät mallit valittiin datalle tehdyn analyysin ja aikaisempien tutkimusten ja alan kirjallisuuden perusteella.
Työssä tutkittiin viiden eri vesihuoltolaitoksen jätevesipumppaamoiden automaatiosta saatavaa dataa ja Ilmatieteen laitoksen havaintoasemilta saatavaa dataa. Tarkasteltava data oli aika sarjamuotoista dataa. Työssä valittiin tarkasteltaviksi pumppaamoiksi kolme eri pumppaamoa ylivuotomäärien perusteella. Tapahtuneet ylivuodot voidaan päätellä pumppaamon pinnankorkeuden maksimista tiedetyn ylivuotorajan perusteella. Työssä ennustettiin kunkin pumppaamon pinnankorkeuden maksimia.
Työssä käytettäviksi malleiksi valikoituivat ARIMAX-, XGBoost- ja LSTM-mallit. XGBoost- ja LSTM-mallit toimivat työssä ARIMAX-mallien vertailumalleina. Kullekin mallille annettiin erilaisia piirteitä, jotka vaikuttavat pinnankorkeuden maksimin ennustamiseen. ARIMAX-malleille suoritettiin syvällistä analyysiä. ARIMAX-malleille tehtiin residuaalianalyysiä ja malleille toteutettiin simuloinnit historiaan ja malleille uudelle datalle ”tulevaisuuteen”. Työssä vertailtiin ARIMAX-, XGBoost- ja LSTM-mallien tuottamia ennusteita 5, 12 ja 24 tunnin ennustehorisonteilla. Ennusteiden tarkkuutta vertailtiin vertaamalla ennusteiden tuottamia tuloksia todellisiin arvoihin. Malleja vertailtiin myös RMSE-, MAE- ja R2-suorituskykymittareiden perusteella sekä sen perusteella kuinka monta ylivuotoa malli ennusti oikein ja virheellisesti.
Kaikkien pumppaamoiden mallien tuottamat ennusteet 24 tunnin ennustehorisontilla olivat heikkoja. Ennusteet olivat niin heikkoja, että mallit eivät ole käyttökelpoisia ennustamiseen. XGBoost-malli tuotti kaikkien pumppaamoiden tapauksessa heikoimpia ennusteita. Ensimmäisen tarkasteltavan pumppaamon tapauksessa ARIMAX-malli ennusti enemmän ylivuotoja kuin LSTM-malli mutta LSTM-malli suoriutui paremmin suorituskykymittareiden ja ennusteen myöhäisyyden perusteella. Toisen tarkasteltavan pumppaamon tapauksessa parhaiten suoriutui LSTM-malli. Toisen tarkasteltavan pumppaamon tapauksessa 24 tunnin ennustehorisontilla yksikään malli ei onnistunut ennustamaan yhtäkään ylivuotoa. Kolmannen tarkasteltavan pumppaamon tapauksessa parhaiten suoriutui ARIMAX-malli. Kolmannen pumppaamon tapauksessa malleille aiheutti haasteita pinnankorkeuden maksimin aikasarjassa esiintyvät tiheään ja suuresti vaihtelevat arvot. Wastewater pumping stations play an important role in water supply and are therefore part of critical infrastructure. Pumping stations may overflow. Overflows can be caused by a pump station failure, power outages, or weather events such as heavy rain and melting snow. In an overflow situation, wastewater is discharged directly into the ground, into a reserve tank or into a water course. Overflows can cause health, environmental and economic harm. Additionally, they can cause reputational harm to the water supply companies. According to the Finland’s Environmental Protection Act, actors, in this case water supply companies, must organize their operations so that environmental pollution can be prevented in advance or, if pollution cannot be prevented completely, it must be limited to the minimum that is possible. If overflows could be predicted reliably enough, data-based proactive decisions and measures could potentially be made to prevent overflows.
The aim of this work is to examine which kind of models can be used to predict overflows and how overflows can be predicted. In addition, this work examines how reliably overflows can be predicted, how many overflows can be predicted and what information is required for prediction. The aim of the work is to predict overflows 24 hours in advance. The models used in the work were selected based on the analysis of the data and previous research and literature of the field.
The work examined data from the automation systems of pumping stations and data from Finnish Meteorological Institute. The examined data was time series data. Three different wastewater pumping stations were selected based on number of overflows for this work. The overflows can be inferred from the maximum water level of the pumping station based on the overflow limit. The maximum water level of each pumping station was predicted in this work.
ARIMAX, XGBoost and LSTM were selected as the models to be used in this work. XGBoost and LSTM models acted as reference models for ARIMAX models. Each model was given different features that influenced the prediction of maximum water level. ARIMAX models were analyzed more deeply than XGBoost and LSTM models. ARIMAX models were analyzed with residual analysis and simulations were implemented for the models. In this work the accuracy of 5-, 12- and 24-hours predictions of ARIMAX, XGBoost and LSTM models were compared. Accuracy of the predictions was done by comparing the results of the predictions with the actual values. Additionally, the models were compared based on the RMSE, MAE and R2 metrics, as well as how many overflows the model predicted correctly and incorrectly.
The forecasts produced by all models of the pumping stations over the 24-hour forecast horizon were weak. The forecasts were so weak that models are not useful for predicting. XGBoost model produced the weakest predictions in case of every pumping station. In case of the first pumping station, ARIMAX model predicted more overflows than LSTM model, but LSTM model performed better based on performance metrics and lateness of the forecast. In case of the second pumping station, no model managed to predict a single overflow. In case of the third pumping station, model that performed best was ARIMAX model. The models of this pumping station were challenged by values that vary frequently and greatly.
Tämän työn tavoitteena on tutkia millaisilla malleilla ja kuinka ylivuotoja voidaan ennustaa. Lisäksi tutkitaan miten luotettavasti ylivuotoja voidaan ennustaa, kuinka suuri osa ylivuodoista saadaan ennustettua ja mitä tietoja ennustamiseen vaaditaan. Työn tavoitteena on ennustaa ylivuotoja 24 tunnin päähän. Työssä käytettävät mallit valittiin datalle tehdyn analyysin ja aikaisempien tutkimusten ja alan kirjallisuuden perusteella.
Työssä tutkittiin viiden eri vesihuoltolaitoksen jätevesipumppaamoiden automaatiosta saatavaa dataa ja Ilmatieteen laitoksen havaintoasemilta saatavaa dataa. Tarkasteltava data oli aika sarjamuotoista dataa. Työssä valittiin tarkasteltaviksi pumppaamoiksi kolme eri pumppaamoa ylivuotomäärien perusteella. Tapahtuneet ylivuodot voidaan päätellä pumppaamon pinnankorkeuden maksimista tiedetyn ylivuotorajan perusteella. Työssä ennustettiin kunkin pumppaamon pinnankorkeuden maksimia.
Työssä käytettäviksi malleiksi valikoituivat ARIMAX-, XGBoost- ja LSTM-mallit. XGBoost- ja LSTM-mallit toimivat työssä ARIMAX-mallien vertailumalleina. Kullekin mallille annettiin erilaisia piirteitä, jotka vaikuttavat pinnankorkeuden maksimin ennustamiseen. ARIMAX-malleille suoritettiin syvällistä analyysiä. ARIMAX-malleille tehtiin residuaalianalyysiä ja malleille toteutettiin simuloinnit historiaan ja malleille uudelle datalle ”tulevaisuuteen”. Työssä vertailtiin ARIMAX-, XGBoost- ja LSTM-mallien tuottamia ennusteita 5, 12 ja 24 tunnin ennustehorisonteilla. Ennusteiden tarkkuutta vertailtiin vertaamalla ennusteiden tuottamia tuloksia todellisiin arvoihin. Malleja vertailtiin myös RMSE-, MAE- ja R2-suorituskykymittareiden perusteella sekä sen perusteella kuinka monta ylivuotoa malli ennusti oikein ja virheellisesti.
Kaikkien pumppaamoiden mallien tuottamat ennusteet 24 tunnin ennustehorisontilla olivat heikkoja. Ennusteet olivat niin heikkoja, että mallit eivät ole käyttökelpoisia ennustamiseen. XGBoost-malli tuotti kaikkien pumppaamoiden tapauksessa heikoimpia ennusteita. Ensimmäisen tarkasteltavan pumppaamon tapauksessa ARIMAX-malli ennusti enemmän ylivuotoja kuin LSTM-malli mutta LSTM-malli suoriutui paremmin suorituskykymittareiden ja ennusteen myöhäisyyden perusteella. Toisen tarkasteltavan pumppaamon tapauksessa parhaiten suoriutui LSTM-malli. Toisen tarkasteltavan pumppaamon tapauksessa 24 tunnin ennustehorisontilla yksikään malli ei onnistunut ennustamaan yhtäkään ylivuotoa. Kolmannen tarkasteltavan pumppaamon tapauksessa parhaiten suoriutui ARIMAX-malli. Kolmannen pumppaamon tapauksessa malleille aiheutti haasteita pinnankorkeuden maksimin aikasarjassa esiintyvät tiheään ja suuresti vaihtelevat arvot.
The aim of this work is to examine which kind of models can be used to predict overflows and how overflows can be predicted. In addition, this work examines how reliably overflows can be predicted, how many overflows can be predicted and what information is required for prediction. The aim of the work is to predict overflows 24 hours in advance. The models used in the work were selected based on the analysis of the data and previous research and literature of the field.
The work examined data from the automation systems of pumping stations and data from Finnish Meteorological Institute. The examined data was time series data. Three different wastewater pumping stations were selected based on number of overflows for this work. The overflows can be inferred from the maximum water level of the pumping station based on the overflow limit. The maximum water level of each pumping station was predicted in this work.
ARIMAX, XGBoost and LSTM were selected as the models to be used in this work. XGBoost and LSTM models acted as reference models for ARIMAX models. Each model was given different features that influenced the prediction of maximum water level. ARIMAX models were analyzed more deeply than XGBoost and LSTM models. ARIMAX models were analyzed with residual analysis and simulations were implemented for the models. In this work the accuracy of 5-, 12- and 24-hours predictions of ARIMAX, XGBoost and LSTM models were compared. Accuracy of the predictions was done by comparing the results of the predictions with the actual values. Additionally, the models were compared based on the RMSE, MAE and R2 metrics, as well as how many overflows the model predicted correctly and incorrectly.
The forecasts produced by all models of the pumping stations over the 24-hour forecast horizon were weak. The forecasts were so weak that models are not useful for predicting. XGBoost model produced the weakest predictions in case of every pumping station. In case of the first pumping station, ARIMAX model predicted more overflows than LSTM model, but LSTM model performed better based on performance metrics and lateness of the forecast. In case of the second pumping station, no model managed to predict a single overflow. In case of the third pumping station, model that performed best was ARIMAX model. The models of this pumping station were challenged by values that vary frequently and greatly.
