Machine Learning-Based Analysis of Electrocardiograms for Anomaly Detection
Salonen, Tommi (2025)
Salonen, Tommi
2025
Tieto- ja sähkötekniikan kandidaattiohjelma - Bachelor's Programme in Computing and Electrical Engineering
Informaatioteknologian ja viestinnän tiedekunta - Faculty of Information Technology and Communication Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2025-06-02
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:tuni-202505306388
https://urn.fi/URN:NBN:fi:tuni-202505306388
Tiivistelmä
Electrocardiograms (ECG) have been used for decades in the study and diagnosis of cardiovascular diseases. Efforts to automate the interpretation of ECG signals have existed for nearly as long. The development of machine learning algorithms has enabled the creation of increasingly accurate and efficient diagnostic systems. This thesis experimentally investigates the ability of various machine learning models to detect anomalies in ECG data. The dataset used in this study was created as a collaboration between the Massachusetts Institute of Technology and Beth Israel Hospital in the 1970s. To ensure comparability, the data is preprocessed and split in a consistent manner across all models. The preprocessing steps include normalization, filtering, segmentation into ten-second samples, and dividing into training and testing sets. In addition, the thesis explores how different feature extraction techniques influence classification performance. The final preprocessing step is varied to assess its effect. The tested methods include Principal Component Analysis (PCA) with various kernel functions, as well as a combination of Fast Fourier Transform (FFT) followed by linear PCA. The machine learning models evaluated in this study are: K-Nearest Neighbors (KNN), Support Vector Machine (SVM), Random Forest (RF), and a 1-Dimensional Convolutional Neural Network (1DCNN). The models’ performance is assessed using five different metrics to provide a comprehensive evaluation. The goal of the thesis is to compare the accuracy of different models and preprocessing combinations, and to identify which approach performs best using relatively simple preprocessing techniques. While the results fall short when compared to state-of-the-art deep neural networks, the simplicity of the models used makes them significantly faster to train. For example, the accuracy of the 1DCNN could be improved substantially by deepening the network and optimizing the preprocessing pipeline specifically for that model. Elektrokardiogrammeja (EKG) on käytetty sydän- ja verisuonitautien tutkimiseen jo vuosikymmeniä. EKG:n tulkinnan automatisointia on yritetty kehittää lähes yhtä kauan. Koneoppimisalgoritmien kehitys on mahdollistanut entistä tarkempien ja tehokkaampien järjestelmien kehityksen. Tässä tutkielmassa tutkitaan kokeellisesti erilaisten koneoppimismallien kykyä tunnistaa poikkeavuuksia elektrokardiogrammidatasta. Tutkielmassa käytetty data on peräisin Massachusetts Institute of Technologyn ja Beth Israel Hospitalin yhteistyössä tuottamasta datasarjasta. Data esikäsitellään ja jaetaan samalla tavalla kaikkien algoritmien käyttöön, jotta tulokset ovat vertailukelpoisia. Datan esikäsittelyyn kuuluu datan normalisointi, suodatus, pilkkominen kymmenen sekunnin näyttesiin sekä jakaminen testaus- ja harjoitusjoukkoihin. Näiden toimenpiteiden jälkeen datalle tehdään pääkomponenttianalyysi. Tutkielmassa selvitetään myös erilaisten esikäsittelytekniikoiden vaikutusta luokittelutuloksiin. Datan esikäsittelyssä muokataan viimeistä vaihetta. Tutkittavat menetelmät ovat pääkomponenttianalyysi erilaisilla ydinfunktioilla, sekä fourier muunnos ennen lineaarista pääkomponenttianalyysiä. Tutkielmassa tutkittavat koneoppimismallit ovat: K-lähimmät naapurit luokittelija, tukivektorikone, satunnaismetsä luokittelija, sekä yksiulotteinen konvoluutio neuroverkko. Mallien suorituskykyä tarkastellaan viidellä erilaisella mittarilla, hyvän kokonaiskuvan muodostamiseksi. Tutkielman tavoitteena on vertailla menetelmien tarkkuutta ja pyrkiä löytämään yksinkertaisilla esikäsittelymetodeilla parhaiten toimiva malli. Uusimpaan tekniikkaan perustuviin syviin neuroverkkoihin verrattuna tulokset ovat verrattain heikkoja, mutta tutkielmassa käytettyjen mallien yksinkertaisuuden vuoksi ne ovat huomattavasti nopeampia opettaa. Esimerkiksi yksiulotteisen konvoluutio neuroverkon tarkkuutta pystyy parantamaan huomattavasti tekemällä siitä syvemmän ja räätälöimällä datan esikäsittelyä paremmin pelkästään tämän mallin käyttöön.
Kokoelmat
- Kandidaatintutkielmat [10016]