Predicting Stock Prices with Investor Trading Behaviour: A Machine Learning Approach
Viitanen, Joona (2023)
Viitanen, Joona
2023
Tuotantotalouden DI-ohjelma - Master's Programme in Industrial Engineering and Management
Johtamisen ja talouden tiedekunta - Faculty of Management and Business
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2023-07-31
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:tuni-202306286968
https://urn.fi/URN:NBN:fi:tuni-202306286968
Tiivistelmä
Stock market prediction has always been considered a difficult task in both academia and industry. Markets have complex dynamics by nature and it is not always clear what drives asset prices. However, the rise of machine learning models has enabled the potential to capture patterns in data that were difficult to uncover using traditional methods. Recently, there has been lots of research about using machine learning methods for different applications in stock markets. However, in behavioural finance and specifically in microstructure literature, machine learning methods remain largely unexplored.
This thesis studies the relationship between investor trading behaviour and stock returns using machine learning methods. The data is from the Finnish stock market between 2000-2009 and the unique dataset was provided by Euroclear Finland Oy. The key questions are 1. How significant is the contemporaneous relation between trading behaviour and stock returns? 2. How significant is the effect of trading behaviour on future returns? and 3. How does the relationship change over different time horizons? The thesis studies 1-day, 5-day and 21-day horizons in both contemporaneous and lead-lag settings using different machine learning models. Logistic regression acted as a benchmark model and a previous period model as a naive model.
The results showed some degree of predictability in stock returns in both contemporary and lead-lag settings. The contemporaneous relationship was stronger as the models were able to beat the naive model by a wide margin. Lead-lag relationship was able to produce results above the naive model, but not by a significant margin. Furthermore, the predictability decreased when the time horizon increased in both settings. Finally, the predictability dropped in the 21-day leadlag setting, as no model was able to beat the naive model. When it comes to the machine learning models, most of the models were able to beat benchmark logistic regression and a naive model in most configurations, suggesting nonlinear interactions in the system. From Ensemble-based methods, LightGBM, Random Forest and XGBoost performed the best, while AdaBoost struggled to beat logistic regression in other than 1-day horizons. Osakemarkkinoiden ennustamista on aina pidetty vaikeana tehtävänä sekä tiedemaailmassa että teollisuudessa. Markkinoiden dynamiikka on luonteeltaan monimutkainen, eikä aina ole selvää, mikä ohjaa arvopapereiden hintoja. Koneoppimismallien nousu on kuitenkin mahdollistanut potentiaalin löytää datasta kaavoja, joita oli vaikea paljastaa perinteisillä menetelmillä. Viime aikoina on tehty paljon tutkimusta koneoppimismenetelmien käytöstä osakemarkkinoilla erilaisiin käyttötarkoitukseen. Behavioraalisessa rahoituksessa ja erityisesti mikrorakennekirjallisuudessa koneoppimismenetelmiä ei kuitenkaan ole käytetty merkittävästi.
Tämä opinnäytetyö tutkii sijoittajien kaupankäyntikäyttäytymisen ja osakkeiden tuottojen välistä suhdetta koneoppimismenetelmillä. Data on Suomen osakemarkkinoilta vuosilta 2000-2009 ja aineiston on toimittanut Euroclear Finland Oy. Keskeiset kysymykset ovat 1. Kuinka merkittävä kaupankäyntikäyttäytymisen ja osaketuottojen samanaikainen suhde on? 2. Kuinka merkittävä vaikutus kaupankäyntikäyttäytymisellä on tulevaisuuden tuottoon? ja 3. Miten vaikutus muuttuu eri aikahorisonteilla? Diplomityössä tutkitaan 1-, 5- ja 21-päivän horisontteja sekä samanaikaisissa että viive-asetuksissa käyttäen erilaisia koneoppimismalleja. Logistinen regressio toimii vertailumallina ja edellisen ajanjakson malli naiivina mallina.
Tulokset osoittivat jonkin verran ennustettavuutta osakkeiden tuotoissa sekä samanaikaisessaettä viive-asetuksissa. Samanaikainen vaikutus oli vahvempi, kun mallit pystyivät voittamaan naiivin mallin laajalla marginaalilla. Lead-lag -asetus pystyi tuottamaan tuloksia naiivin mallin yläpuolella, mutta ei merkittävällä marginaalilla. Lisäksi ennustettavuus heikkeni, kun aikahorisontti kasvoi molemmissa asetuksissa. Lopulta ennustettavuus putosi 21 päivän viive-asetuksella, koska mikään malli ei pystynyt päihittämään naiivia mallia. Koneoppimismalleista useimmat mallit pystyivät päihittämään logistisen regression ja naiivin mallin useimmissa asetuksissa, mikä viittaa epälineaarisiin vuorovaikutuksiin muuttujien välillä. Ensemble-pohjaisista menetelmistä LightGBM, Random Forest ja XGBoost suoriutuivat parhaiten, kun taas AdaBoost ei voittanut logistista regressiota muissa kuin 1 päivän horisontissa.
This thesis studies the relationship between investor trading behaviour and stock returns using machine learning methods. The data is from the Finnish stock market between 2000-2009 and the unique dataset was provided by Euroclear Finland Oy. The key questions are 1. How significant is the contemporaneous relation between trading behaviour and stock returns? 2. How significant is the effect of trading behaviour on future returns? and 3. How does the relationship change over different time horizons? The thesis studies 1-day, 5-day and 21-day horizons in both contemporaneous and lead-lag settings using different machine learning models. Logistic regression acted as a benchmark model and a previous period model as a naive model.
The results showed some degree of predictability in stock returns in both contemporary and lead-lag settings. The contemporaneous relationship was stronger as the models were able to beat the naive model by a wide margin. Lead-lag relationship was able to produce results above the naive model, but not by a significant margin. Furthermore, the predictability decreased when the time horizon increased in both settings. Finally, the predictability dropped in the 21-day leadlag setting, as no model was able to beat the naive model. When it comes to the machine learning models, most of the models were able to beat benchmark logistic regression and a naive model in most configurations, suggesting nonlinear interactions in the system. From Ensemble-based methods, LightGBM, Random Forest and XGBoost performed the best, while AdaBoost struggled to beat logistic regression in other than 1-day horizons.
Tämä opinnäytetyö tutkii sijoittajien kaupankäyntikäyttäytymisen ja osakkeiden tuottojen välistä suhdetta koneoppimismenetelmillä. Data on Suomen osakemarkkinoilta vuosilta 2000-2009 ja aineiston on toimittanut Euroclear Finland Oy. Keskeiset kysymykset ovat 1. Kuinka merkittävä kaupankäyntikäyttäytymisen ja osaketuottojen samanaikainen suhde on? 2. Kuinka merkittävä vaikutus kaupankäyntikäyttäytymisellä on tulevaisuuden tuottoon? ja 3. Miten vaikutus muuttuu eri aikahorisonteilla? Diplomityössä tutkitaan 1-, 5- ja 21-päivän horisontteja sekä samanaikaisissa että viive-asetuksissa käyttäen erilaisia koneoppimismalleja. Logistinen regressio toimii vertailumallina ja edellisen ajanjakson malli naiivina mallina.
Tulokset osoittivat jonkin verran ennustettavuutta osakkeiden tuotoissa sekä samanaikaisessaettä viive-asetuksissa. Samanaikainen vaikutus oli vahvempi, kun mallit pystyivät voittamaan naiivin mallin laajalla marginaalilla. Lead-lag -asetus pystyi tuottamaan tuloksia naiivin mallin yläpuolella, mutta ei merkittävällä marginaalilla. Lisäksi ennustettavuus heikkeni, kun aikahorisontti kasvoi molemmissa asetuksissa. Lopulta ennustettavuus putosi 21 päivän viive-asetuksella, koska mikään malli ei pystynyt päihittämään naiivia mallia. Koneoppimismalleista useimmat mallit pystyivät päihittämään logistisen regression ja naiivin mallin useimmissa asetuksissa, mikä viittaa epälineaarisiin vuorovaikutuksiin muuttujien välillä. Ensemble-pohjaisista menetelmistä LightGBM, Random Forest ja XGBoost suoriutuivat parhaiten, kun taas AdaBoost ei voittanut logistista regressiota muissa kuin 1 päivän horisontissa.