Dynamic Topic Modeling and Clustering : Dynamic Topic Modeling and Clustering of Occupational Health and Safety Publications
Eskonen, Jaakko (2022)
Eskonen, Jaakko
2022
Master's Programme in Computational Big Data Analytics
Informaatioteknologian ja viestinnän tiedekunta - Faculty of Information Technology and Communication Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2022-05-25
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:tuni-202204263608
https://urn.fi/URN:NBN:fi:tuni-202204263608
Tiivistelmä
In recent years, natural language processing has advanced by creating new ways of modeling text using deep neural networks. These new models have demonstrated state of-the-art performance in several natural language processing tasks. However, traditional probabilistic models are still the most widely used ways to search for topics in texts. Since these new text modeling methods can be utilized for clustering, in this thesis I aim to combine clustering and traditional probabilistic models to study how the topics in occupational health and safety publications have evolved over time.
The techniques I used for this purpose were dynamic topic modeling, the BERTopic clustering technique with BERT embeddings and tf-idf embeddings. These methods were compared and combined to get a further understanding of these techniques and the topics in the publications. I studied the topics found with different techniques and for clustering methods, I compared how the topics found in the different models were distributed within the clusters.
As a result, I got a broad picture of the development of occupational health and safety publications over time. I also found out what problems can occur with clustering techniques for this purpose. Viime vuosina luonnollisen kielen käsittely on ottanut suuria askeleita eteenpäin. Tätä on edistänyt uudet tavat mallintaa tekstiä syvien neuroverkkojen avulla. Nämä uudet mallit ovat osoittaneet huippuluokan suorituskykyä useissa luonnollisen kielen käsittely tehtävissä. Perinteiset todennäköisyysmallit ovat kuitenkin edelleen yleisimmin käytetty tapa etsiä aiheita teksteistä. Näitä uusia menetelmiä voidaan kuitenkin hyödyntää klusteroinnissa ja tässä opinnäytetyössä yhdistetään klusterointia ja perinteisiä todennäköisyys malleja sen tutkimiseen, miten työterveys- ja työturvallisuusjulkaisujen aiheet ovat kehittyneet ajan myötä.
Tutkimuksessa käytettiin dynaamista aihemallinnusta sekä BERTopic-klusterointimenetelmää BERT- mallinnuksella ja tf-idf- mallinnuksella. Näitä menetelmiä verrattiin ja yhdistettiin, jotta saatiin lisätietoa näistä tekniikoista ja julkaisujen aiheista. Tutkin eri tekniikoilla löydettyjä aiheita ja klusterointimenetelmien osalta vertailin, miten eri malleissa löydetyt aiheet jakautuivat klustereiden sisällä.
Tuloksena saatiin kuva työterveys- ja työturvallisuusjulkaisujen kehityksestä. Tutkimuksessa saatiin myös selville, mitä ongelmia klusterointimenetelmissä voi esiintyä.
The techniques I used for this purpose were dynamic topic modeling, the BERTopic clustering technique with BERT embeddings and tf-idf embeddings. These methods were compared and combined to get a further understanding of these techniques and the topics in the publications. I studied the topics found with different techniques and for clustering methods, I compared how the topics found in the different models were distributed within the clusters.
As a result, I got a broad picture of the development of occupational health and safety publications over time. I also found out what problems can occur with clustering techniques for this purpose.
Tutkimuksessa käytettiin dynaamista aihemallinnusta sekä BERTopic-klusterointimenetelmää BERT- mallinnuksella ja tf-idf- mallinnuksella. Näitä menetelmiä verrattiin ja yhdistettiin, jotta saatiin lisätietoa näistä tekniikoista ja julkaisujen aiheista. Tutkin eri tekniikoilla löydettyjä aiheita ja klusterointimenetelmien osalta vertailin, miten eri malleissa löydetyt aiheet jakautuivat klustereiden sisällä.
Tuloksena saatiin kuva työterveys- ja työturvallisuusjulkaisujen kehityksestä. Tutkimuksessa saatiin myös selville, mitä ongelmia klusterointimenetelmissä voi esiintyä.