Text Representation Methods for Big Social Data
Skënderi, Erjon (2023)
Skënderi, Erjon
Tampere University
2023
Tieto- ja sähkötekniikan tohtoriohjelma - Doctoral Programme in Computing and Electrical Engineering
Informaatioteknologian ja viestinnän tiedekunta - Faculty of Information Technology and Communication Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Väitöspäivä
2023-08-25
Julkaisun pysyvä osoite on
https://urn.fi/URN:ISBN:978-952-03-2976-1
https://urn.fi/URN:ISBN:978-952-03-2976-1
Tiivistelmä
Digitaalisten alustojen laajamittainen käyttö ja käyttäjien tuottaminen verkkoaineistojen ekspotentiaalinen kasvu ovat lisänneet tarvetta kehittää tehokkaita menetelmiä laajojen tietoaineistojen hallintaan ja analyysiin. Osa tästä tiedosta on käyttäjien tuottamia viestejä, jotka ovat pääsääntöisesti tekstimuotoisia. Hallinta- ja analyysimenetelmien kehittäminen edellyttää tekstimuotoisen sisällön esittämistä numeerisesti siten, että sitä voidaan käsitellä koneoppimisalgoritmeilla. Tässä väitöskirjassa arvioidaan tekstinesitysmenetelmien soveltuvuutta erilaisilta verkkoalustoilta kerätyissä datakonteksteissa, joihin tässä työssä viitataan sosiaalisena massadatana. Väitöskirjatutkimuksen tavoitteena on tunnistaa soveltuvia tekstinesitysmenetelmiä erilaisiin tekstianalyysitehtäviin. Toiseksi tutkimuksessa selvitetään, miten tekstin esitysmenetelmät soveltuvat sosiaalisen sovittamisen toteuttamiseen mikroblogialustoilla. Kolmanneksi väitöskirja esittelee lähestymistavan, joka yhdistää erilaisia tekstinesittämismenetelmiä siten, että niiden yksittäiset vahvuudet hyödynnetään parhaalla mahdollisella tavalla suorituskyvyn edistämiseksi.
Tekstinesitämismenetelmiä arvioitiin kahdessa moniluokittelusovelluksessa ja yhdessä viestien kaksoiskappaleiden tunnistustehtävässä. Ensimmäinen moniluokittelija käytti kuutta eri tekstinesittämismenetelmää viestien aihetunnisteiden ennustamisessa kysymys- ja vastausverkkopalstalta kerätyssä aineistossa. Toinen sovellus arvioi neljää luokittelumallia avainsanojen suosittelemisessa kyselytietokannan hallinnan edistämiseksi. Perinteiset tekstinesittämismenetelmät suoriutuivat paremmin toisessa moniluokittelijassa, kun taas neuroverkkopohjainen ratkaisu tuotti parempia tuloksia toisteisten viestien luokittelutehtävässä.
Tekstinesittämismenetelmien rajoitteiden kiertämiseksi tämä väitöskirjatutkimus selvittää mahdollisuutta rinnakkaisten tekstinesittämismenetelmien integroimiseksi siten, että yksittäisten menetelmien vahvuudet tulevat hyödynnetyksi parhaalla mahdollisella tavalla. Tämän saavuttamiseksi tutkimus esittelee sovelluskehyksen, joka hyödyntää joukkio-oppimislähestymistapaa toisteisten viestien luokittelutehtävässä.
Tekstinesitämismenetelmiä arvioitiin kahdessa moniluokittelusovelluksessa ja yhdessä viestien kaksoiskappaleiden tunnistustehtävässä. Ensimmäinen moniluokittelija käytti kuutta eri tekstinesittämismenetelmää viestien aihetunnisteiden ennustamisessa kysymys- ja vastausverkkopalstalta kerätyssä aineistossa. Toinen sovellus arvioi neljää luokittelumallia avainsanojen suosittelemisessa kyselytietokannan hallinnan edistämiseksi. Perinteiset tekstinesittämismenetelmät suoriutuivat paremmin toisessa moniluokittelijassa, kun taas neuroverkkopohjainen ratkaisu tuotti parempia tuloksia toisteisten viestien luokittelutehtävässä.
Tekstinesittämismenetelmien rajoitteiden kiertämiseksi tämä väitöskirjatutkimus selvittää mahdollisuutta rinnakkaisten tekstinesittämismenetelmien integroimiseksi siten, että yksittäisten menetelmien vahvuudet tulevat hyödynnetyksi parhaalla mahdollisella tavalla. Tämän saavuttamiseksi tutkimus esittelee sovelluskehyksen, joka hyödyntää joukkio-oppimislähestymistapaa toisteisten viestien luokittelutehtävässä.
Kokoelmat
- Väitöskirjat [5033]