On text document classification and retrieval using self-organising maps
Saarikoski, Jyri (2014)
Saarikoski, Jyri
Tampere University Press
2014
Tietojenkäsittelyoppi - Computer Science
Informaatiotieteiden yksikkö - School of Information Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Väitöspäivä
2014-11-17
Julkaisun pysyvä osoite on
https://urn.fi/URN:ISBN:978-951-44-9627-1
https://urn.fi/URN:ISBN:978-951-44-9627-1
Tiivistelmä
Tekstidokumenttien automaattista luokittelua ja tiedonhakua itseorganisoituvilla kartoilla
Tutkimus käsittelee sähköisessä muodossa olevien tekstidokumenttien automaattista luokittelua ja tiedonhakua. Tekstidokumenttien automaattisessa luokittelussa tavoitteena on kehittää tietokoneohjelma, joka pystyy oppimaan saatavilla olevan valmiiksi luokitellun dokumenttiaineiston pohjalta sen eri luokkien ominaisuudet, ja tämän jälkeen ennustamaan mahdollisimman tarkasti entuudestaan tuntemattomien dokumenttien luokitukset. Tiedonhaussa puolestaan pyritään kehittämään hakukone, joka, esimerkiksi sanahaun perusteella, löytää mahdollisimman hyvin hakua vastaavia tekstidokumentteja.
Väitöskirjatutkimuksessa on keskitytty itseorganisoituvien karttojen käyttämiseen tekstidokumenttien automaattisessa luokittelussa ja tiedonhaussa. Itseorganisoituvat kartat on ohjaamaton koneoppimismenetelmä, mikä tarkoittaa, että menetelmä ei käytä oppimisvaiheessa lainkaan hyväkseen tietoa opetusaineiston näytteiden luokituksesta, vaan perustaa oppimisensa ainoastaan näytteiden ominaisuuksiin. Ohjatut menetelmät puolestaan käyttävät hyväkseen näytteiden ominaisuuksia sekä tietoa niiden luokituksesta. Itseorganisoituvia karttoja on käytetty aiemmin runsaasti erilaisten aineistojen ryhmittelyyn ja visualisointiin, mutta melko harvoin tekstidokumenttien luokittelussa ja erittäin vähän tiedonhaussa. Erityisesti vertailutuloksia muihin koneoppimismenetelmiin verrattuna on aiemmin ollut saatavilla rajoitetusti. Tutkimuksen päätavoitteena olikin verrata itseorganisoituvien karttojen suorituskykyä muihin tunnettuihin koneoppimismenetelmiin, sekä ohjattuihin että ohjaamattomiin, erilaisissa dokumenttiaineistoissa. Pääosa tutkimuksessa käytetyistä tekstidokumenttiaineistoista koostui elektronisista sanomalehtiartikkeleista, jotka jakautuivat luokkiin niihin liittyvien aihepiirien mukaisesti. Tyypillisiä luokkia olivat esimerkiksi politiikka, urheilu ja talous, sekä näiden erilaiset alakategoriat. Sanomalehtiaineistojen lisäksi käytettiin myös yhtä internetin uutisryhmän viesteistä koostuvaa aineistoa, jossa luokkina toimivat uutisryhmän aihepiirit.
Väitöstutkimus koostui viidestä osajulkaisusta, joista ensimmäinen käsitteli tekstidokumenttien tiedonhakua ja loput neljä tekstidokumenttien luokittelua. Ensimmäisessä julkaisussa tutkimuksen tekijä kehitti itseorganisoituviin karttoihin perustuvan hakukoneprototyypin, jota testattiin saksankielisellä uutisdokumenttiaineistolla. Tuloksia verrattiin kahden muun ohjaamattoman koneoppimismenetelmän hakutuloksiin. Tulokset olivat lupaavia, sillä itseorganisoituvat kartat kykenivät löytämään hyödyllisiä dokumentteja sanahakujen perusteella. Vertailumenetelmiin nähden kartat suoriutuivat tasaväkisesti. Tutkimuksessa ilmeni, että hakutulos oli hyvä, jos tiettyyn aiheeseen liittyvät dokumentit ryhmittyivät kartalla tiiviisti lähekkäin, mistä johtuen dokumenttien ryhmittelyyn perustuva luokittelu valittiin tutkimuskohteeksi myöhemmissä julkaisuissa. Itseorganisoituvien karttojen dokumenttien luokittelukykyä testattiin kaikkiaan neljässä osajulkaisussa ja neljällä eri uutisaineistolla, joihin sisältyi englanninkielisiä, saksankielisiä ja espanjankielisiä aineistoja. Luokittelua testattiin tilanteissa, joissa dokumenttiluokkien lukumäärä vaihteli välillä 2-20. Suurimmassa testatussa aineistossa oli 18774 dokumenttia. Itseorganisoituvien karttojen luokittelutuloksia verrattiin yhteensä kahdeksaan tunnettuun koneoppimismenetelmään, joista osa oli ohjattuja ja osa ohjaamattomia menetelmiä. Itseorganisoituvat kartat suoriutuivat pääosin luokittelusta erittäin hyvin, yli 90%:n luokittelutarkkuudella, ja olivat kokonaisuutena paras testatuista ohjaamattomista menetelmistä. Joissain tilanteissa kartat suoriutuivat myös vertailukelpoisesti ohjattuihin menetelmiin verrattuna. Tutkimuksen tekijä kehitti myös uuden karttajoukkoihin perustuvan luokitusmenetelmän, joka paransi itseorganisoituvien karttojen luokituskykyä ja menestyi testatussa aineistossa yhtä hyvin kuin parhaat ohjatut menetelmät.
Luokittelututkimuksen ohessa tutkittiin myös hiljattain kehitetyn scatter-menetelmän käyttöä tekstidokumenttiaineiston tiivistämisessä sekä opetusaineiston laadun vaikutusta luokittelutulokseen. Scatter-menetelmä osoittautui hyväksi vaihtoehdoksi tekstiaineistojen tiivistämisessä. Opetusaineiston laadun suhteen päätulos oli, että heikkolaatuista opetusdataa kannattaa käyttää koneoppimisessa vain, jos sitä on erittäin runsaasti saatavilla.
Väitöstutkimus osoitti, että itseorganisoituvia karttoja voidaan hyödyntää tehokkaasti tekstidokumenttien luokittelussa ja tiedonhaussa. Ilmeni myös, että kartat tuovat tiedonhakutehtäviin visuaalisuudellaan lisäarvoa, jota perinteiset menetelmät eivät tarjoa. Tutkimus tuotti lisäksi runsaasti arvokasta vertailutietoa itseorganisoituvien karttojen ja tunnetuimpien koneoppimismenetelmien luokittelutarkkuudesta erilaisissa tekstidokumenttiaineistoissa sekä avasi uusia tutkimussuuntia karttojen luokittelukyvyn kehittämiseen edelleen.
Tutkimus käsittelee sähköisessä muodossa olevien tekstidokumenttien automaattista luokittelua ja tiedonhakua. Tekstidokumenttien automaattisessa luokittelussa tavoitteena on kehittää tietokoneohjelma, joka pystyy oppimaan saatavilla olevan valmiiksi luokitellun dokumenttiaineiston pohjalta sen eri luokkien ominaisuudet, ja tämän jälkeen ennustamaan mahdollisimman tarkasti entuudestaan tuntemattomien dokumenttien luokitukset. Tiedonhaussa puolestaan pyritään kehittämään hakukone, joka, esimerkiksi sanahaun perusteella, löytää mahdollisimman hyvin hakua vastaavia tekstidokumentteja.
Väitöskirjatutkimuksessa on keskitytty itseorganisoituvien karttojen käyttämiseen tekstidokumenttien automaattisessa luokittelussa ja tiedonhaussa. Itseorganisoituvat kartat on ohjaamaton koneoppimismenetelmä, mikä tarkoittaa, että menetelmä ei käytä oppimisvaiheessa lainkaan hyväkseen tietoa opetusaineiston näytteiden luokituksesta, vaan perustaa oppimisensa ainoastaan näytteiden ominaisuuksiin. Ohjatut menetelmät puolestaan käyttävät hyväkseen näytteiden ominaisuuksia sekä tietoa niiden luokituksesta. Itseorganisoituvia karttoja on käytetty aiemmin runsaasti erilaisten aineistojen ryhmittelyyn ja visualisointiin, mutta melko harvoin tekstidokumenttien luokittelussa ja erittäin vähän tiedonhaussa. Erityisesti vertailutuloksia muihin koneoppimismenetelmiin verrattuna on aiemmin ollut saatavilla rajoitetusti. Tutkimuksen päätavoitteena olikin verrata itseorganisoituvien karttojen suorituskykyä muihin tunnettuihin koneoppimismenetelmiin, sekä ohjattuihin että ohjaamattomiin, erilaisissa dokumenttiaineistoissa. Pääosa tutkimuksessa käytetyistä tekstidokumenttiaineistoista koostui elektronisista sanomalehtiartikkeleista, jotka jakautuivat luokkiin niihin liittyvien aihepiirien mukaisesti. Tyypillisiä luokkia olivat esimerkiksi politiikka, urheilu ja talous, sekä näiden erilaiset alakategoriat. Sanomalehtiaineistojen lisäksi käytettiin myös yhtä internetin uutisryhmän viesteistä koostuvaa aineistoa, jossa luokkina toimivat uutisryhmän aihepiirit.
Väitöstutkimus koostui viidestä osajulkaisusta, joista ensimmäinen käsitteli tekstidokumenttien tiedonhakua ja loput neljä tekstidokumenttien luokittelua. Ensimmäisessä julkaisussa tutkimuksen tekijä kehitti itseorganisoituviin karttoihin perustuvan hakukoneprototyypin, jota testattiin saksankielisellä uutisdokumenttiaineistolla. Tuloksia verrattiin kahden muun ohjaamattoman koneoppimismenetelmän hakutuloksiin. Tulokset olivat lupaavia, sillä itseorganisoituvat kartat kykenivät löytämään hyödyllisiä dokumentteja sanahakujen perusteella. Vertailumenetelmiin nähden kartat suoriutuivat tasaväkisesti. Tutkimuksessa ilmeni, että hakutulos oli hyvä, jos tiettyyn aiheeseen liittyvät dokumentit ryhmittyivät kartalla tiiviisti lähekkäin, mistä johtuen dokumenttien ryhmittelyyn perustuva luokittelu valittiin tutkimuskohteeksi myöhemmissä julkaisuissa. Itseorganisoituvien karttojen dokumenttien luokittelukykyä testattiin kaikkiaan neljässä osajulkaisussa ja neljällä eri uutisaineistolla, joihin sisältyi englanninkielisiä, saksankielisiä ja espanjankielisiä aineistoja. Luokittelua testattiin tilanteissa, joissa dokumenttiluokkien lukumäärä vaihteli välillä 2-20. Suurimmassa testatussa aineistossa oli 18774 dokumenttia. Itseorganisoituvien karttojen luokittelutuloksia verrattiin yhteensä kahdeksaan tunnettuun koneoppimismenetelmään, joista osa oli ohjattuja ja osa ohjaamattomia menetelmiä. Itseorganisoituvat kartat suoriutuivat pääosin luokittelusta erittäin hyvin, yli 90%:n luokittelutarkkuudella, ja olivat kokonaisuutena paras testatuista ohjaamattomista menetelmistä. Joissain tilanteissa kartat suoriutuivat myös vertailukelpoisesti ohjattuihin menetelmiin verrattuna. Tutkimuksen tekijä kehitti myös uuden karttajoukkoihin perustuvan luokitusmenetelmän, joka paransi itseorganisoituvien karttojen luokituskykyä ja menestyi testatussa aineistossa yhtä hyvin kuin parhaat ohjatut menetelmät.
Luokittelututkimuksen ohessa tutkittiin myös hiljattain kehitetyn scatter-menetelmän käyttöä tekstidokumenttiaineiston tiivistämisessä sekä opetusaineiston laadun vaikutusta luokittelutulokseen. Scatter-menetelmä osoittautui hyväksi vaihtoehdoksi tekstiaineistojen tiivistämisessä. Opetusaineiston laadun suhteen päätulos oli, että heikkolaatuista opetusdataa kannattaa käyttää koneoppimisessa vain, jos sitä on erittäin runsaasti saatavilla.
Väitöstutkimus osoitti, että itseorganisoituvia karttoja voidaan hyödyntää tehokkaasti tekstidokumenttien luokittelussa ja tiedonhaussa. Ilmeni myös, että kartat tuovat tiedonhakutehtäviin visuaalisuudellaan lisäarvoa, jota perinteiset menetelmät eivät tarjoa. Tutkimus tuotti lisäksi runsaasti arvokasta vertailutietoa itseorganisoituvien karttojen ja tunnetuimpien koneoppimismenetelmien luokittelutarkkuudesta erilaisissa tekstidokumenttiaineistoissa sekä avasi uusia tutkimussuuntia karttojen luokittelukyvyn kehittämiseen edelleen.
Kokoelmat
- Väitöskirjat [4769]