Ontologioiden soveltuvuus henkilökohtaisten tekstiaineistojen jäsentämiseen : esimerkkinä elämäkerta-aineistot
Karkimo, Katriina (2018)
Karkimo, Katriina
2018
Tietojenkäsittelyoppi - Computer Science
Luonnontieteiden tiedekunta - Faculty of Natural Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2018-11-28
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:uta-201901021015
https://urn.fi/URN:NBN:fi:uta-201901021015
Tiivistelmä
Työssä selvitetään yleisten, julkisten ontologioiden soveltuvuutta käyttäjien itse tekemien avainsanajäsennysten tukemiseen. Kysymystä tutkitaan selvittämällä, sisältävätkö julkiset ontologiat käyttäjien itsensä valitsemia avainsanoja, joilla he kuvaavat kirjoittamiaan elämäkerta-aineistoja. Vertailun vuoksi tutkija on valinnut avainsanat samoista aineistoista, ja myös niiden esiintymistä ontologioissa selvitetään. Samassa yhteydessä kirjattiin ylös minkälaisia piirteitä tai mahdollisia ongelmia nousi esiin, kun nykyisillä ontologioilla haluttiin jäsentää elämäkertoja. Saatuja tuloksia verrattiin lähdekirjallisuuteen. Aineistoina ovat kansalaisopiston opintopiirissä laaditut elämäkerta-aineistot ja Finto-ontologiakirjaston ontologiat.
Tutkimusmenetelmien osalta työ on suunnittelutieteellistä arvioivaa tutkimusta. Arvioinnin kohteena olivat ontologiat ja niiden kattavuus. Tutkimus on myös teorioita testaavaa tutkimusta sekä case-tutkimusta. Saatuja tuloksia verrataan lähdekirjallisuuteen ja tapauksina on viisi elämäkerta-aineistoa.
Tehdyissä vertailuissa havaitaan, että elämäkerta-aineistojen avainsanoista karkeasti sanottuna noin puolet sisältyy nykyisellään Finto-ontologiakirjaston ontologioihin. Tarkemmassa analyysissä voidaan erottaa pieni painotus siihen suuntaan, että todennäköisemmin ontologiat sisältävät tutkijan kuin käyttäjien valitsemia avainsanoja. Tämä kvantitatiivinen tulos on työssä kuitenkin marginaalinen.
Työn keskeisin anti on laadullisissa seikoissa, jotka ilmenevät tehtyjen kokeilujen yhteydessä. Käy ilmi, kuten lähdekirjallisuudessakin mainitaan, että avainsanojen merkitsemisen tavoitteet ja käytännöt vaihtelevat suuresti ja ne voivat muuttua myös yksittäisellä henkilöllä työskentelyn edetessä. Tehtyjen kokeilujen yhteydessä havaitaan, että tällä hetkellä Finto-ontologiakirjaston ontologioihin tarvittaisiin lisää erityisesti erisnimiä, samoin on tarvetta terävöittää ontologiakirjaston sisältämien eri ontologioiden välistä linkittämistä. Suomenkielisten termien kohdalla olisi tarvetta lisätä eri taivutusmuotoja sekä puhekielen mukaisia sanamuotoja ja ilmaisuja. Termihakujen yhteydessä nousi myös esiin tarve työkaluille, jotka tukisivat yhdyssanojen ja sanaliittojen muodostamien ilmaisujen semanttista tulkintaa ja analysointia.
ABSTRACT
The applicability of ontologies for structuring personal texts – using
biographies as an example
In this work the applicability of general, public ontologies is examined. The question is whether these ontologies are suitable for supporting the keyword definitions done by users. This is examined by finding out whether the public ontologies contain the terms that the users themselves choose to be the keywords of their texts. The texts are the users' own biographies that they have written themselves. In order to compare the results, the researcher, too, has chosen keywords for the same texts, and the presence of the researcher’s keywords in public ontologies is also examined. The biographies are written for a course at an adult education center, and the ontologies are all contained in the Finnish ontology library Finto.
Methodologically this represents design science and the ontologies of Finto library are the object of evaluation. They are measured by their extensiveness. This is also theory-testing research and a case study that consists of five cases. Each biography forms one of the cases and the findings are compared with the source material.
As a result, it is found out that roughly about half of the keywords can currently be found in the ontologies of the ontology library Finto. In a more detailed analysis, one can see that the researcher's keywords are contained in the ontologies with a slightly higher probability than the keywords chosen by the authors themselves. However, this quantitative result is marginal in this work.
The main outcomes are the qualitative findings noted while doing the experiments. It turns out, as in the referred sources, that the objectives and practices of keyword marking vary widely, and that they can also change during the work process of a single person. It is also found out that, at this moment, more proper nouns are needed in the ontologies of Finto. Additionally, there is a need for refined mapping between the various ontologies contained in the ontology library. For Finnish terms, a larger variety of inflected forms is needed, as well as a greater number of vernacular expressions and colloquialisms. While searching for terms it was also discovered that there is a need for tools that would help the semantic analysis and interpretation of compound words and set phrases.
Tutkimusmenetelmien osalta työ on suunnittelutieteellistä arvioivaa tutkimusta. Arvioinnin kohteena olivat ontologiat ja niiden kattavuus. Tutkimus on myös teorioita testaavaa tutkimusta sekä case-tutkimusta. Saatuja tuloksia verrataan lähdekirjallisuuteen ja tapauksina on viisi elämäkerta-aineistoa.
Tehdyissä vertailuissa havaitaan, että elämäkerta-aineistojen avainsanoista karkeasti sanottuna noin puolet sisältyy nykyisellään Finto-ontologiakirjaston ontologioihin. Tarkemmassa analyysissä voidaan erottaa pieni painotus siihen suuntaan, että todennäköisemmin ontologiat sisältävät tutkijan kuin käyttäjien valitsemia avainsanoja. Tämä kvantitatiivinen tulos on työssä kuitenkin marginaalinen.
Työn keskeisin anti on laadullisissa seikoissa, jotka ilmenevät tehtyjen kokeilujen yhteydessä. Käy ilmi, kuten lähdekirjallisuudessakin mainitaan, että avainsanojen merkitsemisen tavoitteet ja käytännöt vaihtelevat suuresti ja ne voivat muuttua myös yksittäisellä henkilöllä työskentelyn edetessä. Tehtyjen kokeilujen yhteydessä havaitaan, että tällä hetkellä Finto-ontologiakirjaston ontologioihin tarvittaisiin lisää erityisesti erisnimiä, samoin on tarvetta terävöittää ontologiakirjaston sisältämien eri ontologioiden välistä linkittämistä. Suomenkielisten termien kohdalla olisi tarvetta lisätä eri taivutusmuotoja sekä puhekielen mukaisia sanamuotoja ja ilmaisuja. Termihakujen yhteydessä nousi myös esiin tarve työkaluille, jotka tukisivat yhdyssanojen ja sanaliittojen muodostamien ilmaisujen semanttista tulkintaa ja analysointia.
ABSTRACT
The applicability of ontologies for structuring personal texts – using
biographies as an example
In this work the applicability of general, public ontologies is examined. The question is whether these ontologies are suitable for supporting the keyword definitions done by users. This is examined by finding out whether the public ontologies contain the terms that the users themselves choose to be the keywords of their texts. The texts are the users' own biographies that they have written themselves. In order to compare the results, the researcher, too, has chosen keywords for the same texts, and the presence of the researcher’s keywords in public ontologies is also examined. The biographies are written for a course at an adult education center, and the ontologies are all contained in the Finnish ontology library Finto.
Methodologically this represents design science and the ontologies of Finto library are the object of evaluation. They are measured by their extensiveness. This is also theory-testing research and a case study that consists of five cases. Each biography forms one of the cases and the findings are compared with the source material.
As a result, it is found out that roughly about half of the keywords can currently be found in the ontologies of the ontology library Finto. In a more detailed analysis, one can see that the researcher's keywords are contained in the ontologies with a slightly higher probability than the keywords chosen by the authors themselves. However, this quantitative result is marginal in this work.
The main outcomes are the qualitative findings noted while doing the experiments. It turns out, as in the referred sources, that the objectives and practices of keyword marking vary widely, and that they can also change during the work process of a single person. It is also found out that, at this moment, more proper nouns are needed in the ontologies of Finto. Additionally, there is a need for refined mapping between the various ontologies contained in the ontology library. For Finnish terms, a larger variety of inflected forms is needed, as well as a greater number of vernacular expressions and colloquialisms. While searching for terms it was also discovered that there is a need for tools that would help the semantic analysis and interpretation of compound words and set phrases.