Hyppää sisältöön
    • Suomeksi
    • In English
Trepo
  • Suomeksi
  • In English
  • Kirjaudu
Näytä viite 
  •   Etusivu
  • Trepo
  • Opinnäytteet - ylempi korkeakoulututkinto
  • Näytä viite
  •   Etusivu
  • Trepo
  • Opinnäytteet - ylempi korkeakoulututkinto
  • Näytä viite
JavaScript is disabled for your browser. Some features of this site may not work without it.

Samankaltaisten tekstien ehdottaminen

Seitamäki, Sirkku (2022)

 
Avaa tiedosto
SeitamäkiSirkku.pdf (977.5Kt)
Lataukset: 



Seitamäki, Sirkku
2022

Tietojenkäsittelyopin maisteriohjelma - Master's Programme in Computer Science
Informaatioteknologian ja viestinnän tiedekunta - Faculty of Information Technology and Communication Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2022-06-02
Näytä kaikki kuvailutiedot
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:tuni-202205205131
Tiivistelmä
Samankaltaisten tekstien löytäminen antaa mahdollisuuden tarjota käyttäjälle samasta aiheesta lisää luettavaa. Samankaltaisuuksia etsitään vertailemalla tekstejä, mitä varten tekstejä on käsiteltävä. Työn tarkoituksena on toteuttaa ohjelma ja testata sen avulla tekstin esikäsittelyn eri tekniikoiden vaikutusta samankaltaisten tekstien tunnistamiseen. Työssä käsitellyt tekstit ovat suomenkielisiä, mikä tarkoittaa, että suomen kielen monet taivutusmuodot on otettava huomioon. Tiedonhakua varten teksti esikäsitellään poistamalla välimerkkejä, muuntamalla pienaakkosiin, tokenisoimalla, karsimalla sulkusanat ja normalisoimalla, minkä voi tehdä stemmauksen tai lemmauksen avulla. Lemmausta pidetään suomen kielessä parempana vaihtoehtona kuin stemmausta.

Toteutin Javalla pienen fintextrec-nimisen ohjelman, joka voi joko esikäsitellä alkuperäiset tekstit ja tallentaa sitten käsitellyt tekstit MySQL-tietokantaan tai indeksoida alkuperäiset tekstit Solrin indeksiin. Ohjelmalla voi hakea ehdotuksia joko MySQL-tietokannasta tai Solrin indeksistä. Toteutuksen avulla vertailen kahdeksaa eri vaihtoehtoa, joista kaksi käyttää Solrin MoreLikeThis-kyselyä ja kuusi käyttää MySQL:n InnoDB:n kokotekstihakua. Testauksessa käyttämäni data koostuu reilusta sadasta vastaustekstistä, joiden aiheena on suomalaisten käsitykset kulttuuriperinnöstään.

Toteutusta on testattu hakemalla neljälle eri vastaustekstille ehdotuksia. Vaihtoehtojen, joissa lemmataan, ehdotuksissa on enemmän samoja tunnisteita kuin vaihtoehdoissa, joissa stemmataan tai joissa sanat ovat alkuperäisissä taivutusmuodoissaan. Taivutusmuotovaihtoehdon tai stemmausvaihtoehdon paras pari on toinen taivutusmuotovaihtoehto tai stemmausvaihtoehto. Koska lemmausvaihtoehtoja on useampia niin niiden kohdalla tuli esille, että sulkusanojen karsinnalla on jonkun verran merkitystä. Paras pari lemmausvaihtoehdolle on toinen lemmausvaihtoehto, jossa sulkusanat käsitellään samalla tavalla.
Kokoelmat
  • Opinnäytteet - ylempi korkeakoulututkinto [39999]
Kalevantie 5
PL 617
33014 Tampereen yliopisto
oa[@]tuni.fi | Tietosuoja | Saavutettavuusseloste
 

 

Selaa kokoelmaa

TekijätNimekkeetTiedekunta (2019 -)Tiedekunta (- 2018)Tutkinto-ohjelmat ja opintosuunnatAvainsanatJulkaisuajatKokoelmat

Omat tiedot

Kirjaudu sisäänRekisteröidy
Kalevantie 5
PL 617
33014 Tampereen yliopisto
oa[@]tuni.fi | Tietosuoja | Saavutettavuusseloste