Hyppää sisältöön
    • Suomeksi
    • In English
Trepo
  • Suomeksi
  • In English
  • Kirjaudu
Näytä viite 
  •   Etusivu
  • Trepo
  • Väitöskirjat
  • Näytä viite
  •   Etusivu
  • Trepo
  • Väitöskirjat
  • Näytä viite
JavaScript is disabled for your browser. Some features of this site may not work without it.

Applications of S-grams in Natural Language Information Retrieval

Järvelin, Anni (2014)

 
Avaa tiedosto
978-951-44-9675-2.pdf (3.275Mt)
Lataukset: 



Järvelin, Anni
Tampere University Press
2014

Informaatiotutkimus - Information Studies
Informaatiotieteiden yksikkö - School of Information Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Väitöspäivä
2014-12-18
Näytä kaikki kuvailutiedot
Julkaisun pysyvä osoite on
https://urn.fi/URN:ISBN:978-951-44-9675-2
Tiivistelmä
Menetelmiä luonnollisen kielen variaation hallintaan tiedonhaussa

Tiedonhakujärjestelmät perustuvat ajatukseen, että dokumenteissa esiintyvät sanat kuvaavat niitä aihepiirejä joihin dokumentti liittyy. Tiedonhakujärjestelmät toimivat sitten siten että tiedonhakijan (käyttäjän) järjetelmälle esittämiä hakusanoja verrataan dokumenttien sanoihin. Dokumentit joiden sanastossa hakusanat ovat keskeisiä liittyvät todennäköisesti siihen aihepiiriin jota hakusanat kuvaavat ja ovat siten mahdollisesti relevantteja tiedonhakijalle.

Sanat esiintyvät teksteissä monissa eri muodoissa: sanat taipuvat ja sisältävät virheitä, niiden kirjoitusasu vaihtelee ajan myötä ja eri kielissä. Väitöskirjassani tutkin menetelmiä joiden avulla luonnollisessa kielessä esiintyvää variaatiota voidaan hallita siten että tiedonhakujärjestelmät voivat tunnistaa saman sanan eri muodot yhteenkuuluviksi. Esimerkiksi perusmuodossa esitetty hakusana pitäisi tunnistaa samaksi sanaksi kuin dokumenteissa esiintyvät taivutusmuodot. Olen keskittynyt tutkimuksessani yhden sumean merkkijonotäsmäytysmenetelmän, s-grammien, eri sovellusalueiden tutkimiseen. Olen käyttänyt menetelmää käännöksessä läheisten sukulaiskielten välillä, monikielisessä kuvatiedonhaussa, sekä historiallisten dokumenttien haussa.

Tutkimustulokseni osoittavat että yksinkertaisilla ja kieliriippumattomilla menetelmillä voidaan saavuttaa hyviä tuloksia. Etenkin s-grammit ovat sovellettavissa tilanteissa joissa korkealaatuisia kielitieteellistä informaatiota soveltavia menetelmiä ei ole syystä tai toisesta saatavilla.
 
Kokoelmat
  • Väitöskirjat [5015]
Kalevantie 5
PL 617
33014 Tampereen yliopisto
oa[@]tuni.fi | Tietosuoja | Saavutettavuusseloste
 

 

Selaa kokoelmaa

TekijätNimekkeetTiedekunta (2019 -)Tiedekunta (- 2018)Tutkinto-ohjelmat ja opintosuunnatAvainsanatJulkaisuajatKokoelmat

Omat tiedot

Kirjaudu sisäänRekisteröidy
Kalevantie 5
PL 617
33014 Tampereen yliopisto
oa[@]tuni.fi | Tietosuoja | Saavutettavuusseloste