Hyppää sisältöön
    • Suomeksi
    • In English
Trepo
  • Suomeksi
  • In English
  • Kirjaudu
Näytä viite 
  •   Etusivu
  • Trepo
  • Opinnäytteet - ylempi korkeakoulututkinto
  • Näytä viite
  •   Etusivu
  • Trepo
  • Opinnäytteet - ylempi korkeakoulututkinto
  • Näytä viite
JavaScript is disabled for your browser. Some features of this site may not work without it.

Suomenkielinen puhehaku.

EKMAN, INGER (2003)

 
Avaa tiedosto
gradu00196.pdf (594.7Kt)
Lataukset: 



EKMAN, INGER
2003

Tietojenkäsittelyoppi - Computer Science
Informaatiotieteiden tiedekunta - Faculty of Information Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2003-05-06
Näytä kaikki kuvailutiedot
Julkaisun pysyvä osoite on
https://urn.fi/urn:nbn:fi:uta-1-11755
Tiivistelmä
Tiedonhakutekniikoilla pyritään tarjoamaan ihmisille mahdollisuus hakea

tietokantojen sisältämiä dokumentteja sisältöperusteisesti vapaamuotoisilla kyselyillä.

Puhetiedonhaun tavoitteena on saattaa myös puheena tallennettu tieto ihmisten

käytettäväksi.

Tiedonhakumenetelmien kehittämisessä on keskitytty erityisesti tekstimuotoon

tallennetun tiedon hakemiseen. Audiomuotoisiin tallenteisiin ei suoraan voi käyttää

perinteisiä tekstitiedonhaun menetelmiä. Siksi tarvitaan uusia tiedonhakumenetelmiä,

jotka soveltuvat puhehakuun. Tässä työssä käsitellään puhemateriaaliin kohdistuvia

tiedonhakumenetelmiä. Erityisesti tarkastellaan, miten puhehaussa käytetyt

menetelmät soveltuvat suomenkielisen puhemateriaalin hakemiseen.

Työn kokeellisessa osuudessa rakennettiin suomenkielisen

puhehakujärjestelmän prototyyppi, jolla tutkitaan n-grammien avulla suoritettavan

suodatuksen soveltuvuutta suomenkieliseen puhetiedonhakuun. N-grammit ovat

menetelmäperhe, jossa dokumenttien samankaltaisuutta verrataan niiden sisältämien

n merkin mittaisten merkkijonojen perusteella. Käyttämällä n-grammeja yhdessä

nimikirjoitusten kanssa voidaan tehokkaasti käsitellä isoja datamääriä.

Tutkimuksessa verrataan eri n arvojen vaikutusta n-grammien avulla

muodostettavien nimikirjoitusten suodatuskykyyn. Suodatuksessa käytettäviä

nimikirjoituksia muodostetaan sekä kokonaisista puhedokumenteista että

puhedokumenttien osista. Suodatus suoritetaan yksittäisten hakusanojen perusteella,

mutta menetelmää voi helposti laajentaa kokonaisten kyselyjen käsittelyyn. Kokeiden

testiaineistona on käytetty suomenkielistä uutismateriaalia. Tutkimuksessa verrataan

suodatusmenetelmien toimintaa sekä puhuttuja että kirjoitettuja hakusanoja

käyttämällä.

Avainsanat ja -sanonnat: Puhehaku, puhetiedonhaku, tiedonhaku, suomen kieli, n-gram,

osittaistäsmäytys, äännetunnistus.
Kokoelmat
  • Opinnäytteet - ylempi korkeakoulututkinto [39899]
Kalevantie 5
PL 617
33014 Tampereen yliopisto
oa[@]tuni.fi | Tietosuoja | Saavutettavuusseloste
 

 

Selaa kokoelmaa

TekijätNimekkeetTiedekunta (2019 -)Tiedekunta (- 2018)Tutkinto-ohjelmat ja opintosuunnatAvainsanatJulkaisuajatKokoelmat

Omat tiedot

Kirjaudu sisäänRekisteröidy
Kalevantie 5
PL 617
33014 Tampereen yliopisto
oa[@]tuni.fi | Tietosuoja | Saavutettavuusseloste