Suomenkielinen puhehaku.
EKMAN, INGER (2003)
EKMAN, INGER
2003
Tietojenkäsittelyoppi - Computer Science
Informaatiotieteiden tiedekunta - Faculty of Information Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2003-05-06
Julkaisun pysyvä osoite on
https://urn.fi/urn:nbn:fi:uta-1-11755
https://urn.fi/urn:nbn:fi:uta-1-11755
Tiivistelmä
Tiedonhakutekniikoilla pyritään tarjoamaan ihmisille mahdollisuus hakea
tietokantojen sisältämiä dokumentteja sisältöperusteisesti vapaamuotoisilla kyselyillä.
Puhetiedonhaun tavoitteena on saattaa myös puheena tallennettu tieto ihmisten
käytettäväksi.
Tiedonhakumenetelmien kehittämisessä on keskitytty erityisesti tekstimuotoon
tallennetun tiedon hakemiseen. Audiomuotoisiin tallenteisiin ei suoraan voi käyttää
perinteisiä tekstitiedonhaun menetelmiä. Siksi tarvitaan uusia tiedonhakumenetelmiä,
jotka soveltuvat puhehakuun. Tässä työssä käsitellään puhemateriaaliin kohdistuvia
tiedonhakumenetelmiä. Erityisesti tarkastellaan, miten puhehaussa käytetyt
menetelmät soveltuvat suomenkielisen puhemateriaalin hakemiseen.
Työn kokeellisessa osuudessa rakennettiin suomenkielisen
puhehakujärjestelmän prototyyppi, jolla tutkitaan n-grammien avulla suoritettavan
suodatuksen soveltuvuutta suomenkieliseen puhetiedonhakuun. N-grammit ovat
menetelmäperhe, jossa dokumenttien samankaltaisuutta verrataan niiden sisältämien
n merkin mittaisten merkkijonojen perusteella. Käyttämällä n-grammeja yhdessä
nimikirjoitusten kanssa voidaan tehokkaasti käsitellä isoja datamääriä.
Tutkimuksessa verrataan eri n arvojen vaikutusta n-grammien avulla
muodostettavien nimikirjoitusten suodatuskykyyn. Suodatuksessa käytettäviä
nimikirjoituksia muodostetaan sekä kokonaisista puhedokumenteista että
puhedokumenttien osista. Suodatus suoritetaan yksittäisten hakusanojen perusteella,
mutta menetelmää voi helposti laajentaa kokonaisten kyselyjen käsittelyyn. Kokeiden
testiaineistona on käytetty suomenkielistä uutismateriaalia. Tutkimuksessa verrataan
suodatusmenetelmien toimintaa sekä puhuttuja että kirjoitettuja hakusanoja
käyttämällä.
Avainsanat ja -sanonnat: Puhehaku, puhetiedonhaku, tiedonhaku, suomen kieli, n-gram,
osittaistäsmäytys, äännetunnistus.
tietokantojen sisältämiä dokumentteja sisältöperusteisesti vapaamuotoisilla kyselyillä.
Puhetiedonhaun tavoitteena on saattaa myös puheena tallennettu tieto ihmisten
käytettäväksi.
Tiedonhakumenetelmien kehittämisessä on keskitytty erityisesti tekstimuotoon
tallennetun tiedon hakemiseen. Audiomuotoisiin tallenteisiin ei suoraan voi käyttää
perinteisiä tekstitiedonhaun menetelmiä. Siksi tarvitaan uusia tiedonhakumenetelmiä,
jotka soveltuvat puhehakuun. Tässä työssä käsitellään puhemateriaaliin kohdistuvia
tiedonhakumenetelmiä. Erityisesti tarkastellaan, miten puhehaussa käytetyt
menetelmät soveltuvat suomenkielisen puhemateriaalin hakemiseen.
Työn kokeellisessa osuudessa rakennettiin suomenkielisen
puhehakujärjestelmän prototyyppi, jolla tutkitaan n-grammien avulla suoritettavan
suodatuksen soveltuvuutta suomenkieliseen puhetiedonhakuun. N-grammit ovat
menetelmäperhe, jossa dokumenttien samankaltaisuutta verrataan niiden sisältämien
n merkin mittaisten merkkijonojen perusteella. Käyttämällä n-grammeja yhdessä
nimikirjoitusten kanssa voidaan tehokkaasti käsitellä isoja datamääriä.
Tutkimuksessa verrataan eri n arvojen vaikutusta n-grammien avulla
muodostettavien nimikirjoitusten suodatuskykyyn. Suodatuksessa käytettäviä
nimikirjoituksia muodostetaan sekä kokonaisista puhedokumenteista että
puhedokumenttien osista. Suodatus suoritetaan yksittäisten hakusanojen perusteella,
mutta menetelmää voi helposti laajentaa kokonaisten kyselyjen käsittelyyn. Kokeiden
testiaineistona on käytetty suomenkielistä uutismateriaalia. Tutkimuksessa verrataan
suodatusmenetelmien toimintaa sekä puhuttuja että kirjoitettuja hakusanoja
käyttämällä.
Avainsanat ja -sanonnat: Puhehaku, puhetiedonhaku, tiedonhaku, suomen kieli, n-gram,
osittaistäsmäytys, äännetunnistus.