Agglutinatiivisten kielten käsittely hakulausekkeissa
Elomaa, Ella (2022)
Elomaa, Ella
2022
Tietojenkäsittelytieteiden kandidaattiohjelma - Bachelor's Programme in Computer Sciences
Informaatioteknologian ja viestinnän tiedekunta - Faculty of Information Technology and Communication Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2022-11-28
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:tuni-202210117574
https://urn.fi/URN:NBN:fi:tuni-202210117574
Tiivistelmä
Agglutinatiiviset kielet kohtaavat erityisiä haasteita kieliteknologian alalla, johtuen sanojen morfologisesta monimutkaisuudesta ja usein myös kielellä saatavan aineiston vähyydestä. Näissä kielissä sanoilla voi olla käytännössä rajaton määrä eri muotoja, joita ohjelmien odotetaan pystyvän käsittämään ja ymmärtämään. Sen sijaan analyyttisissa kielissä, kuten englannissa, sanat harvoin, jos koskaan, taipuvat tai sisältävät affikseja eli sanaliitteitä.
Tutkielmassa käsiteltävät perinteiset metodit ovat stemmaus, lemmaus, sanaluokkajäsennys, morfologinen koodaus, nimien tunnistaminen, kyselyn laajentaminen, parafraasitietokannat sekä hukkasanojen poisto. Hukkasanojen, eli hakulausekkeen kannalta merkityksettömät saneet, kuten konjunktiot, poisto toteutetaan ensimmäisenä, jotta turhia sanoja ei käsiteltäisi. Stemmauksessa sane, eli sanan konkreettisesta esiintymästä tekstissä (vrt. ”kukka” ja ”kukkien”, joista jälkimmäinen sane) poistetaan affiksit ja typistetään juureensa (”kukkien” tapauksessa ”kuk”). Läheistä sukua olevassa lemmauksessa palautetaan sanan perusmuoto. Sanaluokkajäsennyksessä merkitään saneen kieliopilliset koodit, jonka jälkeen voidaan tunnistaa erisnimiä hakulausekkeen joukosta. Kyselyn laajentamisessa hakulausekkeeseen joko sisällytetään hakusanojen synonyymeja tai useampia sijamuotoja; samankaltaisessa prosessissa parafraasitietokantoja käytetään kiertoilmausten etsimiseen.
Kaikki nämä metodit perustuvat joko tilastollisiin menetelmiin tai asiantuntijoiden laatimiin kielikohtaisiin sääntöihin. Nämä perinteiset, melko yksinkertaisetkin metodit vaativat huomattavasti enemmän sääntöjä ja dataa agglutinatiivisten kielten käsittelyssä verrattuna analyyttisiin kieliin. Toimivimmillaan metodit ovat kielikohtaisissa ohjelmissa, tai laajemmin nimenomaan agglutinatiivisille kielille koskevissa ohjelmissa. Käytännössä hakukoneet käyttävät samanaikaisesti useampia metodeja mielekkäiden tulosten palauttamiseksi. Viimeisen kymmenen vuoden aikana neuroverkot ovat muodostuneet yhä tärkeämmäksi työvälineeksi kieliteknologian alalla, kun tilastollisten ja sääntöpohjaisten metodien rinnalla on alettu tarkastelemaan sanojen kontekstia.
Kirjallisuuskatsauksessa tarkastelen, minkälaisilla metodeilla hakukoneet käsittelevät agglutinatiivisten kielten hakulausekkeita. Tutkielman lähteet on valittu viidestä eri tietokannasta perustuen otsikkoon, tiivistelmään, julkaisufoorumin luokitukseen ja lopulta yleiseen silmäilyyn.
Tutkielmassa käsiteltävät perinteiset metodit ovat stemmaus, lemmaus, sanaluokkajäsennys, morfologinen koodaus, nimien tunnistaminen, kyselyn laajentaminen, parafraasitietokannat sekä hukkasanojen poisto. Hukkasanojen, eli hakulausekkeen kannalta merkityksettömät saneet, kuten konjunktiot, poisto toteutetaan ensimmäisenä, jotta turhia sanoja ei käsiteltäisi. Stemmauksessa sane, eli sanan konkreettisesta esiintymästä tekstissä (vrt. ”kukka” ja ”kukkien”, joista jälkimmäinen sane) poistetaan affiksit ja typistetään juureensa (”kukkien” tapauksessa ”kuk”). Läheistä sukua olevassa lemmauksessa palautetaan sanan perusmuoto. Sanaluokkajäsennyksessä merkitään saneen kieliopilliset koodit, jonka jälkeen voidaan tunnistaa erisnimiä hakulausekkeen joukosta. Kyselyn laajentamisessa hakulausekkeeseen joko sisällytetään hakusanojen synonyymeja tai useampia sijamuotoja; samankaltaisessa prosessissa parafraasitietokantoja käytetään kiertoilmausten etsimiseen.
Kaikki nämä metodit perustuvat joko tilastollisiin menetelmiin tai asiantuntijoiden laatimiin kielikohtaisiin sääntöihin. Nämä perinteiset, melko yksinkertaisetkin metodit vaativat huomattavasti enemmän sääntöjä ja dataa agglutinatiivisten kielten käsittelyssä verrattuna analyyttisiin kieliin. Toimivimmillaan metodit ovat kielikohtaisissa ohjelmissa, tai laajemmin nimenomaan agglutinatiivisille kielille koskevissa ohjelmissa. Käytännössä hakukoneet käyttävät samanaikaisesti useampia metodeja mielekkäiden tulosten palauttamiseksi. Viimeisen kymmenen vuoden aikana neuroverkot ovat muodostuneet yhä tärkeämmäksi työvälineeksi kieliteknologian alalla, kun tilastollisten ja sääntöpohjaisten metodien rinnalla on alettu tarkastelemaan sanojen kontekstia.
Kirjallisuuskatsauksessa tarkastelen, minkälaisilla metodeilla hakukoneet käsittelevät agglutinatiivisten kielten hakulausekkeita. Tutkielman lähteet on valittu viidestä eri tietokannasta perustuen otsikkoon, tiivistelmään, julkaisufoorumin luokitukseen ja lopulta yleiseen silmäilyyn.
Kokoelmat
- Kandidaatintutkielmat [8709]