Hyppää sisältöön
    • Suomeksi
    • In English
Trepo
  • Suomeksi
  • In English
  • Kirjaudu
Näytä viite 
  •   Etusivu
  • Trepo
  • Opinnäytteet - ylempi korkeakoulututkinto
  • Näytä viite
  •   Etusivu
  • Trepo
  • Opinnäytteet - ylempi korkeakoulututkinto
  • Näytä viite
JavaScript is disabled for your browser. Some features of this site may not work without it.

XTerm-korpuskyselykielen kehittäminen ja korpuskyselykielten vertailu

TUOMISTO, HANNA (2012)

 
Avaa tiedosto
gradu06022.pdf (443.4Kt)
Lataukset: 



TUOMISTO, HANNA
2012

Tietojenkäsittelyoppi - Computer Science
Informaatiotieteiden yksikkö - School of Information Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2012-06-13
Näytä kaikki kuvailutiedot
Julkaisun pysyvä osoite on
https://urn.fi/urn:nbn:fi:uta-1-22714
Tiivistelmä
Tässä työssä esitellään Tampereen yliopistossa monialaisena projektina toteutettu erityisesti termien louhintaan tarkoitettu korpuskyselykieli ja verrataan sitä muihin korpuskyselykieliin. Suurin osa korpuskyselykielistä on kehitetty yliopistoissa, eikä kaupallisia korpustyökaluja juurikaan ole saatavilla. Vertailtavat korpuskyselyjärjestelmät ja -kielet ovat: tekstihakujärjestelmä Emdros ja sen kyselykieli MQL, työkalusarja NITE XML Toolkit ja sen sisältämä kyselykieli NXT Query Language, IMS Corpus Workbench ja sen kyselykieli Corpus Query Processor Language sekä BNCweb-käyttöliittymän Simple Query Syntax-kyselykieli, joka sekin pohjautuu IMS Corpus Workbenchin Corpus Query Processoriin.

Korpuskyselykielten vertailu on tehty esittämällä kymmenen erilaista kyselyesimerkkiä ja tämän jälkeen esitetty jokainen näistä kullakin kyselykielellä. Esimerkkikyselyjen on tarkoitus kuvata niitä erilaisia tilanteita, joita kielentutkijalla saattaa olla ja joihin korpuskyselykielen tulisi vastata. Esimerkkikyselyissä kuvataan mallin sovittamista, säännöllisten lausekkeiden hyödyntämistä, termien louhintaa, tilastotietojen johtamista korpuskyselykielen avulla, kyselyn tulostusmuodon määrittelyä sekä tekstin rakenteen ja elementtien etäisyyksien määrittelyä ja rajaamista hauissa. Vertaillut korpuskyselykielet eroavat toisistaan huomattavasti. Kullakin korpuskyselykielellä on selvästi omat vahvuutensa ja heikkoutensa.

Tämän työn yhteydessä toteutetun XTerm-kyselykielen vahvuus on sen yksinkertaisuus ja soveltuvuus erityisesti helppoon ja nopeaan termien louhintaan. MQL-kyselykielen vahvuus on haettavien elementtien sisäkkäisyyden ja peräkkäisyyden kuvaamisessa. NXT-kyselykieli on ehkä vertailluista kyselykielistä monipuolisin ja mahdollistaa hyvin monenlaiset haut, mutta vaatii käyttäjältä tietojenkäsittelyyn liittyvien periaatteiden ymmärtämistä ja opiskelua. Corpus Query Processor-kyselykieli on sekin monipuolinen ja selvästi kielitieteellisiin tarkoituksiin soveltuva. Simple Query Syntaxin vahvuus on sen yksinkertaisuus. Se on helppokäyttöinen ja nopeasti opittava ja se mahdollistaa kuitenkin monet yleiset kielentutkijan hakutilanteet. On mahdotonta yksiselitteisesti valita parasta ja helppokäyttöisintä korpuskyselykieltä. Yleistäen voidaankin todeta, että mitä monipuolisempi korpuskyselykieli on ominaisuuksiltaan, sitä enemmän se vaatii käyttäjältään opiskelua tai jo ennalta tietojenkäsittelyyn liittyvien paradigmojen ymmärtämisen.

Asiasanat:korpus, korpuskyselykieli, kielitiede, XML, XPath, XQuery
Kokoelmat
  • Opinnäytteet - ylempi korkeakoulututkinto [40067]
Kalevantie 5
PL 617
33014 Tampereen yliopisto
oa[@]tuni.fi | Tietosuoja | Saavutettavuusseloste
 

 

Selaa kokoelmaa

TekijätNimekkeetTiedekunta (2019 -)Tiedekunta (- 2018)Tutkinto-ohjelmat ja opintosuunnatAvainsanatJulkaisuajatKokoelmat

Omat tiedot

Kirjaudu sisäänRekisteröidy
Kalevantie 5
PL 617
33014 Tampereen yliopisto
oa[@]tuni.fi | Tietosuoja | Saavutettavuusseloste