Automaattinen tekstin tiivistäminen.
RINTALA, ANNA-LIISA (2001)
Tässä tietueessa ei ole kokotekstiä saatavilla Treposta, ainoastaan metadata.
RINTALA, ANNA-LIISA
2001
Tietojenkäsittelyoppi - Computer Science
Taloudellis-hallinnollinen tiedekunta - Faculty of Economics and Administration
Hyväksymispäivämäärä
2001-05-30Tiivistelmä
Tässä tutkielmassa on selvitetty automaattisten tekstin tiivistysmenetelmien toimivuutta käytännössä. Tutkimuksen esimerkkimenetelmänä on käytetty Kupiec et al.:in tilastollista lausehakua A Trainable Document Summarizer ja siihen perustuvaa inXight Summarizer -sovellusta. Metodina tässä tutkimuksessa on käytetty lähdetekstien (124 englanninkielistä uutistekstiä) ja niistä automaattisesti tuotettujen tiivistelmien sekä samoista lähdeteksteistä henkilöillä teetettyjen tiivistelmien (74 kappaletta) vertailua. Tutkimuksen uutiset olivat kolmesta eri kategoriasta, joiden uutisointitavoissa on eroja.
Tutkimuksessa on selvitetty automaattisesti tuotetuista tiivistelmistä lähdetekstien keskeisten asioiden löytymistä, tiiviyttä, luettavuutta ja yhtenäisyyttä sekä tiivistelmien sopivuutta tehtäväänsä: informatiivisuutta ja indikatiivisuutta. Automaattisesti tuotetut tiivistelmät ovat luettavia, keskimäärin tiiviitä ja niistä löytyy keskeisiä asioita juuri se määrä, mitä tässä tutkimuksessa käytetyltä menetelmältä odotetaan. Kahdenlaisia ongelmia esiintyi. Useita aiheita sisältävistä lähdeteksteistä, joissa on monikollinen otsikko, tuotetut automaattiset tiivistelmät sisältävät lauseita vain yhdestä aiheesta ja yhtenäisyyden suurimmaksi esteeksi osoittautuivat anaforiset viittaukset.
Tiivistelmän 'hyvyys' on hyvin subjektiivinen näkemys, mutta tässä tutkimuksessa käytetty automaattinen tekstin tiivistysmenetelmä toimii tutkimustulosten valossa käytännössä hyvin.
Tutkimuksessa on selvitetty automaattisesti tuotetuista tiivistelmistä lähdetekstien keskeisten asioiden löytymistä, tiiviyttä, luettavuutta ja yhtenäisyyttä sekä tiivistelmien sopivuutta tehtäväänsä: informatiivisuutta ja indikatiivisuutta. Automaattisesti tuotetut tiivistelmät ovat luettavia, keskimäärin tiiviitä ja niistä löytyy keskeisiä asioita juuri se määrä, mitä tässä tutkimuksessa käytetyltä menetelmältä odotetaan. Kahdenlaisia ongelmia esiintyi. Useita aiheita sisältävistä lähdeteksteistä, joissa on monikollinen otsikko, tuotetut automaattiset tiivistelmät sisältävät lauseita vain yhdestä aiheesta ja yhtenäisyyden suurimmaksi esteeksi osoittautuivat anaforiset viittaukset.
Tiivistelmän 'hyvyys' on hyvin subjektiivinen näkemys, mutta tässä tutkimuksessa käytetty automaattinen tekstin tiivistysmenetelmä toimii tutkimustulosten valossa käytännössä hyvin.