Tekstin luokittelu
Mähönen, Mika (2013)
Mähönen, Mika
2013
Tietotekniikan koulutusohjelma
Tuotantotalouden ja rakentamisen tiedekunta - Faculty of Business and Built Environment
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2013-06-05
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:tty-201306141239
https://urn.fi/URN:NBN:fi:tty-201306141239
Tiivistelmä
Tämän diplomityön tarkoituksena oli tutkia tekstin luokittelua ja avainsanojen poimintaa. Tähän tarkasteluun tärkein yksittäinen tekijä on datan rakenne, jonka avulla työssä perusteellaan luokittelun tarpeellisuutta. Informaation etsintään on saatavilla kaksi keskeistä menetelmää, jotka ovat informaation poiminta strukturoimattomasta datasta ja strukturoidun datan käyttöönotto eli metadata. Työssä nämä menetelmät esitellään huolellisesti samalla argumentoiden, minkä tyyppisiä heikkouksia ja vahvuuksia niihin liittyy. Tämän tutkimuksen perusteella saatu lopputulos oli, että molempia menetelmiä tarvitaan osana kokonaisvaltaista sisällönhallintaratkaisua.
Sisällöstä kirjattujen avainsanojen ja luokittelun voidaan ajatella olevan sisällöstä saatavilla olevia havaintoja. Näiden havaintojen tarkoitus on tiivistää tekstiä niin, että dokumentin löytäminen on yksinkertaisempaa. Luokittelu ja avainsanojen kerääminen on edellyttänyt perinteisesti ihmistyötä, koska teksti edellyttää tulkintaa. Tämä on myös syy, miksi ihmiset suorittavat edelleen avainsanojen poimintaa ja luokittelua. Tämän prosessin automatisointi voi parantaa monien tietoteknillisen järjestelmien tehokkuutta ja säästää aikaa prosessoitaessa suurta määrää tekstidokumentteja. Aihealuetta työssä tutkitaan esittelemällä toimenpiteet, joita tekstin luokitteluun ja avainsanojen poimintaan tarvitaan. Tämä tutkimus on jaettu NLP-menetelmiin (engl. natural language processing) ja luokittelualgoritmeihin. NLP-tekniikoiden tehtävänä on poistaa haasteita, jotka liittyvät merkkijonojen vertailuun tietokoneen muistissa. Näiden tekniikoiden osalta työssä esitellään kielen tunnistusta, tekstin jakamista avaimiin, sanojen palauttamista perusmuotoon, konseptien mallintamista ja ominaisuuksien valintaa. Luokittelualgoritmien osalta työssä tutkitaan naiivia Bayesian luokittelua ja päätöspuita. Näistä algoritmeista annetaan myös käytännön esimerkki, joka vahvistaa esitellyn teorian käytännössä. Tutkimuksen aikana luokittelujärjestelmissä havaittiin muutamia rajoituksia. Näistä rajoituksista ensimmäinen on, ettei luokittelujärjestelmä omaa ihmiselle tunnusomaisia abstraktiotasoja. Näin ollen tietokone ei pysty yhdistämään esimerkiksi sanoja auto ja ajoneuvo toisiinsa. Toinen löydetty rajoite oli, ettei sanojen sijaintia huomioida tekstissä. Löydetyistä rajoitteista huolimatta, monet algoritmit toimivat todellisuudessa varsin hyvin. Tämä on todennettu myös useissa tieteellisissä julkaisuissa.
Työssä luokittelua ja avainsanojen keräämistä tutkittiin myös käytännön ympäristössä eräässä Suomessa toimivassa pankki- ja vakuutusyhtiössä. Tässä projektissa hyödynnettiin IBM:n Content Classification Modulea, joka käyttöönotettiin asiakasympäristössä. Tämän projektin osalta työssä esitellään saatuja kokemuksia ja muutama parannusehdotus nykyiseen järjestelmään. Projektista saatujen kokemusten perusteella tuote todettiin käyttökelpoiseksi tekstin luokitteluun ja avainsanojen poimintaan. The purpose of this master's thesis was to study text classification and keyword extraction methods. Data structure is the most important factor when one considers, how important information can be located from a vast amount of data. There are two ways to approach locating relevant information: the first one relies on unstructured data and the second one on structured information which is known as metadata. These methods are carefully introduced with their advantages and disadvantages to the argument of why classification and keywords are needed with data warehouses. Conclusion of this study was that both approaches are required as a part of a comprehensive content management solution.
Keywords and text classification can be seen as a limited amount of observations from the text content. In fact the purpose of keywords and text classification is to provide all the necessary information. This information can then be used to locate documents that satisfy our information needs. Classification and keyword extraction process has traditionally required human interpretation known as cognition which computers do not have. Cognition has been the main reason why humans are still required in this process. To have this process automated could enhance functionality of many computer systems and save time while processing large amount of data. This matter is studied by introducing operations that are required to classify a text document and extract its keywords. This subject is divided into natural language processing and text classification algorithms. The aim of natural language processing is to remove challenges that arise from comparison of character strings in the memory of a computer. The following natural language techniques were studied: language recognition, text tokenization, lemmatization, stemming, concept modeling and feature selection algorithms. This thesis introduces two classification algorithms which are naive Bayes and decision trees. An example is given of both of them to proof theories in practice. Conclusion of this study was that the studied text algorithms have few limitations. The first limitation is that computers do not have similar understanding of words occurred in text. For example humans are able to automatically connect the word car to vehicle while computers are not. The second limitation is that word position in the text is not taken into account. Despite limitations found from classification algorithms, they do work relatively well and it has been proven by many scientific studies and publications.
Keyword extraction and text classification were studied in practice. This part of study was carried out for a company that operates within the insurance and bank sector in Finland. During the project IBM's product Content Classification Module was commissioned in use. Conclusion of the project was that the studied product works very well in practice. Based on this project a few improvements were found and they are being introduced to the customer.
Sisällöstä kirjattujen avainsanojen ja luokittelun voidaan ajatella olevan sisällöstä saatavilla olevia havaintoja. Näiden havaintojen tarkoitus on tiivistää tekstiä niin, että dokumentin löytäminen on yksinkertaisempaa. Luokittelu ja avainsanojen kerääminen on edellyttänyt perinteisesti ihmistyötä, koska teksti edellyttää tulkintaa. Tämä on myös syy, miksi ihmiset suorittavat edelleen avainsanojen poimintaa ja luokittelua. Tämän prosessin automatisointi voi parantaa monien tietoteknillisen järjestelmien tehokkuutta ja säästää aikaa prosessoitaessa suurta määrää tekstidokumentteja. Aihealuetta työssä tutkitaan esittelemällä toimenpiteet, joita tekstin luokitteluun ja avainsanojen poimintaan tarvitaan. Tämä tutkimus on jaettu NLP-menetelmiin (engl. natural language processing) ja luokittelualgoritmeihin. NLP-tekniikoiden tehtävänä on poistaa haasteita, jotka liittyvät merkkijonojen vertailuun tietokoneen muistissa. Näiden tekniikoiden osalta työssä esitellään kielen tunnistusta, tekstin jakamista avaimiin, sanojen palauttamista perusmuotoon, konseptien mallintamista ja ominaisuuksien valintaa. Luokittelualgoritmien osalta työssä tutkitaan naiivia Bayesian luokittelua ja päätöspuita. Näistä algoritmeista annetaan myös käytännön esimerkki, joka vahvistaa esitellyn teorian käytännössä. Tutkimuksen aikana luokittelujärjestelmissä havaittiin muutamia rajoituksia. Näistä rajoituksista ensimmäinen on, ettei luokittelujärjestelmä omaa ihmiselle tunnusomaisia abstraktiotasoja. Näin ollen tietokone ei pysty yhdistämään esimerkiksi sanoja auto ja ajoneuvo toisiinsa. Toinen löydetty rajoite oli, ettei sanojen sijaintia huomioida tekstissä. Löydetyistä rajoitteista huolimatta, monet algoritmit toimivat todellisuudessa varsin hyvin. Tämä on todennettu myös useissa tieteellisissä julkaisuissa.
Työssä luokittelua ja avainsanojen keräämistä tutkittiin myös käytännön ympäristössä eräässä Suomessa toimivassa pankki- ja vakuutusyhtiössä. Tässä projektissa hyödynnettiin IBM:n Content Classification Modulea, joka käyttöönotettiin asiakasympäristössä. Tämän projektin osalta työssä esitellään saatuja kokemuksia ja muutama parannusehdotus nykyiseen järjestelmään. Projektista saatujen kokemusten perusteella tuote todettiin käyttökelpoiseksi tekstin luokitteluun ja avainsanojen poimintaan.
Keywords and text classification can be seen as a limited amount of observations from the text content. In fact the purpose of keywords and text classification is to provide all the necessary information. This information can then be used to locate documents that satisfy our information needs. Classification and keyword extraction process has traditionally required human interpretation known as cognition which computers do not have. Cognition has been the main reason why humans are still required in this process. To have this process automated could enhance functionality of many computer systems and save time while processing large amount of data. This matter is studied by introducing operations that are required to classify a text document and extract its keywords. This subject is divided into natural language processing and text classification algorithms. The aim of natural language processing is to remove challenges that arise from comparison of character strings in the memory of a computer. The following natural language techniques were studied: language recognition, text tokenization, lemmatization, stemming, concept modeling and feature selection algorithms. This thesis introduces two classification algorithms which are naive Bayes and decision trees. An example is given of both of them to proof theories in practice. Conclusion of this study was that the studied text algorithms have few limitations. The first limitation is that computers do not have similar understanding of words occurred in text. For example humans are able to automatically connect the word car to vehicle while computers are not. The second limitation is that word position in the text is not taken into account. Despite limitations found from classification algorithms, they do work relatively well and it has been proven by many scientific studies and publications.
Keyword extraction and text classification were studied in practice. This part of study was carried out for a company that operates within the insurance and bank sector in Finland. During the project IBM's product Content Classification Module was commissioned in use. Conclusion of the project was that the studied product works very well in practice. Based on this project a few improvements were found and they are being introduced to the customer.