Hyppää sisältöön
    • Suomeksi
    • In English
Trepo
  • Suomeksi
  • In English
  • Kirjaudu
Näytä viite 
  •   Etusivu
  • Trepo
  • Opinnäytteet - ylempi korkeakoulututkinto
  • Näytä viite
  •   Etusivu
  • Trepo
  • Opinnäytteet - ylempi korkeakoulututkinto
  • Näytä viite
JavaScript is disabled for your browser. Some features of this site may not work without it.

Billable work detection from time-entry comments

Harb, Tariq (2024)

 
Avaa tiedosto
HarbTariq.pdf (1.424Mt)
Lataukset: 



Harb, Tariq
2024

Tietotekniikan DI-ohjelma - Master's Programme in Information Technology
Informaatioteknologian ja viestinnän tiedekunta - Faculty of Information Technology and Communication Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2024-02-09
Näytä kaikki kuvailutiedot
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:tuni-202401181609
Tiivistelmä
In the context of work time tracking, time-entries give information about the work done, such as how much time was spent and whether the work can be billed to a customer. Labeling time-entries correctly as billable is important, as billable work directly corresponds to revenue for a company. Thus, it is beneficial, but time consuming, for humans to correct the labels of each time-entry. This process can be sped up with automatic detection of mislabeled time-entries. This work was done for Evitec Ltd., and it studied different methods to solve the binary classification problem of time-entry classification in the context of this use case.

The dataset used in this work is novel, and it was provided by Evitec Ltd. It contains time-entry comments and their labels of billable or non-billable. The unique features of the dataset resulted in the evaluation of many different embedding-classifier combinations. Embedding is a method for transforming data to another form. Existing results and previous experiences influenced the selection of embeddings and classifiers. The classifiers were categorized into two groups: neural network methods and classical methods. A classical method is any machine learning algorithm that is not a neural network.

The evaluation was an iterative process, where the worst-performing models were dropped out. Different parameter configurations were evaluated, with neural network methods achieving the best performance. Improvements in performance for classical methods were difficult to achieve due to a small number of hyperparameters. Neural networks on the other hand, had many different configuration options, with the layer structure affecting the performance the most.

The evaluation results showed that ensembles, which are a combination of multiple different models, performed the best. However, single-model methods had faster training times and inference speeds. The performance of most models might have been further improved with modifications to the dataset, though these changes were left as future work. Finally, an ensemble of three neural network models was chosen for use, to aid humans in detecting mislabeled time-entries.
 
Työajanseurannassa tuntikirjaukset kertovat tehdystä työstä, kuten käytetty aika tai onko työ laskutettavaa. Tuntikirjausten luokittelu laskutettavaksi on tärkeää, sillä laskutettava työ vaikuttaa suoraan yrityksen tuloihin. Tuntikirjausten laskutettavuuden tarkistaminen ihmisten toimesta on siis hyödyllistä mutta aikaavievää. Tätä prosessia on mahdollista nopeuttaa automatisoimalla väärin luokiteltujen tuntikirjausten tunnistamisen. Tämä työ tehtiin yritykselle Evitec Oy ja se käsittelee eri metodeja kahden luokan luokitteluongelman ratkaisuun.

Työssä käytetty tietoaineisto on uusi ja sen toimitti Evitec Oy. Se sisältää tuntikirjausten kommentit ja tiedon oliko työ laskutettavaa vai ei. Tietoaineiston uniikit ominaisuudet johtivat usean eri upotus-luokittaja yhdistelmän arviointiin. Upotus (embedding) on metodi datan muuntamiseen toiseen muotoon. Olemassa olevat tulokset ja aikaisemmat kokemukset vaikuttivat upotuksien ja luokittajien valintaan. Luokittajat jaettiin kahteen ryhmään: neuroverkkoihin ja klassisiin metodeihin. Klassinen metodi on mikä tahansa koneoppimis algoritmi, joka ei ole neuroverkko.

Arviointi oli iteratiivinen prosessi, jossa huonoiten suoriutuneet mallit tiputettiin pois. Parametrien eri kokoonpanoja arvioitiin, joista neuroverkot saavuttivat parhaan tuloksen. Tulosten parantaminen klassisten metodien osalta oli haastavaa, sillä ne sisälsivät vain vähän konfiguroitavia parametreja. Neuroverkoissa taas parametreja on paljon erilaisia, joista kerrosten rakenne vaikutti tulokseen eniten.

Arvioinnin lopputuloksista kävi ilmi, että kokoelmat, jotka ovat usean eri koneoppimismallin yhdeistelmä, saivat parhaat tulokset. Yksittäiset koneoppimismallit kuitenkin voittivat kokoelmat koulutusajassa ja inferenssinopeudessa. Useiden mallien suorituskykyä olisi mahdollisesti voitu parantaa muutoksilla tietoaineistoon, mutta nämä muutokset jäävät tulevaksi työksi. Lopuksi kolmen neuroverkon kokoelma valittiin käyttöön avustamaan ihmisiä tuntikirjausten luokittelussa.
 
Kokoelmat
  • Opinnäytteet - ylempi korkeakoulututkinto [41871]
Kalevantie 5
PL 617
33014 Tampereen yliopisto
oa[@]tuni.fi | Tietosuoja | Saavutettavuusseloste
 

 

Selaa kokoelmaa

TekijätNimekkeetTiedekunta (2019 -)Tiedekunta (- 2018)Tutkinto-ohjelmat ja opintosuunnatAvainsanatJulkaisuajatKokoelmat

Omat tiedot

Kirjaudu sisäänRekisteröidy
Kalevantie 5
PL 617
33014 Tampereen yliopisto
oa[@]tuni.fi | Tietosuoja | Saavutettavuusseloste