Diagnosoinnin avustaminen tekstimuotoisista terveydenhuollon aineistoista
Niittunen, Ville (2018)
Niittunen, Ville
2018
Tietotekniikka
Tieto- ja sähkötekniikan tiedekunta - Faculty of Computing and Electrical Engineering
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2018-08-15
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:tty-201808142117
https://urn.fi/URN:NBN:fi:tty-201808142117
Tiivistelmä
Tässä työssä tutkittiin erilaisia menetelmiä diagnoosien ennustamiselle tekstimuotoisesta potilasdatasta koneoppimisen periaatteiden avulla. Terveydenhuollossa potilaasta tuotetaan hoitojaksottain paljon tekstimuotoista dataa ja hänelle määritellään erilaisia diagnooseja. Näitä muistiinpanoja ja diagnooseja voidaan käyttää koneoppimista hyödyntävän diagnoosiluokittelijan opettamisessa. Tekstimuotoisesta datasta tuotettiin sanatiheyksiin pohjautuvia piirteitä ja niitä käytettiin erilaisten koneoppimisalgoritmien avulla tehtävään opetustyöhön. Näiden opetettujen mallien suorituskykyä vertailtiin erilasten tarkkuusarvojen avulla.
Työssä käytettiin anonymisoitua MIMIC-III-potilastietokantaa, johon on mahdollista saada tutkimiskäyttöä varten käyttöoikeus. Hoitojaksojen tekstimuotoisista muistiinpanoista kerättiin niiden sisältämien sanojen perusmuodoista koostettuja TF-IDF-vektoreita ja ICD-9-muotoisia diagnoosikoodeja luokittelijoiden opettamista varten. Työssä osoitetaan, että koneoppimisen avulla tuotettu luokittelija pystyy luokittelemaan potilaiden hoitojaksoja diagnooseittain ICD-9-koodiston ylemmän hierarkiatason mukaan vaihtelevalla menestyksellä. Luokittelun tuloksiin vaikuttaa se kuinka spesifinen tietty luokka on ja onko luokkaa käytetty pääsäntöisesti ensisijaisena vai toissijaisena diagnoosina.
Ratkaisua voitaisiin kehittää tutkimalla syvien neuroverkkojen käyttöä ja tarkemmin takaisinkytkettyjen verkkojen käyttämistä hoitomerkintöjen aikariippuvuuksien hyödyntämiseksi. Toinen vaihtoehto jatkokehitykseen olisi miettiä sääntöpohjaisia ratkaisuja sekä merkintöjen metatietojen parempaa hyödyntämistä.
Työssä käytettiin anonymisoitua MIMIC-III-potilastietokantaa, johon on mahdollista saada tutkimiskäyttöä varten käyttöoikeus. Hoitojaksojen tekstimuotoisista muistiinpanoista kerättiin niiden sisältämien sanojen perusmuodoista koostettuja TF-IDF-vektoreita ja ICD-9-muotoisia diagnoosikoodeja luokittelijoiden opettamista varten. Työssä osoitetaan, että koneoppimisen avulla tuotettu luokittelija pystyy luokittelemaan potilaiden hoitojaksoja diagnooseittain ICD-9-koodiston ylemmän hierarkiatason mukaan vaihtelevalla menestyksellä. Luokittelun tuloksiin vaikuttaa se kuinka spesifinen tietty luokka on ja onko luokkaa käytetty pääsäntöisesti ensisijaisena vai toissijaisena diagnoosina.
Ratkaisua voitaisiin kehittää tutkimalla syvien neuroverkkojen käyttöä ja tarkemmin takaisinkytkettyjen verkkojen käyttämistä hoitomerkintöjen aikariippuvuuksien hyödyntämiseksi. Toinen vaihtoehto jatkokehitykseen olisi miettiä sääntöpohjaisia ratkaisuja sekä merkintöjen metatietojen parempaa hyödyntämistä.