Yksityisyyden suojaaminen hajautetussa oppimisessa ja hajautetun oppimisen soveltaminen digipatologiaan
Lehto, Vilma (2023)
Lehto, Vilma
2023
Bioteknologian ja biolääketieteen tekniikan kandidaattiohjelma - Bachelor's Programme in Biotechnology and Biomedical Engineering
Lääketieteen ja terveysteknologian tiedekunta - Faculty of Medicine and Health Technology
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2023-09-19
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:tuni-202308307879
https://urn.fi/URN:NBN:fi:tuni-202308307879
Tiivistelmä
Keräämällä ja tilastoimalla potilaista kerättyä lääketieteellistä dataa on tehty suuria lääke-tieteellisiä läpimurtoja. Tällä hetkellä lääketieteellisen ja biologisen tiedon määrä kasvaa jatkuvasti. Samaan aikaan koneoppimisen ja syväoppimisen menetelmien yleistyessä on kerättävän datan potentiaali suuri. Kuitenkaan tällä hetkellä kerättyä tietoa ei päästä hyödyntämään kunnolla sen tarkan säätelyn takia. Euroopan tietosuoja-asetus ja Suomen tietosuojalaki määrittävät tarkat kriteerit henkilökohtaisen datan kuten terveysdatan käsittelylle. Hajautettu oppiminen tarjoaa mahdollisuuden terveysdatan käsittelyyn ilman potilaiden yksityisyydensuojan vaarantamista.
Hajautettu oppiminen on koneoppimisen menetelmä. Poiketen perinteisestä koneoppimisesta opetusdataa ei keskitetä tai jaeta muille osallistujille. Opettaminen tapahtuu jokaisen osallistujan omalla palvelimella ja omalla datalla. Tällöin osallistujan datan ei tarvitse poistua sen palvelimelta ollenkaan. Kun jokainen osallistuja on opettanut mallin, yhdistetään ne yhdeksi yleiseksi malliksi. Menetelmän ominaisuudet ovat herättäneet tutkijoiden mielenkiinnon ja sen soveltamista terveydenhuoltoon on alettu tutkia.
Vaikka hajautetussa oppimisessa ei tarvitse jakaa dataa on menetelmässä silti tietosuoja-riskejä. Opetettujen mallien siirtäminen palvelimien välillä voi vaarantaa potilaiden yksityisyyden. Opetetusta mallista on mahdollista saada tarkkaa tietoa organisaation potilaista ja jopa tunnistaa yksittäisiä potilaita. Tämän takia on hajautetun oppimisen menetelmiin aina sovellettava erilaisia tietosuojaa parantavia toimenpiteitä.
Tietosuojamenetelmistä työssä käydään läpi henkilötietojen poistamisen menetelmät, joihin kuuluu anonymisointi ja pseudonymisointi. Niissä datasta poistetaan tunnistetiedot, mutta ne eivät silti anna merkittäviä tietosuojatakuita. Häiriömenetelmät, joiden ydinideana on häiriön lisääminen dataan, parantavat tietosuojaa mutta heikentävät datan laatua. Näiden lisäksi käsitellään myös erilaisia kryptografisia menetelmiä, jotka perustuvat datan salaamiseen. Nämä suojaavat dataa hyvin ulkopuolisilta tietosuojariskeiltä, mutta kasvattavat ohjelman vaatimaa laskentatehoa. Kun jokaisella tietosuojamenetelmällä on hyvät ja huonot puolensa, käsitellään työssä myös menetelmien yhdistämistä.
Työssä perehdytään hajautetun oppimisen soveltamiseen digipatologiassa. Menetelmän soveltaminen alaan vaatii hieman datan esikäsittelyä, mutta sitä on onnistuttu soveltamaan moneen eri tehtävään. Vaikka tutkitut menetelmät eivät aivan yllä samalla tasolle kuin perinteiset keskitetyt koneoppimisen menetelmät ovat tulokset silti hyvin lupaavia. Verrattuna yhden laitoksen toteuttamaan koneoppimisen malliin hajautetun oppimisen mallit ovat usein tarkempia.
Hajautettu oppiminen on koneoppimisen menetelmä. Poiketen perinteisestä koneoppimisesta opetusdataa ei keskitetä tai jaeta muille osallistujille. Opettaminen tapahtuu jokaisen osallistujan omalla palvelimella ja omalla datalla. Tällöin osallistujan datan ei tarvitse poistua sen palvelimelta ollenkaan. Kun jokainen osallistuja on opettanut mallin, yhdistetään ne yhdeksi yleiseksi malliksi. Menetelmän ominaisuudet ovat herättäneet tutkijoiden mielenkiinnon ja sen soveltamista terveydenhuoltoon on alettu tutkia.
Vaikka hajautetussa oppimisessa ei tarvitse jakaa dataa on menetelmässä silti tietosuoja-riskejä. Opetettujen mallien siirtäminen palvelimien välillä voi vaarantaa potilaiden yksityisyyden. Opetetusta mallista on mahdollista saada tarkkaa tietoa organisaation potilaista ja jopa tunnistaa yksittäisiä potilaita. Tämän takia on hajautetun oppimisen menetelmiin aina sovellettava erilaisia tietosuojaa parantavia toimenpiteitä.
Tietosuojamenetelmistä työssä käydään läpi henkilötietojen poistamisen menetelmät, joihin kuuluu anonymisointi ja pseudonymisointi. Niissä datasta poistetaan tunnistetiedot, mutta ne eivät silti anna merkittäviä tietosuojatakuita. Häiriömenetelmät, joiden ydinideana on häiriön lisääminen dataan, parantavat tietosuojaa mutta heikentävät datan laatua. Näiden lisäksi käsitellään myös erilaisia kryptografisia menetelmiä, jotka perustuvat datan salaamiseen. Nämä suojaavat dataa hyvin ulkopuolisilta tietosuojariskeiltä, mutta kasvattavat ohjelman vaatimaa laskentatehoa. Kun jokaisella tietosuojamenetelmällä on hyvät ja huonot puolensa, käsitellään työssä myös menetelmien yhdistämistä.
Työssä perehdytään hajautetun oppimisen soveltamiseen digipatologiassa. Menetelmän soveltaminen alaan vaatii hieman datan esikäsittelyä, mutta sitä on onnistuttu soveltamaan moneen eri tehtävään. Vaikka tutkitut menetelmät eivät aivan yllä samalla tasolle kuin perinteiset keskitetyt koneoppimisen menetelmät ovat tulokset silti hyvin lupaavia. Verrattuna yhden laitoksen toteuttamaan koneoppimisen malliin hajautetun oppimisen mallit ovat usein tarkempia.
Kokoelmat
- Kandidaatintutkielmat [8452]