Mikroaineistojen anonymisointi ja paljastumisriskin arviointi
Saaninkoski, Saara (2021)
Saaninkoski, Saara
2021
Tietojenkäsittelytieteiden kandidaattiohjelma - Bachelor's Programme in Computer Sciences
Informaatioteknologian ja viestinnän tiedekunta - Faculty of Information Technology and Communication Sciences
This publication is copyrighted. You may download, display and print it for Your own personal use. Commercial use is prohibited.
Hyväksymispäivämäärä
2021-01-29
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:tuni-202101251690
https://urn.fi/URN:NBN:fi:tuni-202101251690
Tiivistelmä
EU:n tietosuoja-asetuksen määritelmän mukaan henkilötiedot ovat tunnistettavissa olevaan luonnolliseen henkilöön liittyviä tietoja, ja niitä koskevat yksityisyyden suojaksi säädetyt käsittelyä, tallennusta sekä julkaisua koskevat säännökset. Anonymisoinnilla tarkoitetaan henkilötiedoista johdettua tietoa, jota on muokattu siten, ettei tietoa voida välillisestikään yhdistää yksittäiseen henkilöön. Anonymisoitu tieto ei siis sisällä henkilötietoja, eikä siihen näin ollen sovelleta henkilötietoja koskevia säännöksiä.
Anonymisointiin on kehitetty monia menetelmiä, joissa tietoja esimerkiksi poistetaan, yleistetään, tai niihin lisätään kohinaa. Anonymisoinnin tavoite on yksityisyyden turvaamisen lisäksi myös säilyttää alkuperäisen aineiston tietoarvo mahdollisimman tarkkana ja muuttumattomana. Riittävän suojaustason määrittäminen aineiston tietoarvo samalla mahdollisimman hyvin säilyttäen on kuitenkin haastava optimointiongelma. Kiinnostus anonymisointimenetelmien kehittämiseen on kasvanut 2000-luvulla muun muassa tiukentuneiden tietosuojasäännösten sekä jatkuvasti kehittyvien anonymisoinnin purkutekniikoiden vuoksi. Ihmisistä kerätään lisäksi yhä kasvavassa määrin valtavia määriä dataa esimerkiksi sosiaalisessa mediassa, ja kerätyn tiedon hyödyntämiseen on niin taloudellisia kuin tieteellisiä intressejä.
Tässä kirjallisuuskatsauksessa tutustutaan yksikkötason aineistojen eli mikroaineistojen sisältämien henkilötietojen suojaamiseen anonymisoinnin avulla. Tutkielman tavoite on selvittää, mitä ovat yleisimmät anonymisointimenetelmät, millaisia rajoituksia niillä on, sekä kuinka anonymisoidun aineiston paljastumisriskiä voidaan arvioida.
Tutkielman johtopäätös on, että aineistot ovat niin monimuotoisia, ettei voida sanoa minkään menetelmän soveltuvan kaikkiin tapauksiin, vaan menetelmä tulee valita aineiston tyypin sekä loppukäyttäjän tarpeiden mukaan. Paljastumisriskin arviointi on tärkeässä roolissa, kun anonymisoinnin onnistumista tai kestävyyttä arvioidaan. Tietosuojan säilymiseksi on tärkeää, että tiedon käsittelijöillä on riittävästi asiantuntemusta eri anonymisointimenetelmien käytöstä sekä anonymisoidun aineiston yksityisyyden tason arvioinnista.
Anonymisointiin on kehitetty monia menetelmiä, joissa tietoja esimerkiksi poistetaan, yleistetään, tai niihin lisätään kohinaa. Anonymisoinnin tavoite on yksityisyyden turvaamisen lisäksi myös säilyttää alkuperäisen aineiston tietoarvo mahdollisimman tarkkana ja muuttumattomana. Riittävän suojaustason määrittäminen aineiston tietoarvo samalla mahdollisimman hyvin säilyttäen on kuitenkin haastava optimointiongelma. Kiinnostus anonymisointimenetelmien kehittämiseen on kasvanut 2000-luvulla muun muassa tiukentuneiden tietosuojasäännösten sekä jatkuvasti kehittyvien anonymisoinnin purkutekniikoiden vuoksi. Ihmisistä kerätään lisäksi yhä kasvavassa määrin valtavia määriä dataa esimerkiksi sosiaalisessa mediassa, ja kerätyn tiedon hyödyntämiseen on niin taloudellisia kuin tieteellisiä intressejä.
Tässä kirjallisuuskatsauksessa tutustutaan yksikkötason aineistojen eli mikroaineistojen sisältämien henkilötietojen suojaamiseen anonymisoinnin avulla. Tutkielman tavoite on selvittää, mitä ovat yleisimmät anonymisointimenetelmät, millaisia rajoituksia niillä on, sekä kuinka anonymisoidun aineiston paljastumisriskiä voidaan arvioida.
Tutkielman johtopäätös on, että aineistot ovat niin monimuotoisia, ettei voida sanoa minkään menetelmän soveltuvan kaikkiin tapauksiin, vaan menetelmä tulee valita aineiston tyypin sekä loppukäyttäjän tarpeiden mukaan. Paljastumisriskin arviointi on tärkeässä roolissa, kun anonymisoinnin onnistumista tai kestävyyttä arvioidaan. Tietosuojan säilymiseksi on tärkeää, että tiedon käsittelijöillä on riittävästi asiantuntemusta eri anonymisointimenetelmien käytöstä sekä anonymisoidun aineiston yksityisyyden tason arvioinnista.
Kokoelmat
- Kandidaatintutkielmat [8935]