Anonymisointimenetelmiä henkilötietoa sisältävälle rivitason tiedolle
Rajala, Johannes (2024-05-07)
Anonymisointimenetelmiä henkilötietoa sisältävälle rivitason tiedolle
Rajala, Johannes
(07.05.2024)
Julkaisu on tekijänoikeussäännösten alainen. Teosta voi lukea ja tulostaa henkilökohtaista käyttöä varten. Käyttö kaupallisiin tarkoituksiin on kielletty.
avoin
Julkaisun pysyvä osoite on:
https://urn.fi/URN:NBN:fi-fe2024051430399
https://urn.fi/URN:NBN:fi-fe2024051430399
Tiivistelmä
Euroopan Unionin yleinen tietosuoja-asetus ja Suomen laki sosiaali- ja terveystietojen toissijaisesta käytöstä säätelevät henkilötietoa sisältävän tiedon toissijaista käyttöä Suomessa. Jos henkilötieto anonymisoidaan, ei siihen sovelleta enää tietosuoja-asetusta tai toisiolakia; anonyymiä tietoa ei lueta henkilötiedoksi, jolloin sen käyttö on vapaampaa. Anonymisoinnin tarkoituksena on muuttaa tieto muotoon, jossa havaintoyksiköihin ei kohdistu paljastumisen riskiä. Anonymisointi kuitenkin heikentää tiedon käytettävyyttä, eli kykyä tehdä sillä tilastollista päättelyä, joka olisi yhtenevää alkuperäisellä tiedolla tehtyyn päättelyyn.
Tässä tutkielmassa tarkastellaan viittä rivitason tiedon anonymisointimenetelmää: k-anonymiteettiä, l-diversiteettiä, spektraalista kohinaa, spektraalista sarakepermutaatiota ja kryptografista RSA-menetelmää. Menetelmiä tarkastellaan niiden tuottamien aineistojen yksityisyydensuojan, käytettävyyden ja samankaltaisuuden perusteella.
Spektraalinen sarakepermutaatio tuotti yksityisyydensuojaltaan ja samankaltaisuudeltaan parhaat aineistot. Oikeilla parametrivalinnoilla, k-anonymiteetti ja l-diversiteetti tuottivat käytettävyydeltään parhaat aineistot. RSA:lla salattujen aineistojen käytettävyys ja samankaltaisuus olivat huonoja, eikä niiden yksityisyydensuojaa voitu arvioida tutkielman empiirisillä menetelmillä.
Tässä tutkielmassa tarkastellaan viittä rivitason tiedon anonymisointimenetelmää: k-anonymiteettiä, l-diversiteettiä, spektraalista kohinaa, spektraalista sarakepermutaatiota ja kryptografista RSA-menetelmää. Menetelmiä tarkastellaan niiden tuottamien aineistojen yksityisyydensuojan, käytettävyyden ja samankaltaisuuden perusteella.
Spektraalinen sarakepermutaatio tuotti yksityisyydensuojaltaan ja samankaltaisuudeltaan parhaat aineistot. Oikeilla parametrivalinnoilla, k-anonymiteetti ja l-diversiteetti tuottivat käytettävyydeltään parhaat aineistot. RSA:lla salattujen aineistojen käytettävyys ja samankaltaisuus olivat huonoja, eikä niiden yksityisyydensuojaa voitu arvioida tutkielman empiirisillä menetelmillä.