Tecniche di data masking. Pseudonimizzare o anonimizzare? Questo il dilemma
Tra le misure di sicurezza per la protezione dei dati personali, il GDPR raccomanda espressamente l’utilizzo di sistemi che consentano di anonimizzare o pseudonimizzare le informazioni che identificano una persona, anche se in realtà, già la direttiva n. 95/46/CE vi faceva riferimento al considerando n. 26 e il Gruppo di Lavoro Art. 29 aveva parlato ampiamente di tecniche di anonimizzazione nel proprio parere adottato il 10 aprile 2014. Si tratta di meccanismi che di certo riducono i rischi connessi al trattamento di dati personali e che contribuiscono a rendere i titolari/responsabili del trattamento conformi alle nuove regole sulla privacy, ma che a volte rendono più difficoltoso il lavoro di chi quotidianamente opera sui dati. Ma quali sono le differenze tra queste due tipologie di misure di sicurezza?
Pseudonimizzazione
La pseudonimizzazione garantisce la privacy sostituendo la maggior parte dei campi identificabili contenuti all’interno di un record in cui sono presenti dati personali, con uno o più elementi mascherati o pseudonimi. Può essere usato ad esempio un unico pseudonimo riferito ad un insieme univoco di dati, ma anche un singolo pseudonimo per ogni specifico dato.
Il GDPR fornisce una definizione di pseudonimizzazione, spiegandola come il trattamento dei dati personali in modo tale che i dati personali non possano più essere attribuiti a un interessato specifico senza l'utilizzo di informazioni aggiuntive, a condizione che tali informazioni aggiuntive siano conservate separatamente e soggette a misure tecniche e organizzative intese a garantire che tali dati personali non siano attribuiti a una persona fisica identificata o identificabile.
Pertanto, in base a quanto stabilito dal Regolamento n.679, al fine di pseudonimizzare correttamente un insieme di dati occorre che le ulteriori informazioni che rendono quei dati attribuibili ad un soggetto specifico, consentendone dunque l’identificazione, siano conservate separatamente e soggette a misure tecniche e organizzative che garantiscano la non attribuzione a una persona identificata o identificabile.
Differenze tra pseudonimizzazione e anonimizzazione
Pseudonimizzare e anonimizzare sono due facce della stessa medaglia, entrambe, infatti, generalmente oscurano i dati personali, tuttavia, mentre la pseudonimizzazione permette di identificare in un secondo momento i dati anche in maniera indiretta o da remoto, i dati anonimi non consentono la successiva identificazione.
Si tratta quindi di tecniche che hanno effetti sostanzialmente diversi sui dati. Mediante l’anonimizzazione, viene rimosso qualsiasi elemento riconoscibile che possa permettere a tali informazioni combinate di risalire ad un soggetto specifico identificandolo. La pseudonimizzazione diversamente non elimina tutti gli elementi identificativi dai dati, ma riduce semplicemente il collegamento di un set di dati con l’identità originale di un individuo (usando ad esempio la crittografia).
Entrambe le tecniche sono efficaci per ridurre i rischi al minimo sui dati personali e molti software oramai consentono di svolgere tali operazioni in maniera automatizzata riducendo notevolmente i costi di adeguamento al GDPR. La scelta tra le due tecniche è rimessa ai titolari/responsabili del trattamento che dovrebbero optare per l’una o per l’altra o anche per entrambe a seconda del contesto in cui dovranno essere applicate, in ragione della tipologia di dati trattati e dei rischi connessi al trattamento stesso.
Ma quali dati dovrebbero essere resi anonimi?
Le tecniche di anonimizzazione potrebbero essere usate per mascherare dati personali di dipendenti, di fornitori, di clienti; ad esempio potrebbe essere applicata tale tecnica in relazione a:
- codici fiscali, partite iva di liberi professionisti;
- coordinate bancarie, IBAN, numeri di conti correnti;
- dichiarazioni di redditi; fatture;
- dati genetici, dati sanitari, dati finanziari, ecc...;
- numeri di carte di credito, postepay;
- numeri di telefono; indirizzi
Attraverso quali misure è possibile pseudonimizzare i dati personali?
Esistono numerose tecniche che consentono di effettuare una pseudonimizzazione del dato, la scelta tra quella più opportuna dipende dall’effetto che si intende ottenere sulla struttura dei dati. Vediamone alcune.
Uso di chiavi d’accesso, funzioni di hash e token
Se si tratta di dati importanti e non si vuole alterare in alcun modo la struttura del set di dati è possibile selezionare le informazioni identificabili e usare la crittografia mediante l’impiego di una chiave d’accesso forte o una funzione di hash. Questo consente di mantenere il file integro senza incidere più di tanto sul contenuto effettivo dello stesso; in questo modo, le informazioni contenute in quel file saranno mascherate, protette e rese illeggibili e solo le persone che avranno a disposizione la chiave d’accesso (comunemente chiamata chiave di decrittografia) o la password potranno leggere il contenuto del file.
Un’altra tecnica è quella che impiega il token, che come ben sappiamo si usa solitamente per criptare i dati finanziari, essa si basa sull’impiego di un meccanismo di crittografia univoca o sull’assegnazione, tramite una funzione indicizzata, di un numero sequenziale o di un numero generato casualmente che non deriva esattamente dai dati originali.
Attraverso quali tecniche è possibile rendere i dati anonimi?
Correlabilità
Si tratta della possibilità di correlare almeno due informazioni riguardanti una stessa persona o un gruppo di soggetti inseriti nella stessa banca di dati o in due diverse banche dati; mediante questa tecnica un soggetto non autorizzato potrebbe essere in grado di determinare (ad esempio mediante un’analisi della correlazione) che due informazioni sono assegnate allo stesso gruppo di persone, ma non riuscirebbe ad identificare alcuna persona del gruppo.
Aggiunta del rumore statistico
Questa tecnica consiste nell’alterazione degli attributi contenuti in un set di dati in modo tale da renderli meno precisi, mantenendo allo stesso tempo la composizione generale. Nel momento in cui tratta il set di dati, l’osservatore presume che i valori attribuiti siano certi ed esatti, ma ciò corrisponde solo limitatamente al vero. Ad esempio, se il peso di una persona è stato inizialmente misurato avvicinandosi al kg più vicino, l’insieme di dati anonimizzati potrebbe contenere un peso preciso solo con un’approssimazione di + - 5 kg. Se la tecnica viene applicata in maniera efficace, eventuali terzi non riescono a identificare una persona né possono correggere i dati.
Generalizzazione
Si tratta di una tecnica che consiste nell’estendere le scale di grandezza, generalizzando gli attributi riferiti ad uno stesso gruppo di soggetti (ad es. un mese al posto di una settimana; una regione al posto di un paese). Così ad esempio determinati soggetti possono essere classificati in un gruppo e utilizzato un fattor comune per individuarli: le date di nascita individuali possono essere generalizzate in una serie di date o raccolte per mese o anno; altri attributi numerici (ad esempio, retribuzioni, altezza, peso o dosaggi di uno stesso farmaco) possono essere generalizzati mediante l’impiego di intervalli di valori (ad esempio, peso da 60 kg a 80 kg).
Scrambling
Si tratta di tecniche che consentono di offuscare le lettere dell’alfabeto mescolandole tra loro. A volte il processo può essere invertito.
Naturalmente, esistono molte altre tecniche con gradi di affidabilità differenti e molti software e aziende che forniscono servizi per effettuare la pseudonimizzazione o l’anonimizzazione del dato: utilizzandoli sui propri database questi software restituiscono un contenuto in cui i dati personali sono sostituiti da valori non correlati ai dati a seconda della tecnica impiegata. Vi sono alcuni software che consentono di essere installati sulle macchine, vengono concessi in licenza (alcuni sono opensource) e permettono di effettuare la conversione direttamente in house, senza passare per la rete Internet, permettendo così una maggiore protezione del dato e un più alto livello di sicurezza per l’adeguamento al GDPR di titolari e responsabili del trattamento.