Nell’ultimo articolo abbiamo dedicato molto spazio all’importanza del contesto, per poi concludere con un accenno alle tecniche da utilizzare per ottenere un database anonimizzato.
Si era detto che le norme in tema di trattamento dei dati personali non prescrivono l’utilizzo di strumenti e tecniche particolari per ottenere un solido processo di anonimizzazione.
Sono due i principali motivi che spiegano questa mancanza di indicazioni:
- non esiste una tecnica di anonimizzazione di per sé valida, efficace, universale: a seconda delle caratteristiche del dataset (di dati personali) di partenza e dell’obiettivo perseguito, può risultare più adeguata una tecnica rispetto ad un’altra, oppure un insieme di tecniche rispetto all’utilizzo di una sola;
- anche in questo ambito vige il principio di accountability, per cui spetta al Titolare del trattamento valutare e decidere esigenze e soluzioni compliant dal punto di vista privacy, in base alla valutazione dei rischi considerati.
Quindi, per colmare il silenzio del GDPR e del Codice privacy, è possibile ricorrere alle Linee guida, ai Codici di condotta e ai Pareri citati nel primo articolo del nostro percorso per riuscire ad orientarsi tra le varie tecniche di anonimizzazione esistenti.
In particolare, il Parere 05/2014 sulle tecniche di anonimizzazione del Gruppo di lavoro ex art. 29 e la Guida all’anonimizzazione e alla pseudonimizzazione del Garante irlandese dedicano uno spazio importante alla descrizione del mascheramento, della randomizzazione, della generalizzazione e dell’anonimizzazione stratificata o ri-anonimizzazione.
Vediamo di seguito i principali aspetti delle tecniche citate.
Mascheramento
Il mascheramento comporta la rimozione di identificatori personali ovvi o diretti (come ad esempio nomi, indirizzi, immagini). In questo modo, il numero dei dati originali si riduce senza che i dati originali vengano alterati o modificati. Semplicemente, viene diminuito il livello di dettaglio scongiurando la presenza di informazioni direttamente riconducibili all’interessato.
Il mascheramento, utilizzato da solo, non permette di raggiungere l’anonimizzazione di un database. Per questo motivo viene utilizzato come base di partenza o come supporto ad altre tecniche.
Randomizzazione
La randomizzazione è una famiglia di tecniche che comportano l’alterazione dei datidi partenza, al fine di spezzare il legame tra l’individuo e i dati. Per il fine di eliminare la forte correlazione che esiste tra i dati e la persona, modifica la veridicità e l’esattezza dei dati: se i dati sono sufficientemente incerti e meno accurati, non possono più essere riferiti a una persona specifica.
Tra le misure riconducibili alla randomizzazione si segnalano:
- l’aggiunta di rumore statistico, che consiste nella modifica dei dati mediante l’aggiunta di piccoli cambiamenti casuali, per limitare la capacità di collegare i dati ad un individuo,
- la permutazione, che consiste nel mescolare i valori all’interno di una tabella in modo tale che alcuni di essi risultino artificialmente collegati a diverse persone interessate.
Generalizzazione
La generalizzazione è una famiglia di tecniche che agiscono sulla riduzione della granularità dei dati, in modo che vengano divulgati dati meno precisi rispetto a quelli di partenza. In particolare, viene modificata la scala o l’ordine di grandezza (per esempio, viene indicata una regione anziché una città, un mese anziché una settimana): sarà così meno probabile riconoscere soggetti precisi, poiché è probabile che più persone condividano gli stessi valori.
Tra le misure riconducibili alla generalizzazione si segnala la aggregazione e k-anonimizzazione, che consiste nell’assicurare che ogni valore relativo a un soggetto interessato sia condiviso da almeno un numero minimo (k) di altre persone all’interno dell’insieme.
Anonimizzazione stratificata o ri-anonimizzazione
Consiste in una seconda anonimizzazione di dati già resi anonimi. Può essere utilizzato a livello interdipartimentale in modo che, man mano che i dati vengono passati da un’area funzionale all’altra della stessa organizzazione, vengano effettuati diversi processi di anonimizzazione. A volte la ri-anonimizzazione delle variabili può fornire garanzie aggiuntive per evitare la re-identificazione delle persone.
Come anticipato, la scelta della tecnica è demandata al Titolare del trattamento, che deve effettuare una valutazione preliminare riguardo le caratteristiche del database di partenza ed il risultato perseguito.
Infatti, la sfida non si riduce all’individuazione degli elementi da eliminare, bensì a determinare quali elementi conservare affinché il database che risulta dall’elaborazione mantenga il suo valore.
Esistono altri adempimenti da affrontare per poter utilizzare il database anonimizzato? Quali sono?
Secondo il principio di accountability, è necessario che il Titolare dia prova di aver considerato, affrontato e risolto ogni questione rilevante in materia di trattamento dei dati personali. Per questo occorre redigere un documento che analizzi il processo di anonimizzazione nel suo complesso e che dia prova di ogni valutazione e decisione assunta dal Titolare.
Affronteremo questo tema nel prossimo articolo.