Nei precedenti articoli si è parlato del significato del termine “anonimizzazione”, del concetto di dati personali, dell’impoverimento di un insieme di dati degli identificatori e del processo di re-identificazione.
È stato chiarito come, per anonimizzare un set di dati, questi devono essere privati di un numero di descrittori sufficiente ad impedire di risalire alle persone a cui si riferivano, nonostante il ricorso a mezzi come l’individuazione, il collegamento di dati e l’inferenza.
Ma quali e quanti descrittori devono essere eliminati per ottenere un insieme di dati anonimizzati?
Sicuramente non basta eliminare i nomi e i cognomi degli interessati – e magari sostituirli con un codice identificativo o un numero – per ottenere un database di dati anonimizzati. Infatti, ciò facendo, si otterrebbe un database pseudonimizzato. Non basta nemmeno eliminare solo gli identificatori diretti, poiché anche altre informazioni (come la posizione e la storia di acquisti online) possono essere utilizzate per distinguere un interessato da un altro.
La sfida non si risolve, quindi, nell’individuazione degli elementi da eliminare per ottenere un database privo di elementi identificativi utili, ma è un po’ più ampia: anonimizzare significa trovare il giusto equilibro tra un database che per avendo perso le informazioni identificative, contenga informazioni che abbiano ancora valore e utilità.
Non esiste, però, una regola sempre valida che possa condurre a questo risultato.
Infatti, ogni caso è diverso dagli altri per la qualità, quantità e la ricchezza dei dati di partenza, per il contesto in cui si inserisce il processo, per le tecniche di anonimizzazione utilizzate, per l’utilizzo finale che si vuole fare dei dati.
A variare è, in buona sostanza, il contesto.
Parla di questo il Considerando 26 del GDPR, quando dice che “per accertare la ragionevole probabilità di utilizzo dei mezzi per identificare la persona fisica, si dovrebbe prendere in considerazione l’insieme dei fattori obiettivi, tra cui i costi e il tempo necessario per l’identificazione, tenendo conto sia delle tecnologie disponibili al momento del trattamento, sia degli sviluppi tecnologici”.
L’EDPB, con le Linee Guida 04/2020, ha di recente contribuito ad arricchire il breve (ed aperto) elenco offerto dal GDPR, chiarendo come si debba procedere con una sorta di “test di ragionevolezza”, tenendo in considerazione sia gli “aspetti oggettivi (tempi, mezzi tecnici), sia [gli] elementi di contesto, che possono variare caso per caso (rarità di un fenomeno alla luce, per esempio, della densità di popolazione, la natura e il volume dei dati)”.
Fattori da considerare nel processo di anonimizzazione
Partendo dalla lettera del Regolamento, i chiarimenti dell’EDPB ed i contributi delle Autorità garanti europee (per esempio, l’Autorità Garante irlandese nella sua Guida all’anonimizzazione e alla pseudonimizzazione) è possibile stilare un elenco dei fattori che possiamo considerar rilevanti per consurre processo di anonimizzazione.
Più esattamente:
- Rarità del fenomeno oggetto dei dati
Si tratta della rarità dell’oggetto, del fenomeno, dell’evento cui si riferiscono i dati: maggiore è la rarità del fenomeno cui si riferiscono i dati, maggiore sarà la probabilità di re-identificazione. - Densità della popolazione coinvolta
Al contrario rispetto alla rarità del fenomeno considerato, minore è la densità della popolazione considerata dai dati, maggiore sarà la probabilità di re-identificare gli interessati. - Natura dei dati
Valutare la natura dei dati significa distinguere se i dati appartengono alla categoria dei dati comuni o particolari. - Volume dei dati
Si tratta della quantità di dati processati: tendenzialmente, maggiore è il volume dei dati, minore sarà la probabilità di re-identificazione. - Tecnologie e mezzi tecnici esistenti
Il Regolamento tiene in considerazione la mutabilità della tecnologia nel tempo, nonché i suoi costi: ciò che oggi è inaccessibile o impossibile da ottenere, domani potrebbe essere possibile ed economico. Ciò impone di considerare la possibilità (o meglio, la probabilità) che un livello di protezione che è considerato solido oggi, non lo sarà in futuro. - Costi e risorse
Si tratta dei costi e delle risorse che richiederebbe affrontare (e concludere con successo) un processo di re-identificazione. Pur non potendo essere considerato un dato obiettivo – infatti, la disponibilità delle risorse che può essere irragionevole per alcuni soggetti può non esserlo per altri – occorre senz’altro tenerne conto. - Tempo necessario
Si tratta del tempo necessario alla conclusione del processo di re-identificazione. Va da sé che la disponibilità di maggiori risorse e, potenzialmente e di conseguenza, di tecnologie migliori potrebbe rendere la re-identificazione un processo più breve di quanto sarebbe se affrontato con mezzi meno avanzati. - Competenze
Si intendono le competenze del soggetto che agisce per identificare l’interessato, che può essere sia il titolare, sia qualunque terzo. Se l’intruso è un terzo, si presuppone che non sia un esperto con conoscenza specifiche ma, come chiarito dall’ICO nel il Codice di condotta per la gestione dell’anonimizzazione e del rischio, sia “ragionevolmente competente, abbia accesso a risorse come Internet, le biblioteche e tutti i documenti pubblici, e che utilizzi tecniche investigative come la richiesta di informazioni a persone che possono avere ulteriore conoscenza dell’identità dell’interessato o pubblicità per chiunque abbia informazioni da fornire”. - Conoscenze personali
Oltre alle competenze, rilevano anche le conoscenze del soggetto che agisce per identificare l’interessato. Si tratta del caso in cui questi abbia conoscenze personali che gli potrebbero permettere di identificare l’interessato mediante il collegamento tra informazioni personali ed informazioni anonime. - Informazioni a disposizione
Ci si riferisce alle fonti pubbliche di informazioni, che crescono nel tempo per numero e per quantità di dati che contengono. Si pensi alle informazioni rinvenibili nelle biblioteche, presso gli uffici comunali, nei registri pubblici (informazioni catastali, albi ed elenchi, libro fondiario), negli archivi storici della Chiesa, negli archivi della stampa locale e nazionale e, non ultimo, il web (motori di ricerca, social network, banche dati, blog, dati pubblicati nell’ambito di precedenti violazioni di dati, siti web di genealogia). - Valore dei dati: l’interese e il rapporto sforzo/beneficio
È l’interesse che potrebbe avere il soggetto che agisce per identificare l’interessato, nonché il valore che gli determinerebbe portare a termine il processo di re-identificazione, tenuto conto dello sforzo che tale processo richiede. Anche questo non è un fattore che si può considerare obiettivo. Il valore non è un’unità di misura e ciò che ha un grande valore per un soggetto, potrebbe non averne per un altro.
Alla luce poi dell’osservazione del contesto, occorre valutare se lo sforzo di re-identificazione dell’interessato sia definibile come “ragionevole”.
Se, per esempio, per ottenere nuovamente un database di dati personali fossero necessarie competenze molto specifiche, tempi lunghi e costi elevati, lo sforzo si potrebbe definire irragionevole e i dati potrebbero essere considerati al sicuro dal rischio di re-identificazione. Diversamente, se chiunque potesse riconoscere l’interessato semplicemente da una veloce ricerca online, allora i dati non si potrebbero certo considerare difficili da re-identificare.
Ma quali tecniche devono essere utilizzate per ottenere un solido processo di anonimizzazione?
Le norme non prescrivono l’utilizzo di una tecnica particolare. Ciò comporta che spetti al Titolare del trattamento, nell’ambito del principio di accountability, garantire che le tecniche di anonimizzazione prescelte siano adeguate e portino ad un solido processo di anonimizzazione.
Tra le principali tecniche si segnalano il mascheramento, la randomizzazione, la generalizzazione e l’anonimizzazione stratificata.
Approfondiremo le tecniche di anonimizzazione nel prossimo articolo.