Pseudonimizzazione e tecniche di hashing per la protezione dei dati: strategie, rischi e soluzioni

Il GDPR prevede la pseudonimizzazione come una delle misure adottabili dai titolari del trattamento per adeguarsi agli obblighi di protezione dei dati e le tecniche di hashing rappresentano uno strumento utile a questo scopo, previa valutazione dell’adeguatezza rispetto ai rischi presentati dal trattamento

L’autorità di controllo indipendente spagnola (AEPD – Agencia Española de Protección de Datos) e il Garante Europeo per la Protezione dei Dati (EDPS) lo scorso novembre hanno pubblicato uno studio congiunto^[1] sull’utilizzo dell’hashing come tecnica di pseudonimizzazione utilizzabile nell’implementazione del Regolamento (UE) 2016/679 (meglio noto come “GDPR” – General Data Protection Regulation).

Lo studio si rivolge ai titolari del trattamento che intendono adeguarsi al GDPR utilizzando le tecniche di hash per pseudonimizzare i dati personali.

Evidenziando pregi e difetti dell’hashing dal punto di vista della protezione dei dati, il saggio individua i fattori da considerare per valutare il rischio della re-identificazione e comprendere se, nel caso concreto, questa tecnica possa ritenersi una misura “adeguata” rispetto agli standard del GDPR.

Al riguardo, ai titolari del trattamento è raccomandato di effettuare un’apposita analisi del rischio, tale da consentire il compimento di scelte razionali e comprovabili, nel pieno rispetto del principio di responsabilizzazione (accountability).

Indice degli argomenti

La pseudonimizzazione e il suo rilievo nel GDPR

La pseudonimizzazione consiste nel sostituire un attributo (solitamente un attributo univoco) di un dato con un altro^[2], così rendendo più complesse le operazioni necessarie all’identificazione di un individuo (in ciò differenziandosi dall’anonimizzazione, che rende tali operazioni impossibili)^[3].

Pseudonimizzare i dati personali, secondo il GDPR (art. 4, n. 5), significa trattare i dati in modo tale che non possano più essere attribuiti a un interessato specifico senza l’utilizzo di informazioni aggiuntive, purché tali informazioni aggiuntive siano conservate separatamente e sottoposte a misure di sicurezza adeguate.

I dati pseudonimizzati costituiscono a tutti gli effetti “dati personali”: l’interessato, infatti, rimarrebbe identificabile proprio mediante l’elaborazione delle informazioni aggiuntive in possesso del titolare.

Il rilievo attribuito dal Regolamento alla pseudonimizzazione è evidente in considerazione della varietà degli ambiti in cui tale misura è richiamata: doveri di responsabilizzazione, misure di sicurezza, protezione dei dati by design e by default (nel seguito: “DPbDD”), garanzie adeguate per giustificare l’effettuazione di trattamenti per nuove finalità (archiviazione nel pubblico interesse, ricerca scientifica, storica, fini statistici o comunque finalità ulteriori non considerate al momento della raccolta dei dati). La pseudonimizzazione, in tal senso, è funzionale all’attuazione di più principi, tra cui, principalmente, quelli di minimizzazione, riservatezza, integrità ed esattezza dei dati^[4].

Questa misura, grazie alla possibilità di effettuare le operazioni di trattamento su meri pseudonimi, riduce i rischi per gli interessati e agevola titolari e responsabili del trattamento nel rispetto degli obblighi di protezione dei dati, come evidenziato dal Considerando (28), GDPR.

Al contempo, la possibilità di risalire ai dati originari (grazie alla “tabella delle corrispondenze”, in cui tali dati sono connessi ai relativi pseudonimi) offre garanzie di flessibilità e vantaggi ulteriori. Si pensi alle ipotesi in cui i dati siano trattati per più finalità, alcune delle quali potrebbero essere perseguite elaborando meri pseudonimi: qui, tale misura consentirebbe di trattare i dati “in chiaro” solo quando ciò risulti strettamente necessario, utilizzando altrimenti gli pseudonimi, così garantendo sia la possibilità di sfruttare il valore insito nei dati, sia i diritti e le libertà degli interessati.

Hashing: definizione e proprietà desiderabili

L’hashing (o funzione di hash) è una delle tecniche utilizzabili per ottenere dati pseudonimi e consiste in una funzione matematica che, a partire da un’immissione di dati di qualsiasi dimensione (dati di input o “messaggio”), restituisce comunque un’emissione di dimensione fissa (dati di output, noti come “valore di hash”, “digest” o “impronta”).

L’impronta è costituita da una stringa alfanumerica la cui lunghezza predeterminata dipende dall’algoritmo utilizzato (ad esempio, 256 bit in caso di utilizzo di SHA-256, uno dei più comuni algoritmi di hash). L’impronta della parola “Bologna”, calcolata in SHA-256, corrisponderebbe a questa stringa: “0f6ffd3024796718f7c92b189fac067806c6c72a69a832f75549415b068312c0”^[5].

Una definizione normativa dell’hashing si rinviene nelle Regole tecniche sulle firme elettroniche avanzate, qualificate e digitali adottate nel 2013 in attuazione del Codice dell’amministrazione digitale, che all’art. 1 prevedono che la funzione di hash sia «una funzione matematica che genera, a partire da una evidenza informatica, una impronta in modo tale che risulti di fatto impossibile, a partire da questa, ricostruire l’evidenza informatica originaria e generare impronte uguali a partire da evidenze informatiche differenti^[6]».

La funzione di hash è unidirezionale o non invertibile, in quanto non è possibile ottenere i dati di input a partire dall’impronta. Questa caratteristica differenzia tale tecnica da quelle appartenenti alla famiglia della crittografia (altrettanto utilizzate nel contesto della pseudonimizzazione), in cui i dati di output possono essere decrittati utilizzando la chiave di cifratura.

Lo studio AEPD-EDPS evidenzia le proprietà desiderabili della funzione di hash, tra cui si richiamano:

la possibilità di applicare la funzione a contenuti digitali di qualsiasi formato e dimensione ottenendo un’impronta in modo rapido ed efficace;
l’ottenimento di un’impronta di dimensioni prefissate a prescindere da quelle dei dati di input;
il determinismo dei dati di output, posto che lo stesso input fornisce sempre il medesimo output (minime variazioni nei dati di input, inoltre, comporterebbero l’ottenimento di una diversa impronta);
la sostanziale impossibilità di risalire ai dati di input elaborando i dati di output;
la resistenza forte alle collisioni, cioè l’estrema difficoltà di ottenere la medesima impronta a partire da dati di input differenti.

Dal complesso di queste proprietà emerge il rilievo dell’hashing come tecnica di pseudonimizzazione per proteggere i dati personali. Al riguardo, occorre comunque ricordare che i dati di output, in quanto pseudonimi, sono a tutti gli effetti “dati personali”, come in più occasioni chiarito dal Garante per la protezione dei dati personali^[7].

L’intrinseca irreversibilità dell’algoritmo rende l’uso dell’hashing particolarmente idoneo a garantire la riservatezza e l’integrità dei dati pseudonimizzati^[8]. Ciò, chiaramente, presuppone che i dati di input siano conservati separatamente dall’impronta e che, come richiesto dal GDPR, gli stessi siano sottoposti a misure tecniche e organizzative adeguate (ad esempio, sistemi di autorizzazione che limitano l’accessibilità dei dati di input alle sole persone specificamente autorizzate, escludendo quelle adibite alle operazioni di trattamento sui dati di output).

Nonostante le proprietà richiamate sopra, alle volte l’applicazione di tale tecnica lascia permanere un elevato rischio di re-identificazione dei dati personali, come sottolineato anche dal Gruppo di lavoro Art. 29 e dall’Agenzia dell’Unione europea per la sicurezza delle reti e dell’informazione (ENISA)^[9].

Lo studio AEPD-EDPS approfondisce le cause di questo rischio e propone sia soluzioni tecniche per ridurlo sia una metodologia per consentire ai titolari di valutarne la probabilità.

Vulnerabilità dell’hashing: fonti del rischio di re-identificazione

La possibilità della re-identificazione dei dati oggetto di hashing dipende dalla conoscenza di informazioni ulteriori, anche non costituenti, di per sé, dati personali.

Estremamente rilevante è il concetto di “ordine”, riguardante le caratteristiche dei dati oggetto di trattamento. Ad esempio, se l’hashing è effettuato su numeri di telefonia mobile italiani, dalla conoscenza dell’ordine di tali dati possono desumersi informazioni implicite che facilitano notevolmente la re-identificazione.

Infatti, se un numero di telefono è composto, di base, da un prefisso nazionale e da un certo numero di cifre, rispetto alle numerazioni mobili italiane si ha modo di conoscere in termini di certezza o probabilità alcune di queste cifre, quali il prefisso (+ 39) e le cifre iniziali del numero (333, 338, 347, ecc.). Queste informazioni, desunte dall’ordine dei dati in esame, sono pubblicamente disponibili e, sfruttando la capacità di calcolo di un computer per effettuare attacchi brute force e applicando l’hashing, consentirebbero di ottenere una tabella che riporta le impronte di tutte le numerazioni telefoniche possibili.

Confrontando le informazioni della tabella con l’impronta da identificare, dunque, risulterebbe possibile risalire al numero di telefono inizialmente ignoto^[10].

In sintesi, conoscendo l’ordine di appartenenza dei dati di input è possibile ottenere informazioni che rendono la re-identificazione più agevole, perché si riduce lo spettro dei valori che possono avere i dati di input e questo semplifica le operazioni di calcolo necessarie a individuare tali dati. Il grado di ordine o disordine di un certo dataset è noto come entropia: un basso livello di disordine (scarsa entropia) implica che le possibili alternative sono poche, con la conseguenza che risulterà elevato il rischio di re-identificazione.

Come limitare, allora, questo rischio?

Lo studio allerta i titolari del trattamento sulla necessità di considerare il grado di entropia, individuando la reale entità di “informazioni” contenute nei dati di input: sarebbe essenziale, cioè, escludere le informazioni desumibili per implicito e valutare l’efficacia dell’hashing concentrandosi soltanto su quelle rimanenti. Così facendo, si potrà ottenere un quadro esatto della probabilità di re-identificazione^[11].

Il rischio di re-identificazione aumenta quando è possibile collegare informazioni a un’impronta e, al riguardo, sarebbe necessario porre particolare attenzione a tre tipologie di informazioni: i dati personali identificativi, quelli indirettamente identificativi (noti anche come “pseudoidentifiers” o “quasi-identifiers”) e le informazioni desumibili dalle misure tecniche e organizzative utilizzate per trattare i dati.

Se appare ovvio che l’archiviazione di un’impronta unitamente a dati identificativi (ad esempio, il numero di un documento di identità) renda assolutamente agevole aggirare la pseudonimizzazione, la questione è più sottile nelle altre ipotesi citate.

I dati indirettamente identificativi sono quelli che, dopo l’applicazione dell’hashing ai dati identificativi, residuano all’interno del dataset. Se opportunamente incrociati con altre fonti di informazioni, questi dati consentirebbero di diminuire l’efficacia dell’hashing fornendo suggerimenti sul contenuto dell’impronta. Per limitare questo rischio, lo studio suggerisce di applicare a tali dati tecniche di randomizzazione o generalizzazione^[12].

Anche le informazioni desumibili dagli strumenti tecnici e dalle procedure previste per il trattamento potrebbero ridurre l’efficacia della pseudonimizzazione, se opportunamente incrociate con altre. Si pensi, ad esempio, alla conoscenza della posizione di un’impronta all’interno di una tabella, che consentirebbe di stabilire collegamenti con le informazioni archiviate prima e dopo la stessa, oppure della data di inserimento della stessa, che consentirebbe confronti con i dati inseriti nella medesima data.

Al riguardo, è questa una tematica in cui appare evidente come la sinergia tra esperti IT e legali, assolutamente necessaria per conformarsi agli standard del GDPR, sia fondamentale per individuare tutte le fonti da cui possano derivare rischi per i diritti delle persone coinvolte nel trattamento.

La possibilità che queste informazioni siano collegate alle impronte, dunque, dovrà essere attentamente considerata nell’analisi del livello di rischio di re-identificazione.

Le strategie per limitare il rischio di re-identificazione

Lo studio AEPD-EDPS descrive alcune strategie attuabili dai titolari del trattamento per limitare il rischio di re-identificazione, quali l’utilizzo di algoritmi crittografici in combinazione all’hashing, l’aggiunta di salt ai dati di input e la privacy differenziale.

La crittografia può essere combinata con l’hashing procedendo alla cifratura o dei dati di input o dell’impronta stessa, mediante una chiave che risulta imprescindibile mantenere segreta mediante adeguate misure di sicurezza.

Per valutare il rischio di re-identificazione, lo studio sottolinea l’importanza di considerare fattori quali il volume delle informazioni da cifrare (più è grande il volume, più agevole è la decrittazione) nonché la lunghezza della chiave utilizzata.

Se, come si è visto, la conoscenza di informazioni implicite riduce l’efficacia dell’hashing, l’aggiunta di salt ai dati di input è una strategia che, al contrario, aumenta la complessità dell’impronta ricavabile e con ciò la difficoltà di risalire ai dati inziali.

Con “salt” ci si riferisce a una sequenza casuale di bit che viene aggiunta ai dati di input prima di procedere all’applicazione dell’algoritmo. La casualità delle informazioni da aggiungere deve essere del tutto indipendente dai dati di input e da ogni altra informazione; in ogni caso, è preferibile generare salt sufficientemente lunghi (ciò, per aumentare la resistenza, ad esempio, agli attacchi brute force). La bontà di tale strategia, inoltre, dipende dall’archiviazione dei dati costituenti il salt con misure idonee a garantirne la riservatezza.

In merito alle tecniche della privacy differenziale (a loro volta, parte della famiglia della “randomizzazione”), la strategia consiste nell’aggiungere un “valore di rumore” ai dati di input. Diversamente da quanto descritto per l’aggiunta di salt, i valori casuali non sono inseriti come header dei dati di input ma incorporati nei dati stessi mediante vari metodi (grafici, audio, ecc.). Per assicurare un livello di entropia idoneo a resistere alla re-identificazione, anche qui risulta importante scegliere, come rumore, valori privi di collegamenti con i dati di input.

L’analisi del rischio di re-identificazione

I doveri di responsabilizzazione impongono al titolare del trattamento che intende utilizzare la funzione di hash come misura di pseudonimizzazione di effettuare, in via preventiva (coerentemente agli obblighi della DPbDD), una specifica analisi del rischio di re-identificazione.

Lo studio evidenzia come tale analisi debba consistere in una valutazione oggettiva della probabilità di re-identificazione nel lungo termine. In particolare, i profili temporali da considerare dovranno almeno corrispondere ai termini di data retention, da individuarsi nel rispetto del principio di limitazione della conservazione^[13].

I fattori da considerare per operare la risk analysis sono stati già richiamati nei precedenti paragrafi (principalmente: caratteristiche dell’algoritmo di hash e degli strumenti tecnici previsti per il trattamento, grado di entropia, correlabilità dell’impronta ad altre informazioni, combinazione con strumenti crittografici e altre strategie per limitare la re-identificazione, ecc.). Lo studio, al riguardo, evidenzia come sia comunque necessario considerare tutte le caratteristiche del trattamento previsto.

Su tale analisi influiscono anche l’evoluzione tecnologica e le eventuali modifiche al trattamento svolto, che possono determinare un mutamento del rischio inizialmente individuato. Ne deriva che il titolare del trattamento sarà tenuto a effettuare audit periodici (o misure analoghe) per monitorare il livello del rischio di re-identificazione e, se del caso, per implementare le misure idonee a contrastare l’aumento di tale rischio.

La necessità di un approccio proattivo e continuativo è ancora più evidente nel contesto della valutazione d’impatto (DPIA), quando la pseudonimizzazione mediante hashing è utilizzata come misura per attenuare i rischi posti dal trattamento; qui, nel contesto della revisione periodica della DPIA^[14], la descritta risk analysis sarà una sezione imprescindibile della più ampia valutazione cui è tenuto il titolare del trattamento.

L’analisi dei rischi consente anche di comprendere se l’hashing possa essere utilizzato per il diverso scopo di anonimizzare i dati personali. Anonimizzare mediante hashing, anzitutto, impone al titolare del trattamento di cancellare definitivamente gli elementi di randomizzazione introdotti per complicare l’impronta, nonché di aggiungere un adeguato livello di rumore.

Previsti tali adempimenti, l’analisi del rischio dovrà valutare anche gli aspetti:

dell’adeguatezza delle misure per la rimozione delle informazioni che consentono la re-identificazione (inclusi i quasi-identificatori);
della sussistenza, rispetto al sistema utilizzato, di ragionevoli garanzie di robustezza oltre i termini di vita utile dei dati trattati.

Considerazioni finali

Preme sottolineare come gli elevati standard imposti dalla normativa europea difficilmente potrebbero essere rispettati avvalendosi esclusivamente di una singola tipologia di misura tecnica. In tal senso, risulta sempre opportuno progettare, valutare e implementare una combinazione di misure tecniche differenti, le quali dovranno imprescindibilmente essere accompagnate da adeguate misure di tipo organizzativo (procedure chiare ed esaustive, specifica formazione per il personale adibito alle operazioni di trattamento, ecc.).

I titolari del trattamento possono trovare nella funzione di hash un utile strumento per adeguarsi agli obblighi di protezione dei dati. Questa possibilità dipende dall’adeguatezza di tale misura rispetto alle specifiche caratteristiche del trattamento previsto e ai relativi rischi per i diritti e le libertà degli interessati, da valutarsi – con il necessario supporto di esperti IT e legali – mediante apposita analisi del rischio. Ogni misura tecnica, infatti, presenta vantaggi e svantaggi e l’approccio sostanziale che caratterizza il GDPR impone di valutarne di volta in volta la relativa efficacia, la quale dipenderà dal complessivo contesto in cui la misura è destinata a essere implementata.

Le raccomandazioni di tipo teorico, come quelle descritte nello studio esaminato o che saranno contenute nei futuri codici di condotta^[15], forniscono indicazioni di notevole utilità ma non esimono i titolari del trattamento dalla necessità di effettuare le suddette valutazioni, la cui necessità è imposta dal principio di responsabilizzazione, pietra angolare del nuovo assetto normativo.

NOTE

AEPD-EDPS, Introduction to the hash function as a personal data pseudonymisation technique”, 2019. ↑
Gruppo di lavoro Art. 29 per la protezione dei dati, Parere 05/2014 sulle tecniche di anonimizzazione (WP 216), 2014, p. 21. ↑
Sul discrimine tra dati pseudonimi e anonimi, il Considerando (26), GDPR prevede che per stabilire l’identificabilità di una persona è opportuno considerare tutti i mezzi di cui il titolare del trattamento o un terzo può ragionevolmente avvalersi, e che per accertare la ragionevole probabilità di utilizzo di tali mezzi si dovrebbe prendere in considerazione l’insieme dei fattori obiettivi (costi e tempo necessario per l’identificazione, tecnologie disponibili al momento del trattamento, sviluppi tecnologici, ecc.). ↑
Questo aspetto è evidenziato anche nelle recenti linee guida del Comitato Europeo sulla Protezione dei Dati (EDPB) in materia di DPbDD, attualmente sottoposte a consultazione pubblica (Guidelines 4/2019 on Article 25 – Data Protection by Design and by Default, 2019, p.6). ↑
Un simulatore della funzione di hash. ↑
D.p.c.m. 22 febbraio 2013, “Regole tecniche in materia di generazione, apposizione e verifica delle firme elettroniche avanzate, qualificate e digitali, ai sensi degli articoli 20, comma 3, 24, comma 4, 28, comma 3, 32, comma 3, lettera b), 35, comma 2, 36, comma 2, e 71”. In seguito, definizioni del medesimo tenore sono state introdotte nel d.p.c.m. 13 novembre 2014, “Regole tecniche in materia di formazione, trasmissione, copia, duplicazione, riproduzione e validazione temporale dei documenti informatici nonché di formazione e conservazione dei documenti informatici delle pubbliche amministrazioni ai sensi degli articoli 20, 22, 23 -bis , 23 -ter , 40, comma 1, 41, e 71, comma 1, del Codice dell’amministrazione digitale di cui al decreto legislativo n. 82 del 2005” e nel d.m. 94091 del 28 dicembre 2015, di modifica del “Regolamento concernente le regole tecniche per l’adozione nel processo civile e nel processo penale, delle tecnologie dell’informazione e della comunicazione”. ↑
Si vedano, ad esempio, i provvedimenti del 15 ottobre 2015 (doc. web. n. 4541143) e del 22 maggio 2018 (doc. web. n. 9022068). ↑
L’hashing è uno strumento utile anche come identificatore univoco, potendo avere diverse applicazioni nell’implementazione del GDPR (ad esempio, per verificare l’identità dell’interessato che esercita i propri diritti). Si tenga presente, però, che le caratteristiche ideali degli algoritmi di hash che rafforzano la funzione di autenticazione (bassa entropia) riducono la resistenza alla re-identificazione. ↑
Gruppo di lavoro Art. 29 per la protezione dei dati, Parere 05/2014 sulle tecniche di anonimizzazione, 2014, p. 21; ENISA, Recommendations on shaping technology according to GDPR provisions – An overview on data pseudonymisation, 2018, p. 21. ↑
La vulnerabilità dell’hashing agli attacchi brute force volti a costruire tabelle di corrispondenza è evidenziata anche in WP 216, p. 22. ↑
Lo studio ritiene che tale analisi, avente a oggetto l’entropia del dataset, sia fondamentale ogni volta che si proceda a una valutazione delle misure da applicarsi per proteggere i dati e non soltanto rispetto agli algoritmi di hash (p. 13). ↑
Per esempi e approfondimenti su queste tecniche, si rinvia all’allegato al WP 216 (pp. 29-41). ↑
Principio che impone di conservare i dati personali per un arco di tempo non superiore al conseguimento della finalità per cui sono trattati (art. 5, par. 1, lett. e), GDPR). ↑
Al riguardo, si vedano le linee guida in materia di DPIA (Gruppo di lavoro Art. 29, WP 248 rev.01, 2017, p. 14). In merito alle obbligazioni di carattere continuativo, con necessità di review periodica dell’adeguatezza delle misure adottate, si ricordano anche quelle in materia di DPbDD, come recentemente sottolineato dall’EDPB (Guidelines 4/2019 on Article 25 – Data Protection by Design and by Default, 2019, p.10). ↑
L’art. 40, par. 2, GDPR prevede che possano essere adottati codici di condotta per precisare l’applicazione della normativa anche in materia di pseudonimizzazione. ↑

Pseudonimizzazione e tecniche di hashing per la protezione dei dati: strategie, rischi e soluzioni

La pseudonimizzazione e il suo rilievo nel GDPR

Hashing: definizione e proprietà desiderabili

Vulnerabilità dell’hashing: fonti del rischio di re-identificazione

Le strategie per limitare il rischio di re-identificazione

L’analisi del rischio di re-identificazione

Considerazioni finali

SPAZIO CISO

Network automation: come automatizzare la configurazione e la gestione delle reti aziendali

La corsa ai modelli AI per la cyber security: ecco come orientarsi

Cyber Resilience Act, con le nuove linee guida la conformità ha finalmente una mappa

Sistemi aperti o chiusi? Il falso dilemma della sicurezza

Sicurezza 4.0 nei cantieri navali: quando l’AI può contribuire a salvare vite umane

Articoli correlati

Pseudonimizzazione e tecniche di hashing per la protezione dei dati: strategie, rischi e soluzioni

La pseudonimizzazione e il suo rilievo nel GDPR

Hashing: definizione e proprietà desiderabili

Vulnerabilità dell’hashing: fonti del rischio di re-identificazione

Le strategie per limitare il rischio di re-identificazione

L’analisi del rischio di re-identificazione

Considerazioni finali

SPAZIO CISO

Network automation: come automatizzare la configurazione e la gestione delle reti aziendali

La corsa ai modelli AI per la cyber security: ecco come orientarsi

Cyber Resilience Act, con le nuove linee guida la conformità ha finalmente una mappa

Sistemi aperti o chiusi? Il falso dilemma della sicurezza

Sicurezza 4.0 nei cantieri navali: quando l’AI può contribuire a salvare vite umane

Articoli correlati

Codice Rss

Codice Rss