Data Protection Engineering, come si fa il GDPR in pratica secondo Enisa

Enisa, la European Union Agency for Cybersecurity, ha pubblicato un report con l’obiettivo di approfondire le modalità attraverso cui garantire il rispetto del GDPR, adottando un approccio concreto: ecco le principali indicazioni tecniche

Nel Data Protection Day 2022, la European Union Agency for Cybersecurity (Enisa) ha pubblicato un report finalizzato ad esplorare e analizzare in specifici contesti le modalità attraverso cui garantire il rispetto dei principi di cui al GDPR, secondo un approccio più pratico e meno teorico, a supporto di professionisti e organizzazioni. In particolar modo, il rapporto presenta le tecnologie e le tecniche di sicurezza esistenti e ne discute i punti di forza e l’applicabilità al fine di soddisfare i principi di protezione dei dati stabiliti dal GDPR.

Dichiarazione dei diritti e dei principi digitali, in Europa: l’importanza del testo

Indice degli argomenti

L’art. 25 GDPR e l’ingegnerizzazione della data protection

Uno dei principi fondamentali del GDPR è quello della privacy by protection e by default, descritto dall’art. 25 GDPR. Tuttavia, l’applicazione di detto principio ai processi del trattamento appare spesso molto complesso, in quanto connesso sia a fattori tecnici che organizzativi, come analizzato dal report di ENISA. Spesso, tale concetto viene associato, da parte dei titolari e dei responsabili, all’utilizzo di specifiche tecnologie di “miglioramento della privacy” (Privacy Enhancing Technologies – PET), il cui scopo è quello di preservare la riservatezza dei dati, il loro possibile riutilizzo non autorizzato, la re-identificazione, ecc. Come affermato da ENISA, tuttavia, la privacy by design e by default si estende anche a una serie di “componenti tecnologiche e organizzative destinate ad attuare i principi di protezione dei dati. Mettere in pratica tali principi non significa solo integrarli nella progettazione dell’operazione di trattamento. Significa anche selezionare, distribuire, configurare e mantenere le misure e le tecniche tecnologiche appropriate a tal fine”.

Ne consegue che un’efficace ingegnerizzazione della privacy si collega inevitabilmente a tecniche e tecnologie dotate di peculiari punti di forza e di debolezza, che devono essere, sin dalla fase di progettazione del trattamento e di sviluppo degli strumenti che andranno ad operare quel medesimo trattamento, parametrate al contesto al fine di garantirne la massima efficacia, specialmente nel contesto odierno, nel quale il ciclo di vita dei dati e gli attori coinvolti nel loro trattamento sono aumentati. Non solo: l’ingegnerizzazione dei principi di data protection deve riguardare sia la fase di progettazione del trattamento, che le fasi di selezione, implementazione, configurazione e mantenimento delle misure e tecniche tecnologiche considerate appropriate.

I 6 obiettivi del data engineering

ENISA, nel suo report, prende in considerazione sei diversi obiettivi di data protection, al fine di identificare le principali garanzie che i sistemi IT devono avere quando trattano i dati personali. Detti obiettivi sono, più nello specifico:

“riservatezza”;
“integrità”;
“disponibilità”;
“scollegabilità” (unlinkability);
“trasparenza”;
“intervenibilità” (intervenability).

L’aggiunta di 3 obiettivi ulteriori, rispetto a quelli tipicamente presi in considerazione nella fase di valutazione del rischio e dell’impatto del trattamento, permette al titolare di condurre un’analisi più accurata del trattamento che vuole porre in essere, assicurando maggiore tutela all’interessato.

Avuto riguardo alle Privacy Enhancing Technologies, poi, ENISA svolge un’ulteriore categorizzazione delle medesime, sulla base delle caratteristiche della tecnologia utilizzata, in relazione al tipo di dato che viene elaborato, partendo dal presupposto che non può esistere un approccio “one-size fits all” quando di parla di PETs:

Truth-preserving: l’obiettivo è preservare l’accuratezza dei dati riducendo al contempo il loro potere di identificazione;
Intelligibility-preserving: i dati sono conservati in un formato che “ha un significato” solo per il titolare del trattamento, ma che non consente di rivelare i dati reali degli interessati;
Operable Technology: le operazioni matematiche e logiche sui dati (ad esempio una somma o un confronto) possono essere eseguite sui risultati delle loro applicazioni, spesso senza che i dati siano intelligibili.

Le tecniche di protezione dei dati individuate da ENISA

Sulla scorta dei parametri precedentemente individuati, ENISA svolge, quindi, un’analisi delle principali tecniche che possono essere utilizzate dal titolare per tutelare i dati, focalizzandosi, in particolare, sugli aspetti tecnici che ne consentano l’efficace applicazione o meno.

Di seguito, una breve disamina delle diverse tecniche illustrate, e dei loro pro e contro.

Anonimizzazione e pseudonimizzazione

Come noto, le informazioni anonime si riferiscono a informazioni che non riguardano una persona fisica identificata o identificabile e, pertanto, non sono considerate dati personali. Al contrario, ai sensi dell’articolo 4, paragrafo 5, GDPR i dati pseudonimizzati, che possono essere riattribuiti a una persona fisica con l’uso di informazioni aggiuntive, sono dati personali a tutti gli effetti, e ad essi si applicano i principi di protezione dei dati del GDPR.

Garantire l’anonimato, tuttavia, non è semplice, anche in ragione della possibilità, da parte dei terzi, di re-identificare gli interessati combinando dati ulteriori rispetto a quelli resi, seppur in via apparentemente anonima, dal titolare (mediante tabulati o altro).

Qualsiasi procedura di anonimizzazione, secondo ENISA, dovrebbe essere combinata con un’analisi rischio-beneficio che definisca i livelli accettabili di rischio e prestazione. Detta analisi dei rischi guiderà il titolare del trattamento nella selezione del modello, dell’algoritmo e dei parametri da utilizzare. La soluzione di anonimizzazione adottata dovrebbe dipendere anche dal contesto in cui viene utilizzata e da come verrà distribuito il set di dati anonimizzato. Un modello “release-and-forget“, in cui i dati anonimizzati sono resi pubblici, richiede una protezione più forte rispetto a un “modello Enclave“, in cui i dati anonimizzati sono conservati dal titolare del trattamento e interrogati solo da ricercatori qualificati.

I metodi per l’anonimizzazione sono principalmente due: k-anonymity e Differentially Privacy. Si tratta di metodi abbastanza complementari:

k-anonymity è facile da capire ed è adatto ai tabulati: tuttavia, poiché è vulnerabile a una serie di attacchi, non è consigliabile utilizzarlo in una modalità “release-and-forget”, in quanto chi vi accede potrebbe avere le informazioni sufficienti per la reidentificazione;
Differentially Privacy fornisce una protezione più forte in virtù della casualità aggiunta ai dati ed è sicura indipendentemente da ciò che l’attaccante sa; tuttavia, non è adatta per i dati tabulari, ma più per il rilascio di informazioni statistiche aggregate (conteggio di query, valori medi, ecc.) su un set di dati. Inoltre, fornisce prestazioni migliori nelle ipotesi in cui il numero di interessati coinvolti dal set di dati è elevato, ma il contributo di ciascuno nell’elaborazione della statistica è piuttosto limitato.

Data masking e privacy-preserving computations

Masking è un termine ampio che si riferisce a funzioni che, quando applicate ai dati, ne nascondono il loro vero valore. Gli esempi più importanti di tale tecnica sono la crittografia e l’hashing, e sono utilizzate prevalentemente per preservare l’integrità e la riservatezza dei dati.

Crittografia omomorfica: si tratta di una tecnica che consente di eseguire calcoli su dati crittografati, senza doverli prima decrittografare. Il tipico caso d’uso per la crittografia omomorfica è quando un interessato desidera esternalizzare il trattamento dei propri dati personali senza rivelare i medesimi in chiaro (si pensi alla necessità di elaborare dei dati da parte di un fornitore di servizi cloud). La scelta della crittografia omomorfa dipende dal livello di protezione desiderato in combinazione con la complessità dei calcoli da eseguire sui dati crittografati: “se le operazioni sono complesse, lo schema di crittografia sarà più costoso. […] Se il calcolo richiede solo l’addizione (come nella somma di alcuni valori), è possibile utilizzare la crittografia parzialmente omomorfa. […] Se il calcolo richiede molte aggiunte e moltiplicazioni, è necessario utilizzare la crittografia completamente omomorfica”.

Calcolo multiparte sicuro: trattasi di una famiglia di protocolli crittografici che consente di distribuire un calcolo fra più parti, nessuna delle quali può vedere i risultati delle altre. L’esempio più semplice di applicazione del calcolo multiparte è la blockchain. L’applicazione nel concreto di detta tecnologia, tuttavia, può diventare molto complessa ne richiedere un enorme sovraccarico di risorse rete. Pertanto, potrebbe non essere adatta per scenari nei quali si richiedono tempi di reazione rapidi. Inoltre, dato che il protocollo multi-party sicuro utilizzato deve essere noto a ciascuna delle parti coinvolte, questo approccio favorisce la trasparenza sul tipo di elaborazione applicata ai dati di input, ma impedisce la rimozione dei dati input medesimi e non consente la facile rimozione di eventuali errori di elaborazione.

Ambienti di esecuzione affidabili: un trusted execution environment (TEE) fornisce protezione contro l’accesso non autorizzato, fisicamente o in remoto, ai dispositivi. Con un TEE, il trattamento dei dati avviene internamente al sistema protetto ed è, quindi, teoricamente impossibile ottenere qualsiasi dato. I TEE possono eseguire funzioni chiave come l’aggregazione sicura o la crittografia per limitare l’accesso del server ai dati grezzi e consentono ai client di attestare e verificare il codice in esecuzione su un determinato server, al fine di garantirne l’integrità.

Private information retrieval: trattasi di una tecnica crittografica che consente a un utente di recuperare una voce in un database senza rivelare a chi custodisce i dati (ad esempio il data owner o l’amministratore del database) quale elemento del database è stato interrogato. Per tale motivazione, può essere utilizzata come tecnica di minimizzazione dei dati.

Dati sintetici: i dati sintetici sono “una nuova area di elaborazione dei dati in cui i dati vengono elaborati in modo realisticamente simile a dati reali (sia personali che non personali), ma in realtà non si riferiscono a nessuno specifico individuo identificato o identificabile, o alla misura reale di un parametro osservabile nel caso di dati non personali”. Utilizzando dati sintetici, il titolare proteggerà la riservatezza delle informazioni, in quanto vi è uno scostamento coi dati reali, ma questa scelta può introdurre problemi in termini di accuratezza dei dati medesimi. Pertanto, i titolari del trattamento dovranno sempre bilanciare diversi principi di protezione dei dati, soprattutto se il risultato del trattamento comporta conseguenze (ad esempio, legali o sanitarie) per gli interessati. La tecnica dei dati sintetici viene utilizzata soprattutto negli algoritmi di machine learning e nei sistemi di intelligenza artificiale che operano con grandi volumi di dati in fase di test, prima che diventino parte di servizi o di un processo produttivo.

Comunicazione e conservazione

I canali di comunicazione sicuri consentono lo scambio sicuro di dati tra due o più parti comunicanti. Di solito sono progettati per fare in modo che nessuna terza parte non autorizzata possa accedere al contenuto della comunicazione e in alcuni casi, ai partecipanti o persino ai metadati della stessa.

Sono due le principali tecnologie utilizzate a tal fine:

Crittografia end-to-end: solo le parti coinvolte nella comunicazione hanno accesso alle chiavi di decrittazione. Tuttavia, detta tecnica è affidabile solo fino a quando uno degli endpoint non viene compromesso.
Proxy & onion routing: un possibile modo per proteggere i metadati è l’uso di una rete di routing onion che supporta la comunicazione anonima su reti pubbliche. Nel routing onion il traffico degli utenti viene instradato attraverso una serie di server di inoltro, in cui ciascun server riceve dati crittografati a più livelli senza conoscere né il mittente originale né il destinatario finale (informazioni disponibili solo per il nodo di entrata e di uscita). Tuttavia, è una tecnica vulnerabile ad attacchi che possano osservare il traffico in entrata e in uscita dai nodi di uscita e correlare i messaggi, ricostruendone il contenuto.

Con riguardo alla conservazione, sono due i principali obiettivi da raggiungere nell’ambito della privacy:

proteggere la riservatezza dei dati personali inattivi;
informare i titolari del trattamento in caso di violazione.

La crittografia è la tecnica principale utilizzata per proteggere la riservatezza dei dati da accessi non autorizzati. Possono esserci tre diversi livelli di crittografia:

livello di archiviazione: riduce il rischio che un intruso ottenga l’accesso fisico al disco che memorizza il database, ma non è possibile crittografare solo alcune parti del database. “In questa soluzione è presente una sola chiave di crittografia gestita dagli amministratori di sistema del database. Questa chiave si trova sul server che ospita il database e deve essere protetta dall’accesso con privilegi più elevati”;
livello di database: offre una maggiore flessibilità rispetto alla soluzione precedente e può essere applicato a diverse tabelle, voci o campi granulari. Tuttavia, poiché le chiavi di crittografia devono essere archiviate con il database, un soggetto “che può connettersi al server che ospita il database può utilizzare strumenti forensi per recuperare le chiavi direttamente dalla memoria volatile”.
livello di applicazione: tutti i dati vengono crittografati dal client con le proprie chiavi di crittografia e quindi archiviati. Tuttavia, se diverse voci del database devono essere condivise da client diversi, è necessario scambiare le chiavi crittografiche, il che può compromettere la loro sicurezza. È possibile evitare questo problema mediante l’uso di schemi di crittografia specifici, ad esempio la crittografia omomorfa.

Accesso e autenticazione

L’autenticazione, l’autorizzazione e il controllo degli accessi mirano a prevenire il verificarsi di attività non autorizzate e/o indesiderate mediante l’implementazione di controlli e restrizioni su ciò che gli utenti possono fare, su quali risorse possono accedere e quali attività sono autorizzati a svolgere sui dati, inclusa la visualizzazione, la modifica o la copia non autorizzate.

In base al contesto e alle necessità possono essere applicati diversi meccanismi:

controllo discrezionale degli accessi (DAC) può essere utilizzato per accedere ai dati sulla base di una specifica richiesta di servizio come un servizio di stampa e consegna. Attraverso il DAC un dipendente è in grado di specificare quali dati, per ciascun utente esterno all’organizzazione, possono essere visualizzati e quali azioni sono consentite. DAC offre agli utenti una flessibilità avanzata nella configurazione delle proprietà di controllo degli accessi desiderate; tuttavia, si basa fortemente sulla consapevolezza e la comprensione del rischio da parte dell’utente. “In un sistema informativo ospedaliero, in cui ogni attore (medico, infermiere, personale amministrativo) è assegnato a ruoli diversi con privilegi diversi (ad esempio un medico può accedere ai dati medici dei penitenti), il Controllo degli accessi basato sui ruoli (RBAC) sembra essere più appropriato”.
Attribute-based credentials (ABC): consentono l’autenticazione di un soggetto mediante diversi attributi non collegabili tra loro, senza rivelare informazioni aggiuntive che potrebbero includere dati personali.
Zero Knowledge Proof: consente a un utente (interessato) di dimostrare a un server (controllore dei dati) di conoscere un’informazione segreta senza che la stessa sia rivelata. Le Zero-Knowledge Proof non solo impongono la riservatezza la minimizzazione dei dati, rispetto al classico schema nome utente/password.

Strumenti di trasparenza, intervenibilità e controllo dell’utente

Da ultimo, l’ENISA si concentra su quegli strumenti che consentono all’interessato di esercitare i diritti garantiti dal GDPR (trasparenza, modifica dei dati, accesso, ecc.). Tali strumenti, ben noti ai professionisti che operano nel settore della protezione dei dati, sono:

Privacy policies, da rendersi in modo chiaro, semplice, completo e non fraintendibile;
Icone, che consentono la maggior comprensibilità degli elementi del trattamento, talvolta andando a sostituire le informazioni testuali.
Sticky Policies, che combinano l’organizzazione tecnica del trattamento dei dati alla trasparenza. “Se un sistema di gestione della protezione dei dati regola tutto il trattamento dei dati presso il titolare, le modifiche nell’elaborazione degli stessi richiamano automaticamente le modifiche nelle informazioni nella politica. Allo stesso modo, le restrizioni stabilite nella policy possono essere automaticamente garantite. I diritti di accesso, le restrizioni temporali o i trigger basati su eventi possono essere definiti in un linguaggio di policy che è sia eseguibile nel sistema di elaborazione dei dati che traducibile in linguaggio naturale nell’informativa sulla privacy”.
Espressioni di preferenze sulla privacy (es: “do not track”), che tengano traccia delle preferenze espresse dall’utente in modo standardizzato, spiegando anche perché non possano essere applicate, ove necessario.
Dashboard sulla privacy: l’obiettivo è fornire agli interessati una panoramica su come i loro dati personali vengono elaborati da un titolare del trattamento.
Gestore del consenso: diventa inevitabile registrare quale cliente opera in base a quale consenso al trattamento dei dati. Gli equivalenti digitali delle firme per il consenso cartacee utilizzano documenti elettronici, token di autenticazione come carte d’identità personali e tecnologie come la blockchain per archiviare, in modo permanente, versioni esatte dei documenti di consenso, insieme all’espressione del consenso medesima.
Raccolta del consenso: per i servizi web, il metodo utilizzato per la raccolta del consenso è quello di far visualizzare il testo dei termini e delle condizioni di servizio al cliente, e di aggiungere un pulsante in basso mediante cui si dichiara “Ho letto e compreso questi termini di utilizzo“. Sfortunatamente, questo approccio presenta diversi inconvenienti: gli utenti tendono a fare clic sul pulsante senza leggere e comprendere il documento; gli utenti con disabilità non possono leggere o comprendere il documento; i problemi di visualizzazione del browser possono impedire agli utenti di leggere il documento; i servizi che non possono essere gestiti tramite browser non possono utilizzare questo metodo; i servizi resi su computer incorporati (ad esempio automobili, dispositivi IoT) potrebbero non avere uno schermo per mostrare il documento; i servizi sui computer incorporati potrebbero non avere un pulsante né un altro dispositivo di input per esprimere il consenso.
Esercizio del diritto di accesso, cancellazione, rettifica: automatizzare l’esercizio dei diritti da parte dell’interessato riduce notevolmente gli sforzi manuali, quando si ricevono quantità ingenti di richieste. A seconda della quantità di tali richieste, il sistema automatizzato può offrire risparmi significativi all’organizzazione.