LA GUIDA PRATICA

Big data protection: aumentare la produttività e tutelare la privacy delle persone usando i big data

I big data sono il “carburante” dei sistemi di intelligenza artificiale alla base della quasi totalità dei processi di produzione di beni e servizi e ciò desta grandi preoccupazioni non solo per la sicurezza dei processi aziendali ma anche per la privacy delle persone. Un’attenta applicazione del principio di privacy by design e delle tecnologie di miglioramento della privacy può portare soluzioni davvero efficaci

Pubblicato il 14 Ott 2021

Giuseppe Alverone

Consulente e formatore Privacy. DPO certificato UNI 11697:2017

In un mondo sempre più “data-driven” in cui i processi decisionali degli amministratori pubblici e privati, funzionali allo sviluppo sociale ed economico, sono sempre più basati sui dati continuamente generati, momento per momento, da persone e oggetti (IoT) costantemente connessi, Internet è diventato un immenso giacimento di dati che ogni istante diventa più grande, crescendo costantemente in modo esponenziale: parliamo dei Big Data, il principale carburante dei sistemi di intelligenza artificiale che costituiscono i propulsori della quasi totalità dei processi di produzione di beni e servizi.

Solo per dare un’idea, su Google ogni 60 secondi vengono immesse 2 milioni di richieste; Facebook, ogni secondo, pubblica 41mila post (messaggi di stato, condivisioni, immagini e così via); 204 milioni sono le email spedite in media ogni minuto, mentre vengono caricate circa 72 ore di video su YouTube in ogni singolo minuto. Da un’analisi del Data Science Central emerge che nel mondo, nel corso del 2020, sono stati prodotti 59 zettabytes di dati (59mila miliardi di gigabyte) e si prevede che nel 2024 il loro volume aumenterà del 152%, toccando quota 149 zettabytes.

Uno scenario così complesso e in continua evoluzione comporta grandi preoccupazioni non solo per la sicurezza dei processi aziendali, ma anche per la privacy delle persone, poiché gran parte dei Big Data è composta da dati personali.

Una attenta applicazione del principio di privacy by design e delle tecnologie di miglioramento della privacy (le cosiddette PET: Privacy-Enhancing Technologies) può portare soluzioni davvero efficaci.

Indice degli argomenti

I Big Data

Internet è ormai diventato un immenso giacimento di dati che ogni istante diventa più grande e cresce costantemente in modo esponenziale: sono i cc.dd. Big Data, il principale carburante dei sistemi di intelligenza artificiale che costituiscono i propulsori della quasi totalità dei processi di produzione di beni e servizi.

I Big Data, secondo una famosa definizione riportata nel glossario di Gartner sono una quantità di dati dal volume, dalla velocità e dalla varietà tanto elevate da richiedere innovative e convenienti forme di elaborazione, al fine di potenziare la comprensione, i processi decisionali e l’automazione dei processi.

La definizione pone in evidenza le seguenti 5 principali caratteristiche dei big data (le cc.dd. 5 “V”):

il volume elevato: riferito all’immenso set di dati generati ogni secondo da ciascun individuo nella vita quotidiana (foto, video, messaggi, chiamate e mail etc.) e dagli oggetti connessi ad internet (elettrodomestici, dispositivi indossabili, autoveicoli, strumenti utilizzati nei processi produttivi ecc.);
la velocità elevata: in relazione alla istantanea velocità con cui i dati vengono generati e si spostano nella rete;
la varietà elevata: qualifica le diverse tipologie di dati che possono essere “non strutturati”, i.e. conservati senza alcuno schema (e.g. fotografie, messaggi, registrazioni vocali, video, ecc.), “strutturati”, i.e. organizzati secondo schemi predefiniti (e.g., in tabelle di Excel) o anche “semi-strutturati”, i.e. organizzati solo in parte;
la veridicità: la seconda parte della definizione di Gartner sottolinea l’importanza dei Big Data per lo sviluppo dei processi decisionali. Riconoscere la veridicità dei dati costituisce un grande problema per il corretto funzionamento dei sistemi di intelligenza artificiale, per i quali vale il noto principio “GIGO” (Garbage in = Garbage out) o RIRO (Rubbish in = Rubbish out) che chiarisce come i sistemi di intelligenza artificiale (che invero non sono proprio intelligenti), effettuino elaborazioni/correlazioni in modo acritico; quindi se ricevono, come input, un set di dati errato o senza senso daranno come output dati aventi le stesse caratteristiche;
il valore: le aziende possono estrarre valore dai dati che per questo motivo costituiscono un asset di importanza strategica nella catena del valore aziendale.

I “magazzini di dati” (Data Warehouse)

Prima dell’avvento dei Big Data, le informazioni venivano caricate sui c.dd. “magazzini di dati” (Data Warehouse).

Questi sono essenzialmente dei database relazionali, all’interno dei quali possono essere archiviati solo i dati che sono stati preventivamente elaborati, i.e. modellati e strutturati nello schema e nel formato previsti dallo stesso database (e.g. tabelle composte da righe e colonne).

Questo approccio è definito “approccio in scrittura” (on-write). In genere con i data base relazionali si gestiscono silos di dati aggregati, strumentali allo svolgimento di attività delle diverse aree funzionali aziendali.

I “laghi di dati” (Data Lake)

I Big Data, per le loro caratteristiche, difficilmente possono essere gestiti con data base relazionali.

È quindi necessario far ricorso a strumenti e modalità innovative e convenienti per la loro raccolta, archiviazione, elaborazione e fornitura alle persone che devono assumere le decisioni.

Per realizzare tali finalità si è molto diffuso l’utilizzo di data base non relazionali, nei quali possono essere caricati dati di ogni tipo, senza alcuna preventiva elaborazione/ modellazione come necessariamente avviene per i data base relazionali.

Si tratta del c.d. “approccio in lettura” (on-read) che consente la c.d. “ingestione senza attrito” cioè l’immissione dei dati all’interno del repository “così come sono”.

Questo tipo di repository di dati, che memorizza enormi e vari insiemi di dati grezzi nel suo formato nativo, viene definito, con un’immagine suggestiva “lago di dati” o “Data Lake”. Il termine è stato creato da James Dixon, CTO di PENTAHO, il quale, paragonando le componenti dei citati “magazzini di dati”^[1] a negozi di acqua in bottiglia, pulita, confezionata e strutturata per un facile consumo, ha immaginato i data base non relazionali come un ”Lago di Dati” (Data Lake) i.e. un grande bacino d’acqua, in uno stato più naturale.

Il contenuto del Data Lake fluisce da una fonte per riempire il lago e vari utenti del lago possono venire a esaminare, immergersi o prelevare campioni. I Data Lake, che sono particolarmente adatti alla gestione di Big Data, tanto da essere usati attualmente da tutte le maggiori piattaforme di social network, possono essere realizzati on premise o in cloud. Evidentemente i costi minori insieme alla scalabilità e all’elasticità caratterizzanti il cloud computing rendono più conveniente la seconda opzione.

Uno scenario così complesso ed in continua evoluzione comporta grandi preoccupazioni non solo per la sicurezza dei processi aziendali ma anche per la privacy delle persone, poiché gran parte dei Big Data è composta da dati personali.

Quindi, senza una efficace governance dei dati, un Data Lake rischia di trasformarsi in una c.d. “palude di dati” (Data Swamp), impattando sulla produttività dell’azienda e comportando gravi problemi di compliance al GDPR.

GDPR, una protezione tra rischi e pericoli per le persone fisiche e per l’economia

Le tecnologie per il miglioramento della privacy

Per estrarre valore dai dati, senza impattare sulla privacy delle persone, bisognerebbe incorporare soluzioni di “privacy by design” nelle attività analisi dei Big Data, attraverso l’adozione di una serie di misure tecniche e organizzative adeguate^[2].

In particolare, il GDPR prescrive che in fase di sviluppo, progettazione, selezione e utilizzo di applicazioni, servizi e prodotti, basati sul trattamento di dati personali o che trattano dati personali per svolgere le loro funzioni, i produttori debbano tenere debito conto del diritto alla protezione dei dati e dello stato dell’arte.^[3].

Il riferimento che il GDPR fa allo “stato dell’arte” impone l’obbligo alle imprese, allorché determinano le citate misure tecniche e organizzative adeguate, di tenere conto degli attuali progressi compiuti dalla tecnologia disponibile sul mercato.

Ciò comporta che i “players” del mercato debbano necessariamente essere a conoscenza dei progressi tecnologici e rimanere sempre aggiornati sulle opportunità e i rischi per i trattamenti, tenendo conto dell’evoluzione del panorama tecnologico^[4].

E proprio lo stato dell’arte offre soluzioni davvero efficaci per un corretto sviluppo delle analisi sui Big data. Si tratta delle “tecnologie per il miglioramento della privacy” (cc.dd. PET, Privacy-Enhancing Technologies).

Esaminiamo di seguito le più diffuse.

Crittografia omomorfa (Homomorphic Encryption)

La cifratura dei dati è una delle misure di sicurezza fortemente raccomandate dal GDPR poiché contribuisce a garantire un livello di sicurezza adeguato ai rischi^[5]..

Lo schema che caratterizza questa misura di sicurezza, prevede l’utilizzo di una chiave di crittazione (i.e. l’applicazione di uno specifico algoritmo per crittografare/codificare i dati e renderli illeggibili) e la successiva applicazione di una chiave di decrittazione (un altro specifico algoritmo) per decrittografare/decodificare gli stessi dati, rendendoli così nuovamente leggibili^[6].

Quindi, per eseguire operazioni, analisi o manipolazioni di dati cifrati è sempre necessaria una preventiva decifratura, che comporta costi e significativi problemi di gestione delle chiavi di crittazione/decrittazione.

Questo problema è stato risolto con la cifratura omomorfica che consente di crittografare i dati in un modo che rende possibile eseguire diversi tipi di funzioni (i.e. addizione, moltiplicazione) sui dati stessi senza doverli prima decifrare. In tal modo l’informazione incorporata nel dato rimane illeggibile mentre il dato può essere tranquillamente manipolato.

Crittografia omomorfa, usare i dati cifrati nel rispetto della privacy: cos’è e a cosa serve

Privacy Differenziale (Differential Privacy)

La privacy differenziale è una particolare tecnica di “anonimizzazione”. Il WP29^[7] chiarisce che in generale, esistono due diversi approcci per anonimizzare i dati: uno è basato sulla generalizzazione degli attributi, l’altro sulla randomizzazione. Quest’ultima è una famiglia di tecniche che modifica la veridicità dei dati, al fine di eliminare la forte correlazione che esiste tra i dati stessi e la persona a cui si riferiscono. Così, se i dati sono sufficientemente incerti non possono più essere riferiti a una persona specifica; in sostanza si modificano i valori effettivi per impedire correlazioni tra i dati resi anonimi e i valori originali.

La privacy differenziale, che appartiene alla famiglia delle tecniche di randomizzazione, al fine di nascondere l’identità degli interessati, prevede l’inserimento di rumore statistico casuale nei set di dati che il “data base” dà come risposta a specifiche richieste (c.d. query), prodromiche all’esecuzione delle analisi sui dati stessi.

Occorre tuttavia chiarire che le tecniche di privacy differenziale non modificano i dati originari. Pertanto, finché questi permangono, chi detiene il data base è in grado di identificare le persone all’interno dei risultati delle interrogazioni di privacy differenziale, tenendo conto dell’insieme dei mezzi che possono essere ragionevolmente utilizzati^[8].

La tecnica di Privacy differenziale è stata utilizzata nel 2020 dal Governo Federale U.S.A. per effettuare il censimento di 330 milioni di residenti nel Paese mantenendo private le loro identità.

Apprendimento federato (Federated Analysis)

In alcuni casi potrebbe essere necessario dover trattare dati senza spostarli, e.g. il GDPR impedisce di poter trasferire dati fuori dallo Spazio Economico Europeo in assenza di una decisione di adeguatezza o di garanzie adeguate^[9].

L’apprendimento federato – definito dai ricercatori di Google come “Scienza dei dati collaborativa senza raccolta di dati” – è una tecnica di Machine Learning che permette di addestrare gli algoritmi di Intelligenza Artificiale centralizzati, utilizzando dati grezzi decentralizzati presenti su molti dispositivi.

Questi dati non vengono mai scambiati ma restano fissi all’interno degli stessi dispositivi e vengono solo aggregati per allenare i citati modelli di Machine Learning centralizzati. Con l’apprendimento federato, vengono scambiati solo i parametri per l’apprendimento automatico.

In pratica, si impara da “tutti” senza imparare da “nessuno”, perché non si spostano i dati nell’algoritmo ma si sposta l’algoritmo nei dati.

Le correlazioni vengono effettuate “in prossimità del dispositivo” e solo i relativi risultati vengono rimandati all’architettura centrale. Si ottiene così un contesto sicuro, poiché vengono rivelati solo i modelli generali e non i dati utilizzati per l’addestramento che restano sempre fermi su ciascun dispositivo^[10].

Le caratteristiche dell’apprendimento federato portano come vantaggi anche la possibilità di sfruttare le funzionalità predittive del modello statistico senza connessione a Internet e senza dover far ricorso ad un’estesa infrastruttura hardware.

Prove a conoscenza zero (Zero-Knowledge Proofs)

Una prova a conoscenza zero è una tecnica crittografica mediante la quale una parte (denominata prover) può dimostrare – con una prova (proof) – ad un’altra parte (denominata verificatore) che una certa affermazione (in genere matematica) è vera.

Per esempio, uno studente potrebbe essere chiamato a dimostrare al professore di conoscere completamente una materia di insegnamento e di meritare il massimo voto, senza sostenere l’esame.

Una prova di conoscenza zero deve soddisfare tre proprietà:

completezza: se l’affermazione è vera, un prover onesto potrà convincere del fatto un verificatore onesto qualora questi segua esattamente il protocollo;
correttezza: se l’affermazione è falsa, nessun prover disonesto potrà convincere il verificatore onesto che essa è vera, o meglio, la probabilità di riuscire a convincerlo può essere resa bassa;
conoscenza zero: se l’affermazione è vera, nessun verificatore disonesto potrà sapere altro, oltre tale informazione.

La prova a conoscenza zero che garantisce l’anonimato trova larga applicazione nel settore delle criptovalute per validare le transazioni inserite nella blockchain tramite il meccanismo della “prova di lavoro (c.d. Proof of Work).

Calcolo Multiparte Sicuro (Secure Multiparty Computation)

Il calcolo multiparte sicuro, secondo un’efficace descrizione del ricercatore israeliano Yehuda Lindell^[11], è una tecnica applicabile in un contesto nel quale un numero di dispositivi (o parti) di elaborazione distinti, ma connessi tra loro, possono eseguire un calcolo congiunto di una determinata funzione sui propri input, mantenendo privati gli stessi input.

Ad esempio, detti dispositivi potrebbero essere dei server che contengono un database distribuito e la funzione da calcolare potrebbe essere un aggiornamento dello stesso database.

L’obiettivo del calcolo multipartitico sicuro è consentire alle parti di svolgere tali attività di calcolo distribuito in modo sicuro, preservandole da attacchi dannosi da parte di qualche entità malevola avversaria.

Due requisiti importanti per qualsiasi protocollo di calcolo sicuro sono la privacy e la correttezza. Il requisito della privacy afferma che nulla deve essere appreso oltre a quanto assolutamente necessario; più esattamente, le parti dovrebbero imparare la loro produzione e nient’altro. Il requisito di correttezza richiede che ciascuna parte dovrebbe ricevere il proprio output corretto.

Il calcolo sicuro multiparte può essere utilizzato per risolvere un’ampia varietà di problemi, consentendo l’utilizzo dei dati senza compromettere la privacy.

Si consideri, ad esempio, il problema di confrontare il DNA di una persona con un database di DNA di malati di cancro, con l’obiettivo di scoprire se la persona è in un gruppo ad alto rischio per un certo tipo di cancro.

Un tale compito ha evidentemente un alto valore sia per la singola persona che per la ricerca volta al miglioramento dei protocolli di cura. Tuttavia, quelli sul DNA sono dati altamente sensibili e non dovrebbero essere rivelati a organizzazioni private.

Questo problema può essere risolto eseguendo un calcolo multiparte sicuro che rivela solo la categoria di cancro (o nessuna) a cui il DNA della persona è vicino. In questo esempio, la privacy viene garantita poiché viene rivelato solo il dato relativo alla “categoria di cancro” e nessun’altra informazione né sul DNA della persona confrontata né sul DNA degli altri pazienti.

Inoltre, il requisito di correttezza garantisce che un soggetto malintenzionato non possa modificare il risultato (ad esempio, far credere alla persona confrontata di essere a rischio di un tipo di cancro, e quindi di aver bisogno di eseguire ulteriori più approfonditi accertamenti).

NOTE

James Dixon, nella definizione, fa riferimento ai DATAMART i.e. un sottoinsieme di un Data Warehouse focalizzato su una specifica funzione aziendale. ↑
Art. 25, paragrafo 1, GDPR. ↑
Vds. Considerando 78 GDPR. ↑
Così il n. 19 delle Linee guida EDPB 4/2019 sull’articolo 25, Protezione dei dati fin dalla progettazione e per impostazione predefinita ↑
Art. 32, paragrafo1, lettera a) GDPR. ↑
La crittografia può essere simmetrica (o a chiave privata) laddove si utilizza una stessa chiave condivisa tra due o più utenti per la codifica e decodifica ovvero asimmetrica (o a chiave pubblica) in cui si utilizza una chiave pubblica, nota a tutti, per la criptazione ed una privata nota solo al proprietario per la decrittazione. ↑
WP216 – Parere 05/2014 sulle tecniche di anonimizzazione – adottato dal WP29 il 10 aprile 2014. ↑
Così in citato Parere WP216. ↑
Vds. Capo V del GDPR. ↑
Così Clark Boyd, qui. ↑
Così Yehuda Lindell – Unbound Tech and Bar-Ilan University, qui. ↑