L'APPROFONDIMENTO

Differential privacy, estrarre e usare dati personali garantendone la massima riservatezza: come funziona

La differential privacy è una tecnologia molto evoluta che consente di “sporcare” i dati personali rendendoli anonimi già al momento della raccolta e garantendo così l’assoluta riservatezza degli utenti interessati da questo trattamento. Ecco come funziona e quali vantaggi comporta

Pubblicato il 18 Set 2019

Diego Dimalta

Co founders Privacy Network

Da qualche anno Google e Apple sono in prima linea nello sviluppo di una tecnologia che permetta alle aziende di estrarre e utilizzare i dati degli utenti in modo tale da garantire la riservatezza degli utenti stessi. Questa tecnologia, chiamata differential privacy, permette di “sporcare” i dati personali rendendoli anonimi, sin dal momento della raccolta.

In inglese si parla di “white noise”, una sorta di rumore di fondo che rende non rintracciabile la fonte dei dati.

Indice degli argomenti

Differential privacy: come funziona

Uno dei problemi principali dei processi di anonimizzazione consiste nel fatto che, in alcuni casi, associando il dato anonimo ad altre informazioni è comunque possibile risalire al dato completo.

Uno dei casi più famosi è sicuramente quello relativo al concorso Netflix Prize lanciato dalla famosa piattaforma on line nel 2006.

In quell’occasione, Netflix creò un database pubblico formato da 480.000 record anonimizzati a cui erano correlati film preferiti e punteggi assegnati alle pellicole. Come visto, il titolare decise di anonimizzare tutti i record; tuttavia, come evidenziato anche dalla Cornell University, associando questi record anonimi ad altre informazioni reperibili su IMDB era facilmente possibile identificare circa l’80% dei nominativi anonimizzati.

La tecnologia di differential privacy elimina alla fonte simili rischi di reverse engineering. Come lo fa?

In un paper pubblicato dalla rivista Foundations and Trends in Theoretical Computer Science si fornisce una spiegazione efficace, anche se naturalmente semplificata, del funzionamento di tale algoritmo: poniamo che ad un campione di persone venga fatta una domanda, chiedendo loro di rispondere “si” oppure “no”.

Ora, prima di raccogliere la risposta, viene inserito il citato “white noise” che andrà ad anonimizzare la risposta.

Poniamo che un soggetto risponda “si”. Prima che la risposta venga raccolta, lanciamo una monetina. Se viene “testa” registreremo la vera risposta. Se viene “croce”, lanciamo una seconda monetina e, se viene “testa” allora registriamo una risposta “si”, se viene “croce” raccogliamo una risposta “no”.

In questa semplificazione emerge comunque l’importanza del “lancio della monetina” che introduce l’elemento randomico a tutto l’algoritmo.

Ed in effetti la randomizzazione è essenziale per il funzionamento della differential privacy e ciò in quanto, come si legge nel citato paper, se si vuole creare una vera garanzia di anonimizzazione non è possibile prescindere da un elemento di casualità.

Esiste però una criticità: un simile algoritmo, che come visto va a falsare le risposte degli utenti/clienti, per produrre una statistica attendibile necessità di un bacino di informazioni molto ampio, capace di rendere questo “noise” un rumore di fondo e non un qualcosa di effettivamente invalidante.

Si comprende dunque il motivo per cui, ad oggi, le aziende maggiormente impegnate in tale tecnologia sono Apple e Google, colossi informatici che gestiscono quantità enormi di dati.

L’importanza dell’anonimizzazione

Come visto, al termine di tale processo, l’informazione arriva al titolare del trattamento già anonimizzata. Questo è importante in quanto se il dato fosse anonimizzato in un secondo momento, vi sarebbe, tra l’altro, il rischio che il titolare, per svariati motivi, decida di non provvedere all’anonimizzazione; non solo, in secondo luogo, vi sarebbe il rischio di subire un data breach nel percorso/lasso di tempo che va dalla raccolta del dato alla effettiva anonimizzazione.

Il processo di differential privacy risolve entrambe le problematiche rendendo conseguentemente più sicuro il trattamento.

È molto significativa questa scelta, specialmente se letta in combinato con la normativa europea sulla data protection la quale, come noto, guarda alla minimizzazione come ad un principio fondamentale imprescindibile.

In tal senso, è condivisibile la volontà di anonimizzare il dato anziché limitarsi ad una pseudonimizzazione in quanto, come noto, mentre i dati pseudonimizzati debbono considerarsi comunque dei dati personali (vedi considerando n.26 del GDPR), i dati anonimizzati possono invece considerarsi dati non personali in quanto non riconducibili (nemmeno attraverso operazioni di reverse engineering) ad un soggetto determinato.

Non sorprende, dunque, che Google stia puntando molto su tale tecnologia la quale permette al colosso di Mountain View di trattare dati riducendo sensibilmente il pericolo di incorrere in scandali simili a quelli recentemente generati dalla scoperta attività di “human review”.

Applicazioni concrete della differential privacy

Come facile intuire, l’esistenza di una tecnologia che permetta la creazione di database anonimi risulta di cruciale importanza per le imprese le quali, adottando tali algoritmi, possono raggiungere gli sessi risultati che raggiungerebbero, ad esempio, con sistemi di profilazione molto invasivi.

Il problema principale consiste nell’elevato costo di sviluppo di tali sistemi che, a seconda del tipo di richiesta, necessitano di una programmazione differente.

A questa esigenza è venuta incontro Google la quale, di recente, ha pubblicato la propria library di algoritmi di differential privacy rendendo gli stessi accessibili a tutti mediante rilascio in open source.

Di fatto, Google ha ceduto delle parti di un codice molto prezioso, capace di permettere risultati importanti. Perché lo ha fatto?

Il motivo della cessione, stando alle dichiarazioni ufficiali, è quello di permettere a tutti di fruire dei sistemi di insight, solitamente ad appannaggio delle società più grandi, e di farlo in modo assolutamente non invasivo per la privacy degli utenti.

È un intento nobile, non c’è dubbio, ma è da evidenziare come il fatto che i codici siano open source non rende gli stessi automaticamente user friendly.

Ed infatti, deve essere chiaro che la messa a disposizione di tali algoritmi non è stata fatta per tramite di un’app o di un tool di facile ed intuitivo utilizzo (come Google ci ha sempre abituati). L’algoritmo è pubblicato in modo grezzo, risultando utilizzabile solo da personale esperto.

Basta uno sguardo alla library per capire che prima di ottenere i risultati sperati sarà necessario rivolgersi ad un programmatore.

Tuttavia, superati questi inconvenienti tecnici, per le imprese sarà possibile accedere a meccanismi molto complessi ai quali probabilmente non avrebbero mai potuto accedere, capaci tra l’altro di effettuare calcoli semplici (somme e medie) ma anche molto complessi come varianze, deviazione da standard ed altre statistiche.

È quindi da ritenere apprezzabile il gesto di Google di condividere con l’umanità i propri preziosi algoritmi relativi alla differential privacy.

Questa decisione di sicuro ha il potenziale per segnare una svolta nella storia della data protection. Le imprese possono ora esaminare “insight” senza violare la riservatezza degli utenti, non esistono più scuse.