Dopo l’AI generativa, è tempo di ripensare la privacy? Le proposte per affrontare la sfida

L’AI ha bisogno di grandi quantità di dati per funzionare. Poiché l’innovazione continua a ritmo sostenuto, è quindi fondamentale che i dati dello sviluppo dell’AI siano “corretti” concentrandosi sui danni alla privacy individuali e collettivi. Ecco cosa dice il report della Stanford University per cristallizzare la situazione attuale

AI vs. dati personali: il problema è sempre più evidente anche nella terra degli artefici principali di queste tecnologie, gli Stati Uniti. Lo studio appena pubblicato dall’autorevole pensatoio sull’AI della Stanford University (Human-centered Artificial Intelligence) cerca di cristallizzare la situazione attuale in un documento intitolato “Rethinking Privacy in the AI era: Policy Provocations for a Data-Centric World”, redatto da Caroline Meinhardt e Jennifer King.

Lo studio è interessante e rilevante trattando soprattutto di ambiti normativi USA e dell’UE. Non è la prima volta che affrontiamo in questa sede il lavoro dell’autorevole fonte (in passato abbiamo dato conto dell’importante report sullo stato dell’AI).

Quello oggi pubblicato è uno scritto propositivo: si prende atto che l’intelligenza artificiale (AI) ha bisogno di grandi quantità di dati per funzionare. L’acquisizione dei dati presenta rischi rilevanti e le norme sulla privacy esistenti non sono ritenute sufficienti per affrontare questo problema.

Da qui le riflessioni delle autrici: sono necessari nuovi approcci per regolare l’uso dei dati per il funzionamento dell’AI, arrivando a suggerire tre strategie chiave da affrontare nella normativa e che vedremo alla fine.

Si prende atto, in definitiva, che la normazione in parola è perno fondamentale per lo sviluppo di una AI “responsabile”, o “trustworthy” e “affidabile”. Traguardo che, va detto, in Europa era già dato come pacifico da tempo, pur con tutte le difficoltà e incertezze su come arrivarci.

Il punto è che “nulla dello sviluppo dell’AI è inevitabile”, ecco perché è ora il tempo in cui si deve intervenire.

AI Act, via libera di tutti i Paesi UE: ecco l’approccio europeo all’intelligenza artificiale

Indice degli argomenti

AI: una corsa all’oro nel Far West?

Negli ultimi due anni, l’intelligenza artificiale (AI) ha fatto passi da gigante, in particolare con la diffusione di strumenti di AI generativa come GPT-4, PaLM, Llama per i modelli linguistici, e Midjourney e DALL-E per la generazione di immagini, suscitando sia interesse che preoccupazioni globali.

Questo documento esamina le implicazioni per la privacy e la protezione dei dati di un’ampia gamma di sistemi di AI, non limitandosi ai modelli linguistici di grandi dimensioni (LLM), ma includendo anche sistemi di AI predittiva in vari ambiti come riconoscimento facciale, algoritmi di assunzione, condanna penale, pubblicità comportamentale e riconoscimento delle emozioni.

Il documento evidenzia come quasi tutte le forme di AI richiedano sempre maggiori quantità di dati (Big Data) per sviluppare competenze decisionali o di classificazione.

Nel corso dei primi mesi del 2024, l’AI ha attirato l’attenzione delle autorità regolatorie e politiche a livello globale: l’UE ben sappiamo che è in procinto di finalizzare l’AI Act entro la fine dell’anno, Regno Unito e Cina stanno valutando o già implementando normative sull’AI.

Negli Stati Uniti, un executive order presidenziale di Biden sull’AI rappresenta il segnale più evidente dell’intenzione dell’amministrazione Biden di adottare un approccio “olistico” alla governance dell’AI.

Con la legislazione federale sull’AI ancora in fase di elaborazione, un numero crescente di agenzie federali e legislatori statali sta esplorando come le normative esistenti si applichino all’AI e proponendo regolamentazioni specifiche.

Si discute il crescente interesse da parte dei responsabili politici per regolamentare l’AI in risposta alle preoccupazioni pubbliche, evidenziando che, sebbene l’UE stia finalizzando l’AI Act per una regolamentazione generale, gli Stati Uniti manchino di un approccio unitario, affidandosi invece a dichiarazioni politiche e regolamentazioni a livello statale e locale.

Il documento argomenta che le leggi esistenti sulla privacy e protezione dei dati, sia negli Stati Uniti che nell’UE, regolano già in parte l’AI, ma solleva il dibattito: sono queste norme, oggi, sufficienti e adeguate per affrontare le forme emergenti di AI e i relativi rischi per la privacy?

Attualità dei principi FIPs nell’AI world

Gli attuali approcci normativi, attesta la ricerca, sono essenzialmente basati sulle Fair Information Practices (FIP) e non si ritengono del tutto adeguati al contesto attuale.

Di che si tratta? Le normative moderne occidentali sulla privacy si fondano essenzialmente sulle Fair Information Practices, principi vecchi di mezzo secolo, riconosciuti globalmente quale base per i diritti per un giusto trattamento dei dati personali.

Questi principi, elaborati negli Stati Uniti negli anni ’70, stabiliscono cinque requisiti per proteggere la privacy individuale, incentivando le organizzazioni a permettere agli individui di conoscere, prevenire usi impropri e correggere i dati raccolti su di loro. I principi sono noti: trasparenza, consenso, accesso e correzione, limitazione delle finalità, sicurezza dei dati.

Diversamente dalle normative che vedono la privacy come diritto umano fondamentale (approccio tipicamente europeo), i FIPs definiscono regole e doveri specifici tra chi detiene i dati e l’individuo, presupponendo una legittima necessità statale di raccolta dati per scopi amministrativi, estendendo poi queste norme al settore privato. L’OCSE, nel 1980, ha espanso questi principi in otto punti che includono anche la limitazione della raccolta di dati, la qualità dei dati e l’accountability.

I FIPs – sebbene concepiti prima dell’avvento di Internet e delle tecnologie moderne come l’AI – rimangono tuttora rilevanti, influenzando la minimizzazione dei dati e la limitazione delle finalità nell’uso dei dati per l’addestramento di sistemi di AI. Normative più moderne come il GDPR nell’UE, le normative privacy della California e la proposta ADPPA negli USA si basano tuttora su questi principi, dimostrando l’importanza dei FIP nel modellare la regolamentazione della privacy e il suo impatto sull’AI in un’era di dati digitali in espansione.

Si può trovare eco dei FIPs persino in un ecosistema normativo ben lontano come quello cinese: nel 2021, la Cina ha introdotto una legge sulla privacy dei dati all’avanguardia, ispirandosi al GDPR europeo. La legge cinese sulla protezione delle informazioni personali (PIPL) mira a garantire ai cittadini cinesi un controllo maggiore sui propri dati personali e sensibili, stabilendo chi può accedervi, elaborarli e condividerli.

Sebbene non menzioni esplicitamente la privacy, la PIPL limita l’abuso e la cattiva gestione dei dati personali, cercando di frenare sia le aziende che le autorità. In teoria la PIPL proibisce persino il processo decisionale automatizzato che induce trattamenti differenziati dei consumatori, come la discriminazione dei prezzi, e impone restrizioni sulla raccolta indiscriminata di dati da parte delle aziende.

Fino a richiedere il consenso informato per il trattamento dei dati e conferendo agli individui diritti fondamentali sui propri dati (la modifica, l’eliminazione e la copia dei dati).

Tuttavia, la sua effettiva incidenza è complessa da valutare: la sorveglianza governativa resta sostanzialmente illimitata, così come l’uso politico della normativa.

Arriva l’AI generativa: l’impreparazione degli USA

Prima dell’irruzione degli strumenti di AI generativa nella consapevolezza pubblica e politica a fine 2022, il dibattito sulla regolamentazione dell’AI si concentrava prevalentemente sui sistemi predittivi e sulla loro capacità di classificare e prevedere, con una minore attenzione rivolta ai dati sottostanti utilizzati per l’addestramento.

L’avvento dell’AI generativa ha riorientato il dibattito, suscitando interrogativi non solo sui risultati prodotti, ma anche sull’origine e sulla legittimità dei dati utilizzati. L’uso di dati “web scraped” da Internet per alimentare questi sistemi, raccolti senza alcun consenso o autorizzazione, ha sollevato preoccupazioni sulla provenienza dei dati e sulla loro conformità con le normative sulla privacy.

Il caso di Clearview AI, ad esempio, ha evidenziato i rischi associati all’acquisizione aggressiva di immagini facciali, portando alla sua esclusione dal mercato dell’UE per violazione del GDPR.

Man mano che l’attenzione si spostava sui sistemi generativi, le autorità di regolamentazione si sono affrettate a valutare l’impatto di tali tecnologie – per es. il G7 e il Garante italiano hanno esaminato le implicazioni per la privacy, soprattutto in relazione ai dati dei minori e alla possibilità di attacchi mirati.

La necessità di “privacy by design” e il rispetto dei principi di protezione dei dati e di minimizzazione dei dati sono stati ribaditi, evidenziando le sfide poste dall’AI generativa alla normativa esistente e sollevando questioni su consenso, legittimo interesse, nonché i diritti degli individui sui propri dati nei set di addestramento.

Negli USA, l’assenza di una legge federale sulla privacy ha spostato il dibattito sull’AI generativa soprattutto verso il copyright, offrendo ai creativi una via per contrastare l’uso “libero” dei loro dati. Tuttavia, questa strategia si scontra con ostacoli pratici, limitandone l’efficacia.

La FTC ora sta dirottando la sua attenzione su OpenAI per chiarire l’uso dei dati di addestramento, sottolineando la sua contrarietà all’uso improprio di dati personali. Questo approccio evidenzia la necessità di adattare le normative ai cambiamenti tecnologici, ma sottolinea anche la limitatezza delle leggi esistenti negli USA rispetto al più consolidato GDPR europeo.

Critiche, comunque, non immuni nemmeno al sistema europeo: per es. il GDPR contiene sì una forte tutela degli interessati all’art. 22, quello sui procedimenti decisionali automatizzati. Il documento puntualizza la debolezza della previsione nello scenario attuale: a parte l’applicazione alle sole decisioni “unicamente” automatizzate, nel contesto dell’AI generativa non pare nemmeno trovare applicazione (non si ravvisano “decisioni” negli output di questi sistemi).

Big Big Big data

L’epoca dei Big Data ha inaugurato un’insaziabile voracità di dati, una marea crescente che ha invaso ogni anfratto dell’esistenza umana, alimentando l’ascesa tumultuosa dell’intelligenza artificiale. Il proliferare dell’AI amplifica ulteriormente questa sete di dati, spingendo gli sviluppatori a sondare sempre più in profondità l’ecosistema digitale.

Citando il documento, le prassi attuali “si basano saldamente sull’ubiquità della raccolta dei dati, sul crollo dei costi di archiviazione dei dati e sul sorprendente potere delle nuove tecniche analitiche per ricavare nuovi insight che possono migliorare il processo decisionale in tutti i settori della vita economica, sociale e politica”.

Questa incessante ricerca trascinerà con sé una cascata di dati, inevitabilmente trasgredendo i principi di minimizzazione e di limitazione delle finalità dei dati (e nonostante un numero crescente di ricerche stia mettendo sempre più in discussione l’ipotesi che avere più dati garantisca migliori risultati). Lasciando emergere interrogativi inquietanti sulla provenienza dei dati e sulle implicazioni etiche di tale bulimia informativa.

Attualmente non esistono obblighi di trasparenza che impongano alle aziende di specificare dove e come acquisiscono i dati di addestramento – al di fuori dell’AI Act – e tali requisiti si applicano solo ai sistemi designati come ad alto rischio.

Molte delle più grandi aziende che producono sistemi di AI generativa non hanno risposto alle richieste pubbliche sulla provenienza dei loro dati e sulle procedure che utilizzano per de-identificare i dati di addestramento di informazioni di identificazione personale e altri aspetti sensibili.

La giurisdizione conta: il web scraping può essere considerato legale negli Stati Uniti ma non nell’UE.

Danni da AI

L’AI in ambito commerciale potrebbe perpetuare i danni già noti ma anche esacerbarli, o introdurne di nuovi. Gli sviluppi tecnologici nell’AI stanno creando nuove possibilità di nuocere, tra cui l’uso improprio dei sistemi di AI generativa per “inferire” informazioni personali oppure creare contenuti diffamatori. Inoltre, questi sistemi possono memorizzare dati personali inseriti dagli utenti e renderli accessibili ad altri, aumentando il rischio di divulgazione non autorizzata a terzi.

Per una tassonomia dei rischi, le autrici dello studio richiamano il noto lavoro di Citron e Solove (professori statunitensi) sull’information privacy che postula danni fisici, economici, reputazionali, emotivi e relazionali agli individui, oltre alla discriminazione e i danni basati sulla vulnerabilità, quelli che possono verificarsi a causa delle asimmetrie informative, i danni alla propria autonomia, l’incapacità di fare scelte informate, l’incapacità di correggere i dati e una generale mancanza di controllo su come le proprie informazioni vengono raccolte e utilizzate.

Tutti questi aspetti sono rilevanti per i sistemi basati sull’AI.

E ve ne sono di nuovi di rischi, prodotti specificamente nell’ambito AI: rischi che vanno a colpire l’identità, rischi di aggregazione e inferenza dei dati, inferenze sulla personalità e sullo stato emotivo tramite applicazioni di frenologia e fisiognomica, oppure la divulgazione di informazioni personali “sensibili” precedentemente non disponibili o oscurate, o ancora un’errata identificazione o la diffamazione.

Difatti i sistemi di AI generativa possono “dedurre” informazioni personali sugli individui, possono fornire agli utenti la possibilità di creare contenuti diffamatori o fake che li impersonano. Non dimentichiamo che quando i dati personali sono inclusi nel set di dati di addestramento, “la ricerca ha dimostrato che questi sistemi possono memorizzare i dati e quindi esporli ad altri utenti come parte degli output”.

Oltre ai rischi per gli individui, i sistemi di AI generano preoccupazioni significative a livello sociale, cioè derivanti da sistemi automatizzati che possono includere discriminazione e sorveglianza sproporzionate e ingiustificate di gruppi sociali specifici, amplificando i pregiudizi sociali e minacciando i principi democratici.

Le capacità dell’AI possono portare alla classificazione e all’applicazione dei risultati decisionali a vaste fasce della popolazione in base all’affiliazione al gruppo, amplificando per es. le discriminazioni. Questi rischi sociali evidenzierebbero ancor più l’insufficienza delle normative sulla privacy esistenti, che non sono in grado di affrontare le sfide poste dall’AI a questo livello.

In sintesi, mentre le normative sulla privacy cercano di rispondere agli sviluppi tecnologici degli ultimi vent’anni, l’emergere dell’AI richiede un approccio prospettico che anticipi e affronti i cambiamenti futuri.

Gli strumenti normativi attuali devono essere adeguati a proteggere efficacemente contro i danni alla privacy, sia a livello individuale che sociale, posti dall’espansione dell’AI.

FIPs ormai insufficienti per la sfida dell’AI

Dato il quadro, veniamo alla protezione dei dati personali: benché le normative vigenti in materia di privacy e protezione dei dati, sia nell’UE che a livello statale negli USA, possano regolare l’AI che dipende o incorpora dati personali, l’approccio basato sui Fair Information Practice Principles (FIP) da solo è considerato ormai inadeguato per mitigare i rischi e i danni discussi.

Per es. la minimizzazione dei dati e la limitazione delle finalità – principi fondamentali sia del GDPR che del CCPA californiano – influenzano lo sviluppo dell’AI limitando l’utilizzo dei dati personali. Queste norme richiedono che le aziende giustifichino la raccolta e l’uso dei dati per scopi specifici, potenzialmente riducendo l’arbitrarietà della raccolta e del riutilizzo dei dati in contesti diversi. Tuttavia, la protezione offerta varia significativamente tra le giurisdizioni coinvolte.

Nonostante le difficoltà, sono state sviluppate e implementate tecniche per aderire ai principi di minimizzazione dei dati e limitazione delle finalità senza compromettere le prestazioni dell’AI. Questi includono l’apprendimento “federato” per la fase di addestramento e l’anonimizzazione dei dati per la fase di inferenza, tra le altre strategie possibili di tutela della privacy. Rimane, tuttavia, una necessità di ulteriori ricerche su come queste pratiche possono essere ottimizzate per l’AI.

Le norme sulla privacy regolano implicitamente i sistemi di AI che elaborano dati personali, richiedendo il rispetto dei diritti degli individui su tali dati. Tuttavia, i FIPs, che costituiscono la base delle leggi esistenti sulla privacy, sono criticati per la loro inadeguatezza nell’era dell’AI, con alcune voci che sottolineano come “il controllo (individuale) non sia scalabile” in una società moderna inondata di dati.

Difatti, il testo evidenzia la fondamentale debolezza dell’autogestione della privacy implicita nell’attuale quadro FIPs, dove gli individui spesso non hanno un controllo effettivo sui loro dati a fronte del potere delle aziende.

Questo solleva dubbi sulla capacità dei FIPs di fornire una protezione significativa della privacy nell’era dell’AI, sottolineando la necessità di un approccio più efficace, che non si limiti alla raccolta dei dati per impostazione predefinita.

Valutazioni di impatto: utili fino a che punto?

Le valutazioni d’impatto sulla privacy e protezione dei dati – radicate nella legislazione ambientale degli Anni 60 – orientano le organizzazioni verso una valutazione proattiva dei rischi legati all’uso dei dati personali.

Negli USA, l’e-Government Act del 2002 richiede che le agenzie federali effettuino Privacy Impact Assessments (PAI) per tecnologie che gestiscono dati identificabili. Analogamente, il GDPR impone Data Protection Impact Assessments (DPAI) per trattamenti che presentano elevati rischi per i diritti individuali, inclusi l’uso di dati particolari e la sorveglianza pubblica.

Il CCPA, una volta a regime completo e integrato nel 2024, potrebbe richiedere DPAI per attività a rischio come la vendita di dati personali e l’utilizzo di decision-making automatizzato.

Queste valutazioni mirano a integrare la mitigazione dei rischi nei processi di progettazione e pianificazione, valutando sia i tipi di dati che le attività di trattamento ad alto rischio. Tuttavia, nonostante l’importanza di queste misure, l’approccio attuale presenta limitazioni.

Le valutazioni d’impatto, pur essenziali, non garantiscono la protezione contro l’implementazione di tecnologie dannose, dipendendo da un contesto normativo efficace e da un approccio proattivo al rischio. La logica di opt-out e i requisiti di notifica perpetuano un modello di autogestione della privacy, gravando sugli individui il compito di comprendere e gestire le implicazioni del trattamento automatizzato dei loro dati, senza necessariamente offrire soluzioni concrete.

Infine, le valutazioni d’impatto non risolverebbero il problema fondamentale di come prevenire inizialmente la raccolta eccessiva di dati in un contesto tecnologico pervasivo, suggerendo la necessità di un quadro normativo più rigoroso che limiti l’uso di sistemi di AI impattanti sulla privacy a livello individuale e sociale.

Il discorso si dipana attorno alla constatazione che le normative attuali, basate sui principi delle Fair Information Practices (FIP), non erano progettate prevedendo l’ascesa e la complessità dei sistemi di AI, particolarmente l’AI generativa. Il modello corrente, di fatto, si rivela inadeguato per assicurare la protezione della privacy individuale e non affronta i rischi e i danni alla privacy su scala sociale.

Il documento di Stanford evidenzia l’inadeguatezza degli approcci di autogestione della privacy che pongono l’onere sugli individui di navigare e gestire le sfide della privacy in un contesto dominato da sistemi di AI opachi e non trasparenti, rendendo praticamente impossibile per le persone esercitare efficacemente i loro diritti di cancellazione e rettifica.

In conclusione, si sottolinea l’urgenza di superare l’approccio basato sui diritti individualisti a favore di una governance dei dati più responsabile e collettiva. La necessità di un nuovo quadro per la privacy e la protezione dei dati che possa realmente affrontare le esigenze del contesto attuale dominato dall’AI è evidenziata come un passo critico verso la protezione efficace della privacy in un’era tecnologicamente avanzata.

Le misure attuali come quelle del GDPR, pur seguendo i principi dei FIP – come l’informazione e l’accesso ai dati – offrono protezioni “procedurali” ma non riescono a limitare la raccolta dei dati all’origine, in un’era in cui l’interazione tecnologica è quasi inevitabile. La sfida persiste nel bilanciare l’esigenza di proteggere la privacy degli individui con l’implementazione efficace di sistemi di AI che rispettino i principi etici e le normative sulla protezione dei dati.

Le proposte: come affrontare le sfide dell’AI

Il cuore pulsante del documento è la parte finale, cioè le proposte migliorative delle autrici del documento. Vediamo in cosa si sostanziano le tre idee:

Non più libertà “by default”, bensì “privacy by default”: per affrontare le sfide poste dalla raccolta e dal trattamento dei dati nell’era dell’intelligenza artificiale e dei Big Data, il primo suggerimento proposto mira a invertire la prassi corrente di raccolta dei dati “per impostazione predefinita”, orientandosi verso un approccio basato sull’opt-in (consenso) piuttosto che sull’opt-out (opposizione ex post); i FIPs, sebbene costituiscano una base solida per i diritti legati alla raccolta di dati, sono stati interpretati (diremmo perlopiù negli USA) in maniera tale da “normalizzare” la raccolta di dati per default, una pratica che va ben oltre l’obiettivo originale dei FIP di fornire diritti procedurali, piuttosto che di limitare specificamente l’uso dei dati; in tal senso, si menzionano i due esempi “estremi” e diversamente fallimentari, secondo il documento, ovvero da un lato l’esempio europeo della disciplina dei cookie (Direttiva 2002/58) – ove basandosi sul consenso reiterato per ogni sito, si è ottenuto di affaticare e infastidire gli utenti – accanto all’approccio “liberista” dell’FTC negli USA e che ha permesso alle imprese di definire autonomamente le proprie policy sulla privacy senza necessariamente tutelare la privacy dei consumatori (peraltro non si scordi mai che l’FTC sempre e solo questa categoria protegge, solo parziale rispetto al concetto di interessato nel GDPR); l’iniziativa proposta mira a ribaltare la norma prevalente dell’opt-out, instaurando l’opt-in come principio cardine; la situazione trarrebbe origine dall’intento originario dei FIPs, focalizzato sul regolamentare la raccolta di dati governativa piuttosto che quella commerciale, non prevedendo un mondo in cui la “sorveglianza digitale” sarebbe diventata onnipresente; un esempio “virtuoso” sarebbe rappresentato, secondo le autrici, dall’iniziativa di Apple di introdurre la App Tracking Transparency (ATT) su iOS, che chiede esplicitamente agli utenti – in modo chiaro e al momento opportuno – il consenso alle app per poter monitorare la loro attività attraverso altri software; quanto ai problemi della possibile “fatica da consenso”, si propone ad esempio di automatizzare le preferenze utente in materia, delegando la gestione delle autorizzazioni di accesso e delle preferenze relative ai dati personali a soluzioni software avanzate, superando i limiti dei sistemi operativi o browser singoli; la piena realizzazione di tali meccanismi dipende dall’adozione di standard tecnologici riconosciuti e dall’imposizione normativa della loro implementazione;
La tutela estesa a tutta la supply chain: i controlli attuali si concentrano sui dati elaborati direttamente da sistemi AI, senza indagare adeguatamente sulla provenienza e sulla gestione dei dati di training; questa carenza di trasparenza e di responsabilità nella catena di approvvigionamento dei dati può portare a ovvi risultati negativi per la privacy, come la divulgazione involontaria di dati personali o l’uso di dati senza consenso; come riportato, qualora “le valutazioni dell’impatto algoritmico dovessero prendere piede come strumento di governance, potrebbero richiedere anche una forma di valutazione dei set di dati per comprendere appieno come le pratiche di creazione e gestione dei set di dati influenzino lo sviluppo algoritmico”; il documento suggerisce dunque un approccio supply chain (di cui considerare chiaramente parte l’approvvigionamento dei dati) che enfatizzi la trasparenza (pur con i dubbi attuali su come documentarla) e una gestione responsabile dei dati da parte delle aziende, promuovendo altresì standard e codici di condotta che richiedano una documentazione dettagliata e trasparente circa i set di dati utilizzati e le loro fonti, oltre che sulla minimizzazione nell’uso dei dati e sulla qualità del dato stesso; questo approccio aumenterebbe la fiducia nella gestione dei dati AI e migliorerebbe la qualità e l’affidabilità dei sistemi AI (affrontando le questioni dei bias); inoltre, il testo mette in luce l’importanza di incentivare – soprattutto economicamente – pratiche di raccolta dati che siano responsabili e basate sulla qualità dei dati, sull’accessibilità a dataset pubblici per usi di ricerca, all’apertura a nuovi operatori, sostenendo che gli investimenti in set di dati di origine etica e l’adozione di misure tecniche per la tutela della privacy possono fornire benefici sociali significativi e promuovere un uso etico dei dati; ciò anche perché “è difficile competere con dati liberi e non regolamentati, in particolare quando esiste una concorrenza tra giurisdizioni legali”; tecnicamente, il sostegno a tutto questo può venire per es. dall’uso di dati sintetici o applicando le PETs (cioè tecniche come la privacy differenziale per minimizzare l’uso di dati in chiaro);
Il terzo suggerimento propone di “rivoluzionare” l’attuale sistema centrato sull’autotutela, incentrando la gestione dei dati (come l’esercizio dei diritti) negli intermediari affidabili di dati personali: questi intermediari avrebbero il compito di automatizzare e centralizzare le preferenze individuali in materia di dati, promuovendo sia la privacy individuale che collettiva; gli intermediari di dati emergerebbero come una soluzione per ristabilire il controllo degli utenti sui loro dati, fungendo da mediatori tra individui e aziende – specie pensando all’emergente mercato di “monetizzazione” dei dati personali, il cui uso potrebbe essere remunerato; gli intermediari potrebbero negoziare (con l’adeguata forza contrattuale data dai numeri) l’uso dei dati in base alle preferenze degli interessati stessi, garantendo al contempo che i dati siano utilizzati in modo etico e conforme alle aspettative degli utenti, incentivando una concreta interoperabilità e portabilità nell’uso dei dati; così la visione proposta include lo sviluppo di una nuova architettura tecnologica e giuridica, spostando il paradigma a un modello in cui il consenso e il controllo degli utenti siano al centro; economicamente, ciò comporterebbe anche il necessario contribuito economico pubblico, poiché “lo sviluppo privato e a scopo di lucro dell’AI ha molte più probabilità di portare ad applicazioni che avvantaggiano gli sviluppatori piuttosto che la società in generale. Senza sufficienti investimenti pubblici nella ricerca e nello sviluppo di base dell’AI, è molto meno probabile che l’AI venga utilizzata dal pubblico e senza scopo di lucro che apporti benefici materiali alla società”.

Visto che il resto del documento tratta piuttosto criticamente il tema del consenso come strumento di controllo, e ciononostante si propugna una raccolta di dataset basati sul consenso a fini di training, il correttivo che sostanzialmente il documento pare sostenere è quello del consenso tramite intermediario.

Quindi, un consenso che si sposta da una gestione individuale (vista come debole e scarsamente tutelante per varie ragioni) a una gestione centralizzata tramite intermediario (vista come maggiormente trasparente, comprensibile e tutelante).

Alcune conclusioni (critiche)

Il documento delle ricercatrici di Stanford è un’importante fonte sul tema AI e privacy, di sicuro interesse per tutti gli operatori che devono tenere conto di questi aspetti coinvolti nell’uso di soluzioni di AI.

Nonostante le accurate analisi, una prima impressione sulle proposte finali è d’obbligo e viene spontaneo fare alcuni veloci rilievi:

Anzitutto, le proposte sembrano arrivare un po’ tardi, quando i sistemi più noti sono già stati addestrati in un certo modo, lo scraping dei dati nel web è già massivamente avvenuto e da tempo… come si potrà rimettere il genio nella bottiglia? Oltretutto vanno a colpire, come ammesso anche nel documento, questioni discusse da molti anni, ben prima dell’esplosione attuale dell’AI – quindi lascia dubbiosi la fattibilità e utilità concreta delle proposte, a questo punto – salvo poter dare un colpo di spugna all’attuale e ripartire da una nuova realtà, il che non suona del tutto realistico;

Detto questo, sul primo punto (raccolta dei dati non libera by default), in realtà il GDPR pare già indirizzato da tempo, visto che tra i principi da rispettare v’è fin dagli esordi quello invocato della privacy by default – per verità di scarsa implementazione concreta, attualmente; la proposta di passare a un’automazione delle scelte ricorda quella sull’espressione del consenso digitale tramite pre-impostazioni del sempre rimandato Regolamento e-privacy, bloccato dal 2018 anche da lotte lobbistiche che non fanno facilmente sperare per un intervento normativo europeo sul punto; forse un impegno congiunto UE – USA potrebbe cambiare le cose?

Sul secondo punto, come già rilevato la normativa UE del GDPR sembra già sostenere quanto indicato anche in merito alla supply chain, discorso diverso da affrontare potrebbe essere quello dell’effettivo rispetto ed enforcement da parte delle autorità di controllo sul complesso discorso delle responsabilità “scaricate” e condivise tra più (troppi) attori coinvolti.

Sul terzo punto, la “proposta” è nota da tempo, basti pensare alle tante discussioni passate sui PIMS e la spinta in tal senso riservata agli intermediari dei dati (pur in un inquadramento non privacy-centrico) da parte del Data Governance Act e Data Act; si tratta di una prospettiva di pregio, però restano sul tavolo pressanti dubbi sulla fattibilità concreta (specie sulla sostenibilità economica dei PIMS).

Non resta che attendere se e come le proposte comunque autorevoli (e innovative specie per gli USA) dello Stanford potranno guadagnare credito politicamente e trovare sponda in interventi significativi.

Citando le conclusioni finali, a cui lasciare la parola: “una cosa che sappiamo con certezza è che l’AI ha bisogno di dati per progredire.

Senza dati, il progresso dell’AI si ferma. Poiché l’innovazione dell’AI continua a ritmo sostenuto, è quindi fondamentale che i dati dello sviluppo dell’AI siano “corretti” concentrandosi sui danni alla privacy individuali e collettivi.

Il nostro obiettivo è quello di fornire ai responsabili politici e alle altre parti interessate informazioni di base sufficienti per comprendere perché le normative e i quadri normativi esistenti in materia di privacy non affrontano pienamente questi problemi e offrire suggerimenti per le azioni a breve e lungo termine da intraprendere per proteggere e preservare la privacy, garantendo al contempo una maggiore trasparenza e responsabilità nel ciclo di vita dello sviluppo dei dati dell’AI.

Speriamo di aver fornito una motivazione sufficiente sul motivo per cui devono essere affrontati se vogliamo avere sia la privacy che l’intelligenza artificiale in futuro”.