Sì al web scraping nella misura in cui da un lato sia supportato da una idonea base giuridica quale può essere, nel caso di specie, il legittimo interesse, e dall’altro siano state messe in atto, da parte del titolare del trattamento, misure aggiuntive volte a mitigare l’impatto che tale “pesca a strascico” possa avere sugli interessi, i diritti e le libertà degli utenti.
Questa è la conditio sine qua non e così lo afferma la CNIL, l’Autorità Garante per la privacy francese, con una recente scheda informativa al riguardo.
Vediamone i tratti salienti.
Indice degli argomenti
Il web scraping consentito
Il data o web scraping (dall’inglese “to scrape”, grattare/raschiare, quale tecnica particolare di raccolta e organizzazione di informazioni presenti sul web), di per sé non è affatto vietato.
Deve tuttavia essere analizzato caso per caso, così afferma la CNIL. Quest’ultima più volte ha sollecitato un’attenta vigilanza su pratiche di questo tipo, emanando di volta in volta svariate raccomandazioni da rispettare al fine di attuarle.
Sembra ovvio, ma non lo è. Spieghiamolo. In assenza di un quadro giuridico, infatti, le indicazioni sul web scraping lecito, diventano assai preziose. Specialmente quando i trattamenti sono effettuati dalle Autorità competenti al fine di individuare eventuali violazioni.
In altri casi, sono state accettate pratiche di data scraping, purchè fossero implementate misure di sicurezza rigorose. Si rammenta a proposito la ricerca di fughe di informazioni su Internet (RIFI) del 2022; per quanto da allora la CNIL auspica la creazione di un quadro legislativo ad hoc (cfr. parere della CNIL del 15 dicembre 2022 sul progetto “Polygraphe”).
Nei restanti casi, in assenza di garanzie, la pratica di web scraping deve considerarsi tendenzialmente vietata, e lo stesso orientamento è assunto dalla nostra Autorità Garante.
Il web scraping e l’AI
Al momento, in assenza di un quadro giuridico specifico, la CNIL attraverso la scheda informativa in parola, richiama “gli obblighi dei titolari del trattamento e specifica le condizioni in base alle quali tale trattamento potrebbe essere attuato per lo sviluppo di un sistema di intelligenza artificiale”.
La legittimità del web scraping dipende, infatti, dalla possibilità di fondarsi su una valida base giuridica. È evidente che, vista la peculiarità dell’attività, quella invocabile sia il “legittimo interesse”.
Come sappiamo quest’ultima è ritenuta residuale.
Per questi motivi, deve avere robuste misure di garanzia. D’altra parte, la raccolta di dati accessibili online volte a creare un data set vieppiù di addestramento non potrebbe basarsi sul legittimo interesse, in quanto troppo debole.
Proprio con la rapida e diffusa crescita dei sistemi di intelligenza artificiale generativa, basata su enormi quantità di dati online liberamente accessibili, l’estrazione di dati online accessibili al pubblico si è notevolmente ampliata.
Ma l’uso di tali tecniche, come scrive correttamente la CNIL, “comporta rischi intrinseci per i diritti e le libertà degli interessati, poiché gli individui hanno scarso controllo sulle modalità di riutilizzo dei propri dati pubblicamente disponibili”.
Il web scraping e tutti i rischi per la protezione dei dati
L’uso ormai diffuso del web scraping ha radicalmente cambiato l’utilizzo di Internet, vista la quantità di dati pubblicati online dall’utente che potenzialmente possono essere letti, raccolti e riutilizzati da terze parti.
Il tutto può comportare evidenti e significativi rischi per gli individui.
Vediamo di seguito i principali rischi connessi al GDPR.
Rischi per la privacy e i diritti garantiti dal GDPR
Anzitutto i rischi privacy, a causa dell’elevato volume di dati raccolti, dell’ingente numero di utenti/interessati, nonché delle pacifiche difficoltà nell’esercizio di alcuni diritti come quello relativo alla cancellazione.
Non da ultimo alto è il rischio, come si legge nella scheda in parola, “di raccogliere dati relativi alla vita privata degli interessati (ad esempio, tramite l’uso dei social network), o persino dati sensibili o altamente personali, senza garanzie sufficienti”.
Rischi ancora più elevati quando i dati in questione riguardano soggetti fragili (come i minori, ad esempio) che richiedono tutele rafforzate e informazioni opportunamente personalizzate.
Rischi da raccolta illegale di dati e per la libertà di espressione
Alcuni dati (personali) possono essere protetti da diritti specifici, come i diritti di proprietà intellettuale, oppure il loro riutilizzo richiede necessariamente il consenso degli interessati medesimi. In questi casi è evidente che il rischio da raccolta illegittima se non anche illecita sia – da calcolarsi – come altissimo.
Stesso discorso, per la “raccolta indiscriminata e su larga scala di dati e la loro possibile memorizzazione in sistemi di intelligenza artificiale” che come afferma correttamente la CNIL sono in grado di “compromettere la libertà di espressione degli interessati (ad esempio, un effetto paralizzante dovuto a un senso di sorveglianza percepito, che potrebbe indurre gli utenti di Internet ad autocensurarsi, soprattutto considerando la difficoltà di evitare il web scraping)”, per quanto ormai l’uso dei social network sia ricorrente nella vita di tutti i giorni, da parte pressoché di tutti.
Il web scraping e le misure obbligatorie
Per evitare dunque pratiche illegali di web scraping ecco che si rende decisamente necessaria l’adozione di talune misure di sicurezza, in forza anche del principio di minimizzazione dei dati (ex art. 5, par. 1 GDPR), e in particolare:
- definire preventivamente criteri specifici di raccolta;
- escludere dalla raccolta talune specifiche categorie di dati quando non sono necessarie a seconda che i) ove possibile, tramite filtri (ad esempio, se non necessari, dati delle transazioni bancarie, dati di geolocalizzazione, ecc.); ii) il filtraggio non sia possibile, escludendo dalla raccolta determinati tipi di siti (ad esempio siti o social network utilizzati principalmente da minori) che contengono strutturalmente queste categorie di dati (ad esempio dati riguardanti persone vulnerabili come minori o determinati dati sensibili); iii) sia garantito che tutti i dati irrilevanti eventualmente raccolti nonostante tutto siano eliminati immediatamente dopo la raccolta o non appena vengono identificati come tali;
- escludere dalla raccolta i siti web che si oppongono chiaramente allo scraping dei loro contenuti al fine di creare un “database di formazione mediante l’utilizzo di protocolli di esclusione robots.txt o l’implementazione di CAPTCHA, che, richiedendo un’azione che può essere eseguita solo da un essere umano, mira a impedire l’accesso alle pagine da parte dei robot”.
Per ulteriori dettagli, si rimanda direttamente alla lettura integrale della scheda informativa.
Le ragionevoli aspettative da rispettare
Ancora, la CNIL si sofferma sulle “aspettative ragionevoli” che devono essere rispettate.
È interessante notare come, a questo proposito, atteso il recente sviluppo tecnologico (big data, nuove tecnologie, AI ecc.), gli utenti/interessati potrebbero essere consapevoli che le informazioni condivise online potrebbero essere accessibili, raccolte e riutilizzate (anche) da terzi.
Di qui le aspettative devono essere ragionevoli e perché ciò avvenga occorre tenere ancora in debito conto di alcuni fattori, tra cui:
- la natura pubblicamente accessibile dei dati;
- il contesto e la natura dei siti web di origine (social network, forum online, repository di dataset ecc.);
- le restrizioni imposte dai siti web tramite meccanismi di blocco tipo i “CAPTCHA”;
- il tipo di pubblicazione (ad esempio, un post su un social network pubblicato con restrizioni di accesso può essere considerato privato dagli utenti in user experience);
- la natura del rapporto tra l’utente/interessato e il titolare del trattamento.
Insomma, lo scopo è sempre lo stesso: “limitare l’impatto sui diritti e sulle libertà degli interessati”, tenendo conto in particolare di dette ragionevoli aspettative.















