La decisione

Il web scraping di dati pubblici è legale, Linkedin sconfitta in tribunale: ma il caso non è chiuso

Una sentenza della Corte d’Appello del nono circuito degli USA ha dato ragione all’impresa hiQ Labs che aveva preso informazioni da alcuni profili su Linkedin sostenendo che il web scraping di dati pubblici sia legale, una posizione contestata dalla piattaforma social: un argomento complesso, a proposito del quale è bene approfondire le norme

Pubblicato il 29 Apr 2022

Nadia Giusti

Data Protection & Cybersecurity Expert

I giudici della Corte di Appello del Nono Circuito degli Stati Uniti hanno dato ragione all’azienda hiQ Labs, la quale aveva raccolto informazioni dai profili di LinkedIn, ritenendo che il web scraping di dati pubblicamente accessibili non sia illegale, contrariamente a quanto sostenuto da LinkedIn, che ritiene tale attività vietata sulla base della legge federale Computer Fraud and Abuse Act (CFAA).

LinkedIn si è detta delusa dalla decisione della Corte e ha ribadito che continuerà a battersi per la tutela dei dati personali dei propri utenti. “Quando i tuoi dati vengono presi senza autorizzazione e utilizzati in modi che non hai accettato, non va bene.” – ha commentato –“I nostri utenti si fidano di noi e ci affidano le loro informazioni, motivo per cui vietiamo lo scraping non autorizzato sulla nostra piattaforma”.

Il caso non è chiuso e la battaglia legale continuerà, ma porta in evidenza quanto l’argomento sia complesso, poiché i dati personali, essendo in grado di generare profitti, sono diventati sempre più importanti e strategici nel mondo digitale, e solleva più di un interrogativo su chi possa controllare questi dati e per quali scopi. Appaiono inoltre chiari l’inadeguatezza della CFAA, considerata dai più obsoleta per far fronte alle richieste dell’attuale mondo digitale, e il profondo divario sulla nozione di privacy e protezione dei dati tra Stati Uniti ed Europa.

Web scraping, tutto sulla tecnica usata per rubare dati Facebook e LinkedIn

Indice degli argomenti

Il caso LinkedIn contro hiQ Labs

Il “web scraping” (dall’inglese grattare o raschiare) è una particolare tecnica con cui attraverso l’impiego di specifici software è possibile, da una pagina web, estrarre dati, anche in grandi quantità, che possono poi essere memorizzati in un database locale ed analizzati successivamente.

Nel maggio del 2017 LinkedIn denunciò hiQ Labs, per aver effettuato accessi non autorizzati ai profili pubblici degli utenti del proprio network con lo scopo di raccogliere informazioni tra cui nome, storia lavorativa, titoli di lavoro e competenze e utilizzare le informazioni per produrre “analisi delle persone” al fine di vendere tali informazioni ai propri clienti.

Secondo LinkedIn, hiQ Labs stava violando il Computer Fraud and Abuse Act (CFAA), la legge federale statunitense del 2016 che proibisce l’accesso non autorizzato ad un computer, e i termini di utilizzo del servizio stesso di LinkedIn.

Per impedire a hiQ Labs di accedere ai dati degli utenti, oltre a una lettera di diffida, LinkedIn mise in campo tutta una serie di azioni atte ad impedire sia l’accesso che l’attività di scraping, e in particolare:

impedire a bot e ai crawlers – software in grado di raccogliere le informazioni necessarie per indicizzare in maniera automatica le pagine web e agevolare le ricerche successive – dei più diffusi motori di ricerca (come Google) di accedere ai server di LinkedIn tramite il file “robots.txt”;
utilizzo di sistemi “‘Quicksand’ atti a itentificare attività automatizzate indicative di attività di web scraping;
utilizzo di sistemi “Sentinella” in grado di bloccare attività da parte di indirizzi IP sospetti;
utilizzo di sistemi “Org Block” capaci di generare una lista di indirizzi IP conosciuti considerati “nocivi” che compiono scraping su larga scala.

hiQ Labs ottenne un’ingiunzione preliminare contro queste iniziative, in quanto la Corte stabilì che LinkedIn non aveva il diritto di bloccare le attività di hiQ Labs. Successivamente, nel 2019, la Corte di Appello del Nono Circuito diede nuovamene ragione a hiQ, ribadendo che LinkedIn non poteva impedire a hiQ di accedere ai dati pubblici degli utenti, in quanto ciò avrebbe rappresentato un ostacolo alla concorrenza.

La contromossa di Linkedin

LinkedIn però, non si arrese, convinta che la privacy dei dati dei propri utenti fosse a rischio. Nel 2020 decise di impugnare la decisione, e si rivolse alla Corte Suprema degli Stati Uniti, sostenendo che la messa in atto di misure tecniche atte a prevenire lo scraping e l’invio di una lettera di diffida a hiQ equivaleva a revocare l’autorizzazione e che in mancanza di questa si aveva una violazione del CFAA.

La Corte Suprema rinviò nuovamente il caso alla Corte di Appello del Nono Distretto, chiedendo la riesamina delo stesso sulla base della sentenza Van Buren vs Stati Uniti che era stata emessa dalla stessa Corte Suprema nel 2021. Robert Van Buren, ex-sergente di Polizia della Georgia, fu accusato di aver utilizzato il proprio account per accedere al database di targhe della polizia e fornire ad una terza parte – che si è poi rivelato essere un agente dell’FBI – i dati sulla targa di una donna, in cambio di una tangente di 5000 dollari.

In questa circostanza, la Corte Suprema stabilì che non vi era stata alcuna violazione del CFAA, poiché la legge si applica solo all’accesso non autorizzato a un computer che richiede una protezione di qualche tipo: dal momento che l’ufficiale di polizia aveva un regolare accesso al datase, non vi fu violazione in base al CFAA.

Contrariamente alle aspettative di LinkedIn, la Corte di Appello del Nono Circuito ha nuovamente dato ragione a hiQ basandosi sul fatto il concetto di “accesso non autorizzato” non possa essere applicato ai siti e ai profili che sono pubblici.

La Corte di Appello del Nono Circuito ha distinto, quindi, tra accesso a informazioni pubblicamente disponibili, come nel caso LinkedIn vs hiQ, da quello in cui le informazioni siano accedibili solo attraverso un processo di autenticazione, ad esempio attraverso un utente e una password: infatti, in questo secondo caso, fare web scraping ed eludere il controllo, equivarrebbe a una violazione del CFAA, come affermato dalla stessa corte nel caso Facebook v. Power Ventures.

Computer Fraud and Abuse Act (CFAA)

Il Computer Frand and Abuse Act (CFAA), altrimenti detta legge federale anti-hacking, fu introdotto nel 1986, e modificato più volte successivamente, con lo scopo di attribuire responsabilità civile e penale a coloro che accedono “senza autorizzazione” (o “superando” tale autorizzazione) a un computer o un server.

Concretamente, il CFAA vieta l’accesso non autorizzato a praticamente tutti i computer connessi a internet. La definizione di “computer” è volutamente ampia, ed include “qualsiasi dispositivo elettronico che esegue funzioni logiche, aritmetiche o di archiviazione”, escludendo solo macchine da scrivere, calcolatrici portatili e dispositivi simili. Quindi con il termine “computer” si vuole sicuramente indicare un computer desktop, un laptop, ma anche un iPad, uno smartphone, un Kindle – il dispositivo eReader di Amazon – o un lettore Blu-Ray.

Le sanzioni relative alla responsabilità penale, sono estremamente pesanti, e possono andare dalla reclusione (da uno fino a un messimo di dieci anni) a sanzioni pecuniarie, anche importanti, mentre sul piano civile il CFAA permette a coloro che hanno subito un danno di intraprendere una causa risarcitoria, a patto che il danno sia “dimostrabile”, e rientri in una delle casistiche previste dalla legge (lesioni fisiche, minaccia per la salute o la sicurezza pubblica ecc.).

Il concetto “senza autorizzazione” o “superamento dell’autorizzazione”, volutamente ambiguo nel testo della legge, è stato a lungo dibattuto tra le diverse Corti di Appello statunitensi. La domanda che molte di esse si sono poste, in quanto il CFAA è invocato molto spesso nell’ambito di cause lavorative, è la seguente: un dipendente che ha un regolare accesso a un sistema, può violare il CFAA se utilizza le informazioni raccolte per un uso improprio? In molti casi, le corti dei vari circuiti hanno adottato approcci diversi, in certi casi più restrittivi, in altri meno.

La questione è stata definitivamente risolta dalla Corte Suprema proprio con il caso Van Buren vs Stati Uniti. Se il dipendente è stato autorizzato ad accedere al computer e a recuperare le informazioni, il motivo per cui accede al computer (anche se illecito) è irrilevante e non vi è violazione del CFAA. D’altra parte, se lo stesso dipendente accede a informazioni a cui non è autorizzato ad accedere, il CFAA viene violato. Molte sono le critiche verso il CFAA, che è oggi considerato obsoleto e poco adatto a rispondere alle esigenze dell’attuale mondo digitale.

Uno dei problemi principali risiede nel linguaggio utilizzato nel testo, molto spesso vago: la legge vieta l’accesso a un computer “senza autorizzazione” ma non definisce cosa sia “autorizzazione”. Di difficile interpretazione anche il significato di “computer protetti” a cui la legge fa riferimento: teoricamente tutti i computer rientrano in questa categoria. Essendo così “aperta” e “vaga”, potenzialmente chiunque potrebbe quotidianamente infrangere la legge. Fare qualsiasi cosa sia contraria ai termini di servizio online potrebbe essere considerato una violazione.

Un altro problema riguarda la portata delle sanzioni, giudicate dai più esagerate e ingiuste.

Il divario sulla nozione di privacy e data protection tra Stati Uniti ed Europa

A uno spettatore europeo, la decisione della Corte di Appello statunitense potrebbe apparire a dir poco sorprendente. Come è possibile che hiQ possa accedere ai dati personali di persone e utilizzarli per propri scopi senza che queste persone abbiano dato il loro consenso o vi sia un contratto tra costoro e hiQ? Quale sarebbe la base giuridica utilizzata da hiQ per esercitare questo trattamento? Potrebbe forse hiQ far uso dell’ “interesse leggittimo” per effettuare il web scraping? Ed è sostenibile quanto afferma hiQ che poichè gli utenti hanno “manifestamente reso pubblici” i loro dati, soddisfacendo quindi una delle condizioni per il trattamento dei dati sensibili (GDPR Art. 9 (2) (e)), questo è tutto e solo ciò che occorre per mettere in atto il trattamento?

Proprio su questi punti sta il divario sul concetto di privacy e di protezione dei dati tra Stati Uniti ed Europa. In Europa, un’azienda che vuole effettuare un trattamento di dati personali deve avere una base giuridica per farlo, ed è possibile fare solo ciò che è previsto dalla legge. Negli Stati Uniti, è vero il contrario: un’azienda può fare qualsiasi cosa con i dati, purchè non esista una legge che lo vieti.

Questo è stato proprio l’approccio seguito dalla Corte di Appello statunitense, che ha ritenuto che il CFAA, non vieti l’accesso a un’area considerata pubblica o aperta al pubblico.

La privacy non è stato un argomento che Corte di Appello non ha preso in considerazione, anzi. All’obiezione di LinkedIn secondo cui si doveva vietare a hiQ di accedere ai dati dei profili per proteggere la privacy degli utenti, la Corte ha risposto che tali interessi sulla privacy sono controbilanciati dal “diritto di hiQ di condurre affari” ovvero di “libera concorrenza”. Marsha Berzon, giudice della Corte, ha inoltre aggiunto: “È fortemente improbabile che gli utenti di LinkedIn che scelgono di rendere pubbliche le informazioni dei loro profili abbiano qualche aspettativa di preservare la privacy di tali informazioni”.

Oltre a questo, la Corte ha messo in evidenza la “malafede” di LinkedIn, in quanto essa stessa stava mettendo in atto servizi simili a quelli offerti da hiQ: in particolare ha citato una intervista rilasciata dal CEO di LinkedIn, Jeff Weiner, che affermava l’intenzione di “”sfruttare tutti questi dati straordinari che siamo stati in grado di raccogliere in virtù dell’adesione di 500 milioni di persone al sito”.

Gli impatti della decisione della Corte d’Appello

Il Web Scraping ha oggi un ruolo indubbiamente importante ed insostuibile per identificare tendenze e compiere indagini di mercato. Di per se stessa non è una pratica illegale, ma al di fuori di questi contesti, quando i dati vengono invece raccolti e riutilizzati per altri scopi, fino ad oggi è stata generalmente considerata una pratica scorretta.

La sentenza della Corte di Appello pone la situazione sotto una nuova luce, e avrà una immediata conseguenza su tutti coloro che utilizzano lo scraping come attività fondamentale per il proprio business, con il rischio che altre giurisdizioni statunitensi seguano l’esempio della Corte di Appello del Nono Circuito.

Nel mondo della Data Economy, dove i dati rappresentano un valore inestimabile, non dobbiamo e non possiamo dimenticare casi come quello dell’azienda ClearView AI che, ricorrendo ad algoritmni di AI, ha schedato miliardi di volti umani attraverso le fotografie che riesce a reperire online, con l’obiettivo dichiarato di arrivare a comporre un database di 100 miliardi di immagini.

È notizia recente, poi, che ClearView AI abbia offerto i propri servizi all’Ucraina nell’ambito del confitto Russo-Ucraino per aiutare il paese a identificare sia i difensori ucraini che gli assalitori russi. D’altra parte, nelle motivazioni della sentenza, la Corte di Appello ha ribadito: “HiQ sottolinea che lo scraping dei dati è un metodo comune per raccogliere informazioni, utilizzato dai motori di ricerca, dai ricercatori accademici e da molti altri soggetti.

Secondo hiQ, lasciare che entità consolidate che hanno già accumulato grandi quandità di dati degli utenti decidano chi può estrarre quei dati da siti Web altrimenti pubblici offre a tali entità un controllo smisurato su come questi dati possono essere utilizzati”. E continua “il rischio è la creazione di veri e propri monopoli dell’informazione che nuocerebbero all’interesse pubblico”.

Clearview AI, il riconoscimento facciale viola la nostra privacy: la multa del Garante

Conclusione

Tutto ciò sembrerebbe indicare che la Corte, abbia giudicato la questione non solo da un punto di vista del diritto (violazione o meno del CFAA), ma sulla base di una pluralità di argomenti: concorrenza di mercato, diritto, interesse pubblico, privacy. E ne abbia ricavato che il rischio di nuocere all’interesse pubblico e di accentrare i dati nelle mani di pochi è prioritario rispetto al diritto di privacy dei singoli.

Quasi certamente le Corti di Giustizia avranno modo nei prossimi anni di dibattere in merito alla scraping o altre tecniche simili, che rimangono un punto controverso dal momento che la possibilità di accedere a dati personali, informazioni commerciali, proprietà intellettuali e comunque a dati di valore incide in maniera significativa sulla riservatezza delle informazioni e quindi sui relativi diritti di persone fisiche e giuridiche.