TECNOLOGIA E SICUREZZA

Risolvere i captcha: una sfida per la Cyber Threat Intelligence

I captcha come soluzione all’automazione tossica nel web chiaro, ma anche come tecnologia pronta a bloccare le attività di Cyber Threat Intelligence nel Dark Web: una nuova tecnologia è pronta a risolverli, agevolando la lotta al cyber crime

02 Feb 2022
M
Riccardo Meggiato

Consulente in cyber security e informatica forense

Uno dei metodi più utilizzati da sistemi e tool d’intelligence dei contenuti web è il mining dei dati. Si tratta, in buona sostanza, di estrarre grandi quantità di dati da molteplici fonti, avendo poi cura di filtrarli fino a ottenere quelli correlati al tipo di ricerca che si vuole effettuare. Sul mercato esistono moltissime soluzioni per effettuare questo tipo di analisi sul web in chiaro, senza contare che è disponibile una generosa quantità di librerie pronte all’uso per realizzare propri software, di solito scritti in Python.

Un po’ meno diffusi, ed efficaci, sono gli strumenti dedicati all’estrazione di informazioni dal Dark Web. Vuoi per i diversi protocolli e tecnologie che reggono questa porzione del web, così importante nella Cyber Threat Intelligence, vuoi, soprattutto, per quella serie di espedienti utilizzati proprio per bloccare le attività di intelligence.

Dopotutto, se è vero che il Dark Web è salito agli onori della cronaca proprio per la sua capacità di limitare la visibilità di certi contenuti, o comunque proteggerne la fonte, dall’altra è altrettanto vero che la presenza di informazioni vitali per la lotta al crimine lo ha reso un territorio piuttosto battuto da ricercatori, aziende di sicurezza e organi competenti.

Cyber Threat Intelligence, cos’è e come aiuta la sicurezza aziendale

Il potere del captcha

Per limitare, quindi, lo “scraping” di informazioni, si utilizzano tecniche vecchie e nuove. Tra queste, quella più utilizzata è il captcha.

Già, proprio quel sistema, spesso foriero di noia mortale, col quale si filtrano i sistemi di navigazione e interazione automatici e si certifica che, lì di fronte, c’è un essere umano. Il captcha, infatti, non è solo un test pronto a valutare la bontà della nostra vista, ma un geniale sistema che accerta che a consultare quel dato servizio web vi sia un essere umano in grado di leggere e interpretare immagini o caratteri, rappresentati in modo non convenzionale, e li sappia riconoscere o riprodurre.

WHITEPAPER
DATI: fonte imprescindibile per le aziende! PROTEGGILI e mantienili CONFORMI alle regole
Big Data
Sicurezza

Il captcha, nel Dark Web, non evita certo che un singolo utente umano possa comunque analizzare una certa fonte, ma il suo scopo è quello di evitare che sia fatto in modo massivo da un bot o una tecnologia automatica, come avviene abitualmente nella Cyber Threat Intelligence (CTI). Dunque, in estrema sintesi, per godere di un’intelligence efficace anche nel dark web, occorre trovare il modo di “risolvere” i captcha in modo automatico.

Risolvere i captcha: che sfida

Si sono spesi molti studi e ricerche in questo ambito, poiché i captcha riescono, nella loro semplicità, a mettere in scacco matto strumenti di CTI anche molto complessi e costosi. Le tecnologie per la risoluzione automatica dei captcha, grazie a tutta questa ricerca, non mancano, ma mostrano il fianco a una certa imprecisione: la percentuale di efficacia è in effetti ancora bassa e molte tecnologie captcha e dopo un certo numero di tentativi, o addirittura dopo ciascuno, allungano il tempo di generazione di nuove stringhe, mettendo in crisi i software di mining.

Si è quindi accolta con entusiasmo la notizia di un nuovo studio, condotto da ricercatori di University of Arizona, University of South Florida e University of Georgia, che illustra una tecnica con cui risolvere captcha con un’affidabilità del 94,4%.

La tecnologia, sviluppata da Ning Zhang, Mohammadreza Ebrahimi, Weifeng Li e Hsinchun Chen, parte dal presupposto che a oggi è molto difficile impiegare la tradizionali tecniche di web-crawling, a fronte di una miniera di informazioni legate al cyber-crime e che includono il contenuto di interi data breach, carte di credito e dossier a pagamento e, in genere, informazioni che hanno le loro buone ragioni per popolare il dark web anziché il web in chiaro.

La difficoltà, come anticipato, sta principalmente nell’utilizzo dei captcha. Per comprende dove sita la principale problematica, e dove viene in soccorso questa soluzione, occorre fare però un passetto indietro e analizzare cosa contraddistingue la tecnologia captcha.

Capire le basi del captcha

Il Completely Automated Public Turing Test to tell Computers and Human Apart, questo il significato dell’acronimo captcha, nacque in modo curioso, nel 1997, nei laboratori di AltaVista. Qui, il gruppo di ricerca capitanato da Andrei Broder, si era messo in testa di sviluppare una tecnologia che impedisse ai bot di inserire in modo automatico e truffaldino degli indirizzi URL proprio al motore di ricerca AltaVista. Così, ebbero un’idea geniale: prendere il manuale di uno scanner della Brother e analizzare i consigli che venivano dati per migliorare la tecnologia OCR, cioè quella che consente di riconoscere un testo in un’immagine e trasformarlo da file bitmap in una vera e propria stringa.

L’intento era quello di sfruttare quei consigli al contrario e fare di tutto per non rendere riconoscibile un testo da un software automatizzato, in modo da scremare le interazioni umane vere e proprie e mettere fuori gioco i bot. Caratteri definiti? Alcuni caratteri sarebbero stati sfocati. Linee diritte? Ecco dei caratteri obliqui o storti. Sfondo omogeneo e con colore contrastato per risaltare i testi? Si sarebbero scelti sfondi di colore simile a quello dei caratteri. E via così.

Variazioni in salsa Dark Web

La ricerca di cui vi sto parlando parte dal presupposto che i captcha del Dark Web spingono ancora più su questi aspetti, proprio per contrastare i recenti sistemi di riconoscimento automatico basati su Machine Learning. Tre, in particolare, sono gli aspetti considerati dai captcha “da Dark Web”. Il primo è lavorare sugli sfondi dei caratteri, rendendoli molto frastagliati e capaci di confondere le stringhe. Il secondo è inserire stringhe di lunghezza variabile, visto che i captcha tradizionali tendono a proporre lunghezze predefinite. Il terzo, quasi una conseguenza, è la mancanza sistematica di data-set di captcha del Dark Web con cui allenare i tool di machine learning.

Il sistema messo a punto dal team di Zhang lavora sui primi due aspetti e sotto il titolo di “Generative Adversarial Learning for Proactive Cyber Threat Intelligence” cela la proposta di un framework in grado di riconoscere e risolvere captcha dallo sfondo “difficile” e di lunghezza variabile.

Più tecnologie in una

Un risultato ambizioso, che i ricercatori sono riusciti a raggiungere, con una precisione del 94,4%, lavorando su un Dark Web Adversarial Generative Network, o DW-GAN, che prenda in considerazione varie tecnologie. Tra queste, un filtro per il de-noising dello sfondo, e poi funzioni di segmentazione dei caratteri e, quindi, di loro riconoscimento.

Il processo accetta in ingresso un’immagine captcha, a cui applica il filtro di de-noising per ottenere il massimo contrasto della stringa. A questa, poi, applica un processo di segmentazione, con cui è in grado di separare i caratteri, uno per uno: viene fatto con il rilevamento del contorno dei caratteri e il riconoscimento dello spazio con quelli successivi. I caratteri, infine, sono riconosciuti con un Convolutional Neural Network.

Efficace nel Dark Web

La tecnologia è stata collaudata con tre diversi data-set prelevati dal Dark Web, due provenienti da negozi di carte di credito rubate, uno invece da un nuovo shop illegali, tutti suggeriti da esperti di Cyber Threat Intelligence. La tecnologia, installata in uno spider, è stata quindi tarata per la raccolta e il riconoscimento di 500 immagini captcha. A questo test ne ha fatto seguito un altro contro un generatore di captcha di lunghezza variabile tra 4 e 7 caratteri.

I risultati sono stati eccellenti, raggiungendo un grado di precisione, a seconda dei casi, tra il 94,4% e il 95,98%. Notevole, soprattutto se si considera che le migliori tecnologie, al momento, nella medesima situazione, si fermano a percentuali tra 88,12% e 93,72%.

I ricercatori, ora, mirano ad aumentare la precisione della tecnologia e ampliare i casi gestibili. Per esempio, prendendo in considerazione quei sistemi che abbinano ai captcha domande quali “quanto fa 2 +1?”. Il lavoro da fare non manca, ma già a questo punto il lavoro appare molto promettente. E ci fa ragionare sul fatto che le grandi rivoluzioni nella cyber security passano, sempre, da progetti più piccoli e molto meno visibili. Come risolvere dei captcha.

WHITEPAPER
Perché impostare una strategia di manutenzione dei server?
Datacenter
Sicurezza
@RIPRODUZIONE RISERVATA

Speciale PNRR

Tutti
Incentivi
PA
Sostemibilità
Analisi
Formazione
Salute digitale
Sicurezza
Sostenibilità
Digital Economy
Formazione
Trasferimento tecnologico, il Mise mette sul piatto 7,5 milioni
Strategie
PSN e Strategia Cloud Italia: a che punto siamo e come supportare la PA in questo percorso
Dispersione idrica
Siccità: AI e analisi dei dati possono ridurre gli sprechi d’acqua. Ecco gli interventi necessari
PNRR
Cloud, firmato il contratto per l’avvio di lavori del Polo strategico
Formazione
Competenze digitali, stanziati 48 milioni per gli Istituti tecnologici superiori
Iniziative
Digitalizzazione delle reti idriche: oltre 600 milioni per 21 progetti
Competenze e competitività
PNRR, così i fondi UE possono rilanciare la ricerca e l’Università
Finanziamenti
PNRR, si sbloccano i fondi per l’agrisolare
Sanità post-pandemica
PNRR, Missione Salute: a che punto siamo e cosa resta da fare
Strategie
Sovranità e autonomia tecnologica nazionale: come avviare un processo virtuoso e sostenibile
La relazione
Pnrr e PA digitale, l’alert della Corte dei conti su execution e capacità di spesa
L'editoriale
Elezioni 2022, la sfida digitale ai margini del dibattito politico
Strategie
Digitale, il monito di I-Com: “Senza riforme Pnrr inefficace”
Transizione digitale
Pnrr: arrivano 321 milioni per cloud dei Comuni, spazio e mobilità innovativa
L'analisi I-COM
Il PNRR alla prova delle elezioni: come usare bene le risorse e centrare gli obiettivi digitali
Cineca
Quantum computing, una svolta per la ricerca: lo scenario europeo e i progetti in corso
L'indice europeo
Desi, l’Italia scala due posizioni grazie a fibra e 5G. Ma è (ancora) allarme competenze
L'approfondimento
PNRR 2, ecco tutte le misure per cittadini e imprese: portale sommerso, codice crisi d’impresa e sismabonus, cosa cambia
Servizi digitali
PNRR e trasformazione digitale: ecco gli investimenti e le riforme previste per la digitalizzazione della PA
Legal health
Lo spazio europeo dei dati sanitari: come circoleranno le informazioni sulla salute nell’Unione Europea
Servizi digitali
PNRR e PA digitale: non dimentichiamo la dematerializzazione
Digital Healthcare transformation
La trasformazione digitale degli ospedali
Governance digitale
PA digitale, è la volta buona? Così misure e risorse del PNRR possono fare la differenza
Servizi digitali
Comuni e digitale, come usare il PNRR senza sbagliare
La survey
Pnrr e digitale accoppiata vincente per il 70% delle pmi italiane
Missione salute
Fascicolo Sanitario Elettronico alla prova del PNRR: limiti, rischi e opportunità
Servizi pubblici
PNRR: come diventeranno i siti dei comuni italiani grazie alle nuove risorse
Skill gap
PNRR, la banda ultra larga crea 20.000 nuovi posti di lavoro
Il Piano
Spazio, Colao fa il punto sul Pnrr: i progetti verso la milestone 2023
FORUMPA2022
PNRR e trasformazione digitale: rivedi i Talk di FORUM PA 2022 in collaborazione con le aziende partner
I contratti
Avio, 340 milioni dal Pnrr per i nuovi propulsori a metano
Next Generation EU
PNRR, a che punto siamo e cosa possono aspettarsi le aziende private
Fondi
Operativo il nuovo portale del MISE con tutti i finanziamenti per le imprese
Servizi comunali
Il PNRR occasione unica per i Comuni digitali: strumenti e risorse per enti e cittadini
Healthcare data platform
PNRR dalla teoria alla pratica: tecnologie e soluzioni per l’innovazione in Sanità
Skill
Competenze digitali, partono le Reti di facilitazione
Gli obiettivi
Scuola 4.0, PNRR ultima chance: ecco come cambierà il sistema formativo
Sistema Paese
PNRR 2, è il turno della space economy
FORUM PA 2022
FORUM PA 2022: la maturità digitale dei comuni italiani rispetto al PNRR
Analisi
PNRR: dalla Ricerca all’impresa, una sfida da cogliere insieme
Innovazione
Pnrr, il Dipartimento per la Trasformazione digitale si riorganizza
FORUM PA 2022
PA verde e sostenibile: il ruolo di PNRR, PNIEC, energy management e green public procurement
Analisi
PNRR, Comuni e digitalizzazione: tutto su fondi e opportunità, in meno di 3 minuti. Guarda il video!
Rapporti
Competenze digitali e servizi automatizzati pilastri del piano Inps
Analisi
Attuazione del PNRR: il dialogo necessario tra istituzioni e società civile. Rivedi lo Scenario di FORUM PA 2022
Progetti
Pnrr, fondi per il Politecnico di Torino. Fra i progetti anche IS4Aerospace
Analisi
PNRR, Colao fa il punto sulla transizione digitale dell’Italia: «In linea con tutte le scadenze»
La Svolta
Ict, Istat “riclassifica” i professionisti. Via anche al catalogo dati sul Pnrr
Analisi
Spazio, Colao fa il punto sul Pnrr: i progetti verso la milestone 2023
FORUM PA 2022
Ecosistema territoriale sostenibile: l’Emilia Romagna tra FESR e PNRR
Il Piano
Innovazione, il Mise “centra” gli obiettivi Pnrr: attivati 17,5 miliardi
Analisi
PNRR: raggiunti gli obiettivi per il primo semestre 2022. Il punto e qualche riflessione
Analisi
PNRR: dal dialogo tra PA e società civile passa il corretto monitoraggio dei risultati, tra collaborazione e identità dei luoghi
Webinar
Comuni e PNRR: un focus sui bandi attivi o in pubblicazione
Analisi
Formazione 4.0: cos’è e come funziona il credito d’imposta
PA e Sicurezza
PA e sicurezza informatica: il ruolo dei territori di fronte alle sfide della digitalizzazione
PA e sicurezza
PNRR e servizi pubblici digitali: sfide e opportunità per Comuni e Città metropolitane
Water management
Water management in Italia: verso una transizione “smart” e “circular” 
LE RISORSE
Transizione digitale, Simest apre i fondi Pnrr alle medie imprese
Prospettive
Turismo, cultura e digital: come spendere bene le risorse del PNRR
Analisi
Smart City: quale contributo alla transizione ecologica
Decarbonizzazione
Idrogeno verde, 450 milioni € di investimenti PNRR, Cingolani firma
Unioncamere
PNRR, imprese in ritardo: ecco come le Camere di commercio possono aiutare
I fondi
Industria 4.0: solo un’impresa su tre pronta a salire sul treno Pnrr
Formazione
Trasferimento tecnologico, il Mise mette sul piatto 7,5 milioni
Strategie
PSN e Strategia Cloud Italia: a che punto siamo e come supportare la PA in questo percorso
Dispersione idrica
Siccità: AI e analisi dei dati possono ridurre gli sprechi d’acqua. Ecco gli interventi necessari
PNRR
Cloud, firmato il contratto per l’avvio di lavori del Polo strategico
Formazione
Competenze digitali, stanziati 48 milioni per gli Istituti tecnologici superiori
Iniziative
Digitalizzazione delle reti idriche: oltre 600 milioni per 21 progetti
Competenze e competitività
PNRR, così i fondi UE possono rilanciare la ricerca e l’Università
Finanziamenti
PNRR, si sbloccano i fondi per l’agrisolare
Sanità post-pandemica
PNRR, Missione Salute: a che punto siamo e cosa resta da fare
Strategie
Sovranità e autonomia tecnologica nazionale: come avviare un processo virtuoso e sostenibile
La relazione
Pnrr e PA digitale, l’alert della Corte dei conti su execution e capacità di spesa
L'editoriale
Elezioni 2022, la sfida digitale ai margini del dibattito politico
Strategie
Digitale, il monito di I-Com: “Senza riforme Pnrr inefficace”
Transizione digitale
Pnrr: arrivano 321 milioni per cloud dei Comuni, spazio e mobilità innovativa
L'analisi I-COM
Il PNRR alla prova delle elezioni: come usare bene le risorse e centrare gli obiettivi digitali
Cineca
Quantum computing, una svolta per la ricerca: lo scenario europeo e i progetti in corso
L'indice europeo
Desi, l’Italia scala due posizioni grazie a fibra e 5G. Ma è (ancora) allarme competenze
L'approfondimento
PNRR 2, ecco tutte le misure per cittadini e imprese: portale sommerso, codice crisi d’impresa e sismabonus, cosa cambia
Servizi digitali
PNRR e trasformazione digitale: ecco gli investimenti e le riforme previste per la digitalizzazione della PA
Legal health
Lo spazio europeo dei dati sanitari: come circoleranno le informazioni sulla salute nell’Unione Europea
Servizi digitali
PNRR e PA digitale: non dimentichiamo la dematerializzazione
Digital Healthcare transformation
La trasformazione digitale degli ospedali
Governance digitale
PA digitale, è la volta buona? Così misure e risorse del PNRR possono fare la differenza
Servizi digitali
Comuni e digitale, come usare il PNRR senza sbagliare
La survey
Pnrr e digitale accoppiata vincente per il 70% delle pmi italiane
Missione salute
Fascicolo Sanitario Elettronico alla prova del PNRR: limiti, rischi e opportunità
Servizi pubblici
PNRR: come diventeranno i siti dei comuni italiani grazie alle nuove risorse
Skill gap
PNRR, la banda ultra larga crea 20.000 nuovi posti di lavoro
Il Piano
Spazio, Colao fa il punto sul Pnrr: i progetti verso la milestone 2023
FORUMPA2022
PNRR e trasformazione digitale: rivedi i Talk di FORUM PA 2022 in collaborazione con le aziende partner
I contratti
Avio, 340 milioni dal Pnrr per i nuovi propulsori a metano
Next Generation EU
PNRR, a che punto siamo e cosa possono aspettarsi le aziende private
Fondi
Operativo il nuovo portale del MISE con tutti i finanziamenti per le imprese
Servizi comunali
Il PNRR occasione unica per i Comuni digitali: strumenti e risorse per enti e cittadini
Healthcare data platform
PNRR dalla teoria alla pratica: tecnologie e soluzioni per l’innovazione in Sanità
Skill
Competenze digitali, partono le Reti di facilitazione
Gli obiettivi
Scuola 4.0, PNRR ultima chance: ecco come cambierà il sistema formativo
Sistema Paese
PNRR 2, è il turno della space economy
FORUM PA 2022
FORUM PA 2022: la maturità digitale dei comuni italiani rispetto al PNRR
Analisi
PNRR: dalla Ricerca all’impresa, una sfida da cogliere insieme
Innovazione
Pnrr, il Dipartimento per la Trasformazione digitale si riorganizza
FORUM PA 2022
PA verde e sostenibile: il ruolo di PNRR, PNIEC, energy management e green public procurement
Analisi
PNRR, Comuni e digitalizzazione: tutto su fondi e opportunità, in meno di 3 minuti. Guarda il video!
Rapporti
Competenze digitali e servizi automatizzati pilastri del piano Inps
Analisi
Attuazione del PNRR: il dialogo necessario tra istituzioni e società civile. Rivedi lo Scenario di FORUM PA 2022
Progetti
Pnrr, fondi per il Politecnico di Torino. Fra i progetti anche IS4Aerospace
Analisi
PNRR, Colao fa il punto sulla transizione digitale dell’Italia: «In linea con tutte le scadenze»
La Svolta
Ict, Istat “riclassifica” i professionisti. Via anche al catalogo dati sul Pnrr
Analisi
Spazio, Colao fa il punto sul Pnrr: i progetti verso la milestone 2023
FORUM PA 2022
Ecosistema territoriale sostenibile: l’Emilia Romagna tra FESR e PNRR
Il Piano
Innovazione, il Mise “centra” gli obiettivi Pnrr: attivati 17,5 miliardi
Analisi
PNRR: raggiunti gli obiettivi per il primo semestre 2022. Il punto e qualche riflessione
Analisi
PNRR: dal dialogo tra PA e società civile passa il corretto monitoraggio dei risultati, tra collaborazione e identità dei luoghi
Webinar
Comuni e PNRR: un focus sui bandi attivi o in pubblicazione
Analisi
Formazione 4.0: cos’è e come funziona il credito d’imposta
PA e Sicurezza
PA e sicurezza informatica: il ruolo dei territori di fronte alle sfide della digitalizzazione
PA e sicurezza
PNRR e servizi pubblici digitali: sfide e opportunità per Comuni e Città metropolitane
Water management
Water management in Italia: verso una transizione “smart” e “circular” 
LE RISORSE
Transizione digitale, Simest apre i fondi Pnrr alle medie imprese
Prospettive
Turismo, cultura e digital: come spendere bene le risorse del PNRR
Analisi
Smart City: quale contributo alla transizione ecologica
Decarbonizzazione
Idrogeno verde, 450 milioni € di investimenti PNRR, Cingolani firma
Unioncamere
PNRR, imprese in ritardo: ecco come le Camere di commercio possono aiutare
I fondi
Industria 4.0: solo un’impresa su tre pronta a salire sul treno Pnrr

Articolo 1 di 5