lo studio

Vulnerabilità dei modelli linguistici di grandi dimensioni: cresce la minaccia del Dark LLM



Indirizzo copiato

I ricercatori dell’Università Ben Gurion hanno dimostrato che molti LLM possono essere manipolati per eludere i controlli di sicurezza integrati e per ottenere istruzioni dettagliate su attività illegali. Ecco quali sono i principali rischi cyber, mentre si diffondono WormGPT e FraudGPT

Pubblicato il 3 lug 2025

Laura Teodonno

Senior Security & Osint Analyst, Hermes Bay

Ginevra Detti

Analista cyber security



Le vulnerabilità dei modelli linguistici di grandi dimensioni (LLM)

I modelli linguistici di grandi dimensioni (LLM) hanno trasformato in pochi anni numerosi settori, dall’assistenza sanitaria all’istruzione, imponendosi come una delle innovazioni più significative dell’era moderna.

Proprio in forza della loro importanza, le vulnerabilità a cui sono esposti devono essere valutate con attenzione.

In particolare, un recente studio condotto dai ricercatori dell’Università Ben Gurion del Negev, Michael Fire, Yitzhak Elbazis, Adi Wasenstein e Lior Rokach, ha evidenziato la vulnerabilità dei modelli alle tecniche di “jailbreaking“.

Le vulnerabilità dei modelli LLM: i rischi

Se la capacità di comprendere e generare linguaggio naturale dei LLM ha rivoluzionato l’interazione uomo-macchina, ha fatto anche emergere dei rischi da non ignorare, come la possibilità di manipolare i modelli forzandoli a superare le restrizioni etiche e legali imposte durante l’addestramento.

L’addestramento di un modello linguistico di grandi dimensioni consiste, infatti, nell’esposizione a vasti insiemi di dati testuali, tra i quali possono comparire bias, informazioni sensibili o contenuti inappropriati che devono essere limitati per evitare la generazione di output dannosi o fuorvianti.

Le restrizioni etiche e legali imposte durante l’addestramento dei modelli linguistici di grandi dimensioni sono fondamentali per garantire che questi sistemi operino in modo sicuro e conforme alle normative vigenti.

Le restrizioni etiche includono:

  • selezione dei dati per rimuovere odio, discriminazione e violenza;
  • rimozione di informazioni personali per proteggere la riservatezza e la privacy degli utenti;
  • identificazione e riduzione dei pregiudizi presenti nei dati per evitare che il modello li perpetui.

Sul fronte legale, l’addestramento degli LLM deve rispettare diverse norme, tra cui quelle sui diritti di autore e la protezione dei dati.

Restrizioni etiche e legali in fase di addestramento degli LLM

Implementare restrizioni etiche e legali durante l’addestramento degli LLM è cruciale per sviluppare sistemi affidabili e responsabili, tuttavia, i ricercatori dell’Università Ben Gurion hanno dimostrato che molti LLM possono essere manipolati per eludere i controlli di sicurezza integrati e che, utilizzando prompt appositamente progettati o formulando le richieste in modo creativo come se fossero parte di una sceneggiatura o di un esercizio ipotetico, è possibile ottenere istruzioni dettagliate su attività illegali, come la produzione di droghe o l’hacking.

Questa strategia prende il nome di “jailbreaking” e si sostanzia, appunto, nella creazione di prompt ingannevoli o tecniche di manipolazione del contesto per indurre un LLM a ignorare le sue restrizioni di sicurezza, permettendo la generazione di contenuti dannosi o illegali.

Il jailbreaking sfrutta la tensione tra l’obiettivo primario degli LLM, ovvero seguire le istruzioni dell’utente, e i controlli di sicurezza progettati per prevenire risposte dannose: attraverso prompt ingegnerizzati, gli utenti possono indurre i modelli a generare contenuti che normalmente sarebbero bloccati.

Un jailbreak universale per mitigare i rischi

Per dimostrare l’importanza di riconoscere e mitigare i rischi descritti, gli autori del rapporto hanno sviluppato un “jailbreak universale” in grado di compromettere tutti i chatbot principali.

A differenza dei metodi tradizionali, specifici per un singolo modello e facilmente neutralizzabili, il jailbreak universale si caratterizza per la sua efficacia trasversale su diversi modelli, inclusi GPT-4, Claude, Gemini e LLaMA, senza necessità di adattamenti specifici.

Una volta compromessi i modelli, hanno risposto a tutte le query presentate, fornendo anche istruzioni dettagliate per attività criminali e rendendo evidente a quali informazioni fa rifermento il loro sistema di conoscenza.

La crescente minaccia del Dark LLM

La vulnerabilità fondamentale degli LLM agli attacchi di jailbreak, infatti, deriva dai dati forniti in fase di apprendimento.

Finché questi dati di addestramento includeranno contenuti non filtrati problematici, i modelli potranno apprendere intrinsecamente schemi o debolezze indesiderati che consentono agli utenti di eludere i controlli di sicurezza previsti.

Parallelamente, il rapporto ha identificato una crescente minaccia rappresentata dai Dark LLM, modelli di intelligenza artificiale progettati deliberatamente senza controlli di sicurezza o modificati tramite jailbreak.

Questi modelli come WormGPT e FraudGPT sono spesso distribuiti attraverso canali non ufficiali e possono essere utilizzati per facilitare attività criminali, tra cui la generazione di malware, campagne di phishing e frodi online.

La loro diffusione rappresenta un rischio da attenzionare poiché rendono accessibili strumenti avanzati per la criminalità informatica a un pubblico più ampio, come avvertono gli autori della ricerca: “Ciò che un tempo era riservato ad attori statali o gruppi criminali organizzati potrebbe presto essere nelle mani di chiunque abbia un computer portatile o anche solo un telefono cellulare”.

L’uso improprio degli LLM rappresenta una sfida significativa per la sicurezza informatica, poiché i modelli compromessi possono essere utilizzati per automatizzare attacchi, generare contenuti ingannevoli e facilitare attività criminali su larga scala.

Servono strategie di difesa più solide

La facilità con cui possono essere manipolati sottolinea la necessità di strategie di difesa più robuste e di una maggiore consapevolezza dei rischi associati all’uso di questi strumenti.

In risposta alle minacce, alcune aziende hanno implementato misure di sicurezza più rigorose.

Anthropic, per esempio, ha attivato il suo Responsible scaling policy (RSP) per il modello Claude Opus 4, introducendo salvaguardie avanzate per mitigare potenziali abusi, mentre OpenAI ha introdotto il modello o1 di ChatGPT, una nuova generazione progettata per migliorare la sicurezza e la resilienza contro i tentativi di jailbreak.

Nei test interni più rigorosi, o1 ha ottenuto un punteggio di 84 su 100 nella esistenza ai tentativi di jailbreak, superando significativamente il punteggio di 22 ottenuto dal precedente modello GPT-4o.

Tuttavia, i ricercatori hanno riportato che la risposta complessiva del settore è stata “deludente”, dato che con alcune aziende non hanno ancora adottato misure sufficienti per affrontare queste vulnerabilità.

Tra le strategie che possono essere implementate dagli sviluppatori, il team di Fire suggerisce in particolare:

  • l’implementazione di tecniche di “machine unlearning” per consentire ai modelli di “dimenticare” informazioni dannose apprese durante l’addestramento;
  • lo sviluppo di firewall robusti e sistemi di monitoraggio per rilevare e bloccare prompt malevoli;
  • l’adozione di standard di sicurezza più rigorosi e supervisione indipendente per garantire la conformità alle normative;
  • infine la promozione di pratiche di progettazione responsabili e di una cultura della sicurezza all’interno delle organizzazioni che sviluppano e utilizzano LLM.

Prospettive future

I modelli linguistici di grandi dimensioni (LLM) rappresentano un’opportunità straordinaria per il progresso di moltissimi settori dell’attività umana e proprio per questo le loro vulnerabilità richiedono un’attenzione particolare.

Infatti è essenziale adottare un approccio equilibrato che valorizzi i benefici di questi strumenti, affrontando al contempo le sfide legate alla sicurezza e all’etica.

Attraverso la collaborazione tra ricercatori, sviluppatori e responsabili
politici, è possibile garantire un uso sicuro e responsabile degli LLM.

Articoli correlati