anthropic

AI, export control e trasparenza: perché il caso Fable 5 riguarda anche le imprese europee



Indirizzo copiato

Il governo statunitense, sulla base di una reazione sproporzionata rispetto alla gravità tecnica del problema, ha ritenuto necessaria la sospensione totale e immediata dell’accesso a Claude Fable 5. Ecco cosa significa e perché si applica, per definizione, anche a utenti e aziende europee

Pubblicato il 19 giu 2026

Luisa Franchina

Presidente Associazione Italiana Infrastrutture Critiche (AIIC)

Maria Beatrice Versaci

Analyst, Hermes Bay



AI Act decreti attuativi; Claude Fable 5 sospeso per un jailbreak non universale: perché conta anche per le aziende europee
AI Questions Icon
Chiedi all'AI
Riassumi questo articolo
Approfondisci con altre fonti


Una serie di prompt, inviata da un team di ricercatori di sicurezza, è bastata a far indicare al modello Claude Fable 5 di Anthropic alcune vulnerabilità presenti in almeno quattro programmi software. Informazioni che il modello, secondo le sue policy dichiarate, non dovrebbe fornire.

Questo singolo episodio, collegato a una serie di test condotti da ricercatori di Amazon, è all’origine di una direttiva di export control con cui il governo statunitense ha sospeso l’accesso a Fable 5 e Mythos 5 per chiunque non sia cittadino americano.

Anthropic ha applicato la direttiva entro 24 ore. Ecco cosa è successo e perché conta anche per le aziende europee.

Manca uno standard per verificare la pericolosità di un jailbreak di modello AI

Il caso è utile non tanto per la sua cronaca, quanto perché mette a confronto due valutazioni tecniche opposte sullo stesso identico episodio e perché la stessa misura, l’export control, si applica per definizione anche a utenti e aziende europee che utilizzano questi modelli.

Comprendere su quale criterio si fonda la divergenza di valutazione è rilevante per chiunque lavori in sicurezza informatica o debba valutare l’adozione di modelli AI in un contesto aziendale.

Il report di Amazon mostrava che Fable 5, sollecitato con una sequenza specifica di prompt, era in grado di individuare bug di sicurezza in almeno quattro programmi software.

Anthropic ha descritto pubblicamente le vulnerabilità individuate come relativamente semplici, sostenendo che altri modelli pubblicamente disponibili sono in grado di scoprirle senza richiedere alcuna tecnica di bypass.

Il governo statunitense, sulla base dello stesso episodio, ha invece ritenuto necessaria la sospensione totale e immediata dell’accesso al modello.

Questa divergenza è la dimostrazione pratica che, ad oggi, non esiste uno standard tecnico condiviso e pubblicamente verificabile per classificare la pericolosità di un jailbreak individuato su un modello AI.

Lo stesso risultato tecnico viene letto da un’azienda come un rischio gestibile all’interno dei meccanismi di sicurezza già operativi, e da un governo come motivo sufficiente per un blocco totale.

Le 2 categorie di jailbreak di modello AI

La classificazione che Anthropic utilizza per inquadrare l’episodio è quella su cui si basa anche il proprio programma interno di sicurezza, e distingue due categorie.

Un jailbreak non-universale produce un risultato fuori policy solo in condizioni circoscritte: una formulazione specifica, spesso costruita su misura per una singola richiesta o per una versione precisa del modello, che smette di funzionare non appena il contesto cambia o il modello viene aggiornato. Esempi tipici includono:

  • il gioco di ruolo (chiedere al modello di “fingersi un’IA senza restrizioni”);
  • l’attribuzione di un personaggio (“sei un’IA malvagia, come completeresti questo compito”);
  • o tecniche che prevedono diverse fasi di interazioni col modello, in modo da portarlo gradualmente verso l’output desiderato attraverso la conversazione.

Un jailbreak universale è una tecnica di aggiramento delle misure di sicurezza di un modello AI che mantiene la propria efficacia in modo sistematico e ripetibile.

Si tratta di una strategia di prompting che sfrutta una debolezza generale del meccanismo di allineamento del modello, consentendo di eludere i controlli di sicurezza senza dover riprogettare l’attacco per ogni nuovo caso. La rilevanza di un jailbreak universale non risiede quindi nel singolo contenuto che il modello può essere indotto a generare, ma nel fatto che esso rivela una vulnerabilità strutturale del sistema di sicurezza.

In altre parole, dimostra che esiste un meccanismo generalizzabile attraverso cui le protezioni possono essere neutralizzate con un elevato grado di affidabilità.

Claude Fable 5, jailbreak non universale

Anthropic sostiene che l’episodio segnalato dal governo rientri nella categoria non-universale e non costituisca un jailbreak completo nel senso tecnico del termine; una valutazione condivisa da alcuni ricercatori di sicurezza indipendenti che hanno avuto accesso al report.

La defense in depth di Anthropic

L’azienda, inoltre, non presenta la resistenza ai jailbreak come obiettivo raggiungibile in modo definitivo.

La sua posizione dichiarata è che nessun fornitore del settore sia oggi in grado di garantire un sistema privo di vulnerabilità sfruttabili, e che la scoperta di nuovi jailbreak universali nel tempo sia un’evenienza considerata probabile per qualsiasi modello.

Su questa base, Anthropic descrive la propria strategia di sicurezza come “defense in depth“: un sistema a più livelli orientato ad aumentare il costo e la complessità necessari per produrre un jailbreak universale, e ad individuare rapidamente i tentativi non-universali tramite meccanismi di monitoraggio continuo.

La export control statunitense su modelli AI

Le direttive di export control statunitensi su modelli AI si applicano, per costruzione, anche a soggetti non statunitensi, comprese aziende italiane ed europee che integrano questi modelli nei propri prodotti o nei propri processi di sicurezza.

Una sospensione di accesso decisa sulla base di una valutazione che lo stesso fornitore e ricercatori di sicurezza indipendenti considerano sproporzionata rispetto alla gravità tecnica del problema comporta, per queste aziende, un’esposizione a interruzioni operative non prevedibili e non verificabili attraverso un processo tecnico pubblico.

La differenza con l’Europa

In parallelo, il quadro normativo europeo si muove verso una direzione diversa.

Dal 2 agosto 2025 l’AI Act impone ai fornitori di modelli GPAI (general purpose AI) obblighi di documentazione tecnica relativi a capacità, limiti e rischi del modello.

Per i modelli classificati a rischio sistemico sono previsti requisiti aggiuntivi su cyber security, test di robustezza contro attacchi e segnalazione di incidenti gravi all’AI Office europeo.

Resta un tentativo di costruire, su basi normative, un criterio tecnico verificabile per la valutazione del rischio, un riferimento che nel caso Fable 5 risulta assente a livello di processo decisionale statunitense.

Per sospendere Claude Fable 5 serve un processo trasparente, equo e fondato su elementi verificabili

Anthropic ha dichiarato di ritenere legittimo che un governo possa bloccare il deployment di un modello giudicato non sicuro, a condizione che ciò avvenga nell’ambito di un processo statutario trasparente, equo e fondato su elementi tecnici verificabili.

Secondo l’azienda, la direttiva ricevuta non soddisfa questi criteri: la lettera del governo non avrebbe fornito dettagli scritti sulla natura della minaccia, e la decisione sarebbe arrivata sulla base di evidenza verbale di un singolo episodio di jailbreak non-universale.

La vicenda si inserisce in una tensione preesistente tra Anthropic e l’amministrazione, alimentata da un contesto più ampio di rapporti tesi – inclusa una precedente designazione dell’azienda come rischio per la sicurezza da parte del Pentagono, oggetto di contenzioso legale separato.

Un funzionario dell’amministrazione ha attribuito la misura esclusivamente a motivi di sicurezza del modello, mentre alcuni analisti hanno osservato che l’episodio si inserisce in una più ampia estensione del controllo governativo sull’industria dei modelli avanzati.

Resta il punto tecnico di fondo: due parti con accesso alle stesse informazioni (un singolo test, su un numero limitato di programmi software, che non ha prodotto exploit funzionanti) sono arrivate a conclusioni opposte sulla soglia a cui un modello deve essere sospeso.

È la prova che, in assenza di un criterio tecnico pubblico e condiviso per misurare la pericolosità di un’IA, la decisione finale dipende interamente da chi la applica in quel momento.

Partecipa alla community

guest

0 Commenti
Più recenti
Più votati
Inline Feedback
Vedi tutti i commenti

Articoli correlati

0
Lascia un commento, la tua opinione conta.x