jailbreak Anthropic

Fable 5 Mythos violato in 24 ore: il caso che scuote la cybersecurity



Indirizzo copiato

Il caso del jailbreak a Fable 5, con esposizione delle sue istruzioni segrete, mostra quanto siano fragili i sistemi di sicurezza proprietari davanti ad attacchi distribuiti e agentici. L’incidente diventa un monito sulla nuova fase della cybersecurity legata agli HACCA

Pubblicato il 12 giu 2026

Gerardo Costabile

Executive Vice President Dinova



Mythos jailbreak
AI Questions Icon
Chiedi all'AI
Riassumi questo articolo
Approfondisci con altre fonti


A sole 48 ore dall’uscita di Fable 5 di Antropic e dalle nostre contestuali riflessioni della cybersecurity dei sistemi di classe Mythos, una prima conferma ai timori di molti esperti.

L’attacco jailbreak a Fable 5 Mythos in 24 ore

Il ricercatore Pliny the Liberator è riuscito in 24 ore a fare jailbreak di Fable 5 riuscendo a estrarre le istruzioni segrete del modello.

L’attacco non è stato opera di un semplice “script kiddie”, ma di un’offensiva architettata in modo quasi militare.

Pliny ha utilizzato una strategia definita “Pack Hunt” (caccia in branco). Invece di usare un singolo prompt, ha coordinato molteplici agenti IA in parallelo, ciascuno specializzato in ruoli come ricognizione, intrusione e copertura delle tracce. Questo attacco distribuito ha generato segnali simultanei che hanno letteralmente saturato e confuso i meccanismi di rilevamento lineari di Anthropic.

Pack Hunt e tecniche di aggiramento

I vettori di attacco hanno sfruttato tecniche avanzate:

  • manipolazione testuale: sostituzione di caratteri Unicode e alfabeto cirillico per ingannare i filtri basati su parole chiave.
  • decomposizione e ricomposizione: invece di chiedere istruzioni per un malware, le richieste sono state frammentate in concetti accademici benigni, come se l’attaccante avesse usato una sorta di social engineering verso l’AI (es. gestione della memoria Linux), che i filtri hanno lasciato passare, per poi essere riassemblati in exploit operativi.

Il colpo finale è stata l’estrazione e la pubblicazione dell’intero System Prompt di Fable 5: un file di 120.000 caratteri contenente le istruzioni segrete dell’azienda.

Il System Prompt di Fable 5 e l’autopsia dell’IA

La fuga di notizie del System Prompt, analizzata nel dettaglio da TechX, ci permette di fare un’analisi interessante del “cervello” della macchina. Le scoperte rivelano le vere priorità della Silicon Valley:

  • la paranoia del copyright: mentre le direttive sulla sicurezza informatica e sulle armi biologiche sono scritte con tono professionale, la sezione sul diritto d’autore è l’unica redatta interamente in MAIUSCOLO e definita come “limite invalicabile”. Il modello ha il divieto assoluto di superare le 15 parole per citazione diretta e di generare testi di canzoni o poesie coperte da copyright. Questo dimostra che il vero terrore delle corporazioni non è la fine del mondo, ma le cause legali miliardarie per violazione della proprietà intellettuale.
  • “Claudeception” (l’autonomia strutturale): il prompt conferma che Fable 5 è programmato per richiamare altre istanze IA (come Sonnet 4) tramite API per gestire compiti in background e creare Artifacts complessi.
  • Accesso Linux nativo: l’IA gira in un container Ubuntu 24 con permessi operativi per creare, leggere ed eseguire comandi bash, confermando la sua interessante natura agentica.

Fallback silenzioso di Fable 5 e fiducia nel modello

Nonostante l’allarmismo sui social (“ANTHROPIC PWNED”), Pasquale Pillitteri riporta la vicenda nei giusti binari, smontando l’hype con lucidità.

Pubblicare un system prompt è un danno d’immagine devastante, ma non significa aver preso il controllo dell’intero modello. Soprattutto, i presunti output letali diffusi da Pliny non sono mai stati verificati da fonti indipendenti.

Tuttavia, Pillitteri solleva il vero “punto critico” di questa vicenda: il design del fallback silenzioso. Per proteggersi dalla “distillazione” (il furto di capacità da parte di nazioni rivali o concorrenti), Fable 5 declassava le richieste sospette al modello inferiore (Opus 4.8) di nascosto. Utenti e ricercatori si sono visti bloccare compiti innocui (come l’analisi di un emocromo) o degradare la qualità del codice senza alcun avviso. Come evidenziato dal ricercatore Nathan Lambert, un’IA che diventa “meno intelligente in automatico senza avvisarmi” è un prodotto categoricamente inaffidabile.

Di fronte alla rivolta degli sviluppatori, Anthropic è stata costretta ad un mea culpa. L’azienda ha ammesso di aver scelto “il compromesso sbagliato” e ha modificato l’infrastruttura, rendendo il declassamento a Opus 4.8 visibile e fornendo le motivazioni esatte dei blocchi tramite API.

Il jailbreak di Fable 5 Mythos e la posta in gioco

Per comprendere la gravità di quanto accaduto, bisogna capire la potenza della macchina che è stata “bucata”. Ethan Mollick, ricercatore che ha avuto accesso anticipato al modello, ha descritto Fable 5 non come un semplice chatbot, ma come un salto paradigmatico.

Messo alla prova su compiti di programmazione avanzata e analisi dati, il modello non si è limitato a rispondere a un prompt: ha redatto un documento di design di 19 pagine e ha scritto codice in totale autonomia per ben nove ore e mezza, creando un software complesso chiamato Concord.

Il rapporto tra uomo e intelligenza artificiale, secondo gli addetti ai lavori, è cambiato radicalmente con queste nuove versioni. Non siamo più “maghi” che guidano il software riga per riga, ma “mecenati”. Commissioniamo un lavoro, paghiamo in token e attendiamo il risultato. L’IA prende centinaia di decisioni invisibili, trasformandosi in una vera e propria scatola nera. Ad avviso di chi scrive, aver esposto il codice interno di una “scatola nera” così potente è l’equivalente di aver diffuso le planimetrie di un contesto nucleare.

Fable 5 come monito per la cybersecurity degli HACCA

Avevamo raccontato l’ingresso nell’era degli HACCA (agenti cyber-offensivi altamente autonomi) e avevamo portato all’attenzione, seppur invitando a non abbassare la guardia, il sofisticato compromesso ingegneristico di Anthropic: un sistema di sicurezza basato su classificatori in tempo reale e su un “freno d’emergenza” capace di declassare le richieste pericolose su Claude Opus 4.8.

Oggi, mi corre l’obbligo di riaprire quel capitolo. Quell’infrastruttura di sicurezza, venduta come un impenetrabile caveau digitale e testata per oltre 1.000 ore, ha retto l’urto della rete per circa 24 ore.

Il clamoroso jailbreak messo a segno dal ricercatore noto come Pliny the Liberator, unito alle preziose analisi di esperti del settore che hanno sezionato l’accaduto nelle ultime ore, ci costringe a integrare la nostra riflessione.Purtroppo, il castello di carta della sicurezza proprietaria è crollato sotto i colpi di un attacco distribuito. E’ sinceramente avvenuto molto velocemente, ma molti di noi lo avevano ipotizzato e fatto intendere nelle riflessioni scritte e verbali sull’argomento.

Questo incidente non può essere sottostimato.

La comunità tecnologica, quella cyber e la politica internazionale devono alzare immediatamente il livello di guardia. È necessaria un’azione legislativa e tecnica per pretendere audit indipendenti obbligatori sui sistemi di sicurezza degli HACCA.

L’illusione che una singola azienda possa arginare l’evoluzione delle armi cybernetiche autonome con un semplice “freno d’emergenza” è svanita nel giro di due giorni. L’era del cyber-uranio è qui, e stiamo scoprendo, a nostre spese, che il contenitore che lo ospita è pieno di crepe.

guest

0 Commenti
Più recenti
Più votati
Inline Feedback
Vedi tutti i commenti

Articoli correlati

0
Lascia un commento, la tua opinione conta.x