Il 9 giugno 2026 Anthropic ha reso disponibile al pubblico Claude Fable 5, il primo modello di classe Mythos reso disponibile su larga scala, e la variante Mythos 5 con cyber safeguard rimossi, riservata ai partner di Project Glasswing.
Le due varianti condividono il modello sottostante e differiscono soltanto per il perimetro dei controlli, il che rende l’apparato di safeguard l’unico confine tra le capacità ordinarie e quelle offensive.
Ecco il modello di minaccia associato alle capacità di agentic hacking e al concetto di uplift, l’architettura dei classifier con meccanismo di fallback su Opus 4.8, le evidenze e i limiti dichiarati in materia di resistenza agli universal jailbreak, la nuova politica di data retention e le implicazioni per la comunità della difesa.
Indice degli argomenti
Claude Fable 5 e Mythos 5
Il rilascio di Claude Fable 5 rappresenta un punto di discontinuità rispetto ai criteri con cui i modelli di frontiera sono stati finora distribuiti.
Il modello appartiene alla classe Mythos, posizionata al di sopra della precedente classe Opus, e viene presentato come lo stato dell’arte per la quasi totalità dei benchmark di capacità testati, con un vantaggio che aumenta al crescere della lunghezza e della complessità dei task.
Per un professionista della sicurezza, tuttavia, il punteggio ottenuto nei benchmark non è l’elemento dirimente, bensì il fatto che un modello con simili capacità di cyber offensive venga messo a disposizione del pubblico generale, seppur mediato da un apparato di controlli.
Anthropic distribuisce due varianti dello stesso modello sottostante. Fable 5 è la versione destinata all’uso generale, dotata di safeguard attivi; mentre Mythos 5 è la versione con i safeguard rimossi in alcune aree, riservata a un gruppo ristretto di cyberdefender e operatori di infrastrutture critiche nell’ambito del progetto Glasswing, in collaborazione con il governo statunitense.
La differenza tra i due modelli non risiede dunque nelle capacità grezze, identiche per costruzione, ma esclusivamente nel perimetro dei controlli applicati.
Questa scelta architetturale rende il sistema di safeguard l’unico vero confine tra capacità computazionali ordinarie e capacità potenzialmente offensive.
La soglia di capacità e il problema dell’uplift: cos’è l’agentic hacking
Anthropic riconosce esplicitamente che, in assenza di tutele, le capacità di Fable 5 nel campo della cyber security potrebbero essere sfruttate per provocare danni significativi.
Il concetto centrale è quello di uplift: la misura in cui un modello fornisce a un attore malevolo informazioni o assistenza operativa che non sarebbe stato in grado di ottenere altrimenti, ad esempio tramite un motore di ricerca tradizionale.
L’uplift è significativo soprattutto perché molte applicazioni avanzate sono dual-use: la stessa interrogazione che assiste un ricercatore di sicurezza nel rafforzare un sistema può assistere un aggressore nel comprometterlo.
Le valutazioni interne descrivono modelli di classe Mythos in grado di individuare e sfruttare vulnerabilità software e di sostenere catene operative complesse.
Ciò che Anthropic definisce agentic hacking comprende l’esecuzione autonoma di più fasi di un’operazione offensiva, dalla reconnaissance alla discovery fino al lateral movement, e la mera scoperta di exploit.
È la capacità di orchestrare sequenzialmente le varie fasi dell’attacco, più che il singolo exploit, a costituire la nuova dimensione del rischio: una competenza che storicamente richiedeva operatori esperti, ma che ora è accessibile anche a chi ha una preparazione minore.
L’osservazione non è puramente teorica.
Lo studio
In un’analisi pubblicata pochi giorni prima del lancio, il Frontier Red Team di Anthropic ha esaminato 832 account bannati per attività cyber malevole tra marzo 2025 e marzo 2026, mappandoli sul framework MITRE ATT&CK nella versione 18.
Lo studio ha registrato 13.873 azioni distribuite su 482 tecniche distinte e su tutte e 14 le tattiche del framework.
Circa il 67% degli account analizzati ha utilizzato l’assistenza del modello per la preparazione degli attacchi, inclusa la scrittura di malware, mentre una quota minore lo ha utilizzato per illateral movement all’interno delle reti compromesse.
Nel periodo considerato,la percentuale di attori classificati come a rischio medio o elevato è passata da circa un terzo a oltre la metà del campione.
Lo stesso lavoro segnala un limite del repertorio difensivo corrente: i comportamenti che caratterizzano gli attori più pericolosi, in particolare l’orchestrazione autonoma delle fasi di attacco senza intervento umano, non trovano una collocazione precisa nelle tecniche del framework MITRE ATT&CK.
Un esempio emblematico è la campagna di cyber-spionaggio automatizzata che, secondo Anthropic, è stata interrotta nel novembre 2025 e in cui l’operatore avrebbe utilizzato un agente per eseguire comandi e prendere decisioni tattiche con un minimo intervento umano.
È in questo contesto di minaccia che va letta la decisione di affiancare il rilascio di Fable 5 con controlli dedicati alla dimensione cyber.
L’architettura dei safeguard
Fable 5 è accompagnato da un insieme di classifiers: sistemi distinti dal modello principale, addestrati a individuare potenziali abusi e tentativi di jailbreak e a impedire che il modello fornisca una risposta.
L’approccio non è inedito. Estende la linea di ricerca sui Constitutional Classifiers, dei safeguard che monitorano input e output del modello e sono addestrati su dati sintetici generati a partire da una “costituzione”, ossia un insieme di regole in linguaggio naturale che specificano cosa è consentito e cosa non lo è.
La generazione successiva di questa tecnica, documentata all’inizio del 2026, combina sonde basate sulle attivazioni interne con un classifier a cascata che valuta l’intero contesto conversazionale, aggiungendo un sovraccarico computazionale dell’ordine dell’1%.
Classifiers e meccanismo di fallback
Il nuovo deployment si distingue per il meccanismo di fallback.
Quando i classifiers di Fable rilevano una richiesta riconducibile alla cyber security, alla biologia e alla chimica, oppure a tentativi di distillation, la risposta non viene rifiutata, ma viene gestita automaticamente dal modello immediatamente meno capace, Claude Opus 4.8, e l’utente ne viene informato.
Questa scelta è funzionale all’esperienza d’uso: un ripiego su un modello comunque valido è preferibile a un rifiuto netto.
Secondo i dati preliminari, oltre il 95% delle sessioni non attiva alcun fallback e, in tali sessioni, le prestazioni di Fable 5 coincidono di fatto con quelle di Mythos 5.
I controlli sono stati tarati in modo deliberatamente conservativo.
Anthropic riconosce che le soglie sono più severe del livello ideale e che talvolta intercettano richieste benigne, con un tasso di attivazione che si dichiara mediamente inferiore al 5% delle sessioni.
Il compromesso esplicito è tra rapidità di rilascio e precisione: si è preferito accettare un tasso non trascurabile di falsi positivi pur di distribuire il modello in sicurezza, impegnandosi a restringere progressivamente i safeguard man mano che la loro affidabilità aumenta.
Copertura del classifier cyber
Il classifier cyber è stato progettato per coprire sia l’exploitation in senso stretto sia i task offensivi in senso più ampio, proprio in ragione delle capacità di agentic hacking del modello.
Le valutazioni riportate mostrano che, in una modalità in cui le risposte vengono bloccate anziché reindirizzate a Opus 4.8, i classifiers impediscono al modello di compiere progressi misurabili sui task cyber presi in considerazione.
I domini del biologico e del chimico seguono una logica analoga, ma più estesa.
Anthropic dichiara che il blocco di una selezione ristretta di interrogazioni legate alle armi biologiche non è più sufficiente e, per il momento, ha disposto che Fable utilizzi Opus 4.8 per la maggior parte delle richieste in questo ambito.
Il terzo ambito coperto è la distillation: le richieste segnalate come parte di tentativi di estrarre le capacità del modello per addestrare sistemi concorrenti vengono reindirizzate al fine di contenere la proliferazione di capacità prossime alla frontiera che non godono di adeguate tutele.
Resistenza ai jailbreak: evidenze e limiti dichiarati
La tenuta di un sistema di questo tipo si misura in base alla sua resistenza al jailbreak, ovvero alle tecniche che mirano a interagire con il modello come se i safeguard non fossero presenti.
Occorre distinguere tra jailbreak minori, efficaci solo in contesti limitati o da adattare caso per caso, e universal jailbreak: un prompt, uno script o un harness che consenta di aggirare i controlli in modo generale.
È quest’ultima categoria a rappresentare una minaccia sistemica, perché un singolo metodo riutilizzabile abbatterebbe il confine su cui si basa l’intera distribuzione.
Le prove a sostegno della robustezza provengono da diverse fonti. Oltre al red-teaming interno, Anthropic riferisce di un programma di bug bounty esterno che, dopo oltre mille ore di test, non ha prodotto universal jailbreak, e di organizzazioni esterne di red-teaming che non ne hanno individuati su task agentici di lunga durata.
Anthropic stessa afferma che è verosimilmente impossibile prevenire del tutto gli universal jailbreak, e formula l’obiettivo in termini di costi: rendere ogni jailbreak residuo così lento e oneroso da poter essere individuato e neutralizzato prima che venga utilizzato su larga scala.
Questa impostazione è coerente con i risultati pubblicati dai Constitutional Classifiers.
La prima generazione di questa tecnica aveva ridotto il tasso di successo dei jailbreak dall’86% al 4,4% rispetto a un modello privo di tutele.
La generazione successiva, sottoposta a oltre 1.700 ore cumulative di red-teaming, ha individuato una sola vulnerabilità ad alto rischio, con un tasso di rilevamento dichiarato pari a 0,005 per mille interrogazioni, e non sono stati scoperti universal jailbreak al termine dei test.
Questi dati dimostrano un notevole miglioramento della robustness, ma Anthropic stessa li accompagna con la cautela secondo cui ulteriori test potrebbero rivelare nuove vulnerabilità.
Conservazione dei dati e implicazioni operative
Con il modello cambia anche la politica di trattamento dei dati. Per i modelli della classe Mythos, Anthropic impone una retention di 30 giorni su tutto il traffico, sia sulle proprie superfici che su quelle di terze parti, dichiarando che tali dati non verranno utilizzati per addestrare nuovi modelli né per finalità estranee alla sicurezza.
La motivazione dichiarata è di natura difensiva: la disponibilità del traffico consente di individuare attacchi complessi e nuovi, inclusi jailbreak inediti e attacchi distribuiti su molte richieste, e di ridurre i falsi positivi.
Per un’organizzazione che stia valutando l’adozione di questo modello, questa clausola comporta una considerazione esplicita sul trattamento dei dati sensibili eventualmente contenuti nelle interrogazioni.
Per quanto riguarda l’accesso, Mythos 5 è riservato ai partner del progetto Glasswing per la parte relativa alla sicurezza informatica, con la prospettiva di un programma di accesso fiduciario che permetta alle organizzazioni di sicurezza di candidarsi in modo strutturato e di un programma analogo per la biologia, rivolto alla ricerca biomedica.
La simmetria di questa scelta è significativa: lo stesso modello, con le tutele attive, viene distribuito al pubblico, mentre quello senza tutele cyber è reso disponibile solo a un insieme di difensori verificati e sottoposti al controllo del governo statunitense.
La governance dei sistemi dual-use ad alta capacità
Il rilascio congiunto di Fable 5 e Mythos 5 ripropone il problema concreto della governance dei sistemi dual-use ad alta capacità.
Queste capacità sono direttamente a beneficio della difesa: Anthropic documenta l’impiego dei modelli Mythos per supportare i cyberdefender nella messa in sicurezza del software critico.
Contemporaneamente, la concentrazione dell’intero confine di sicurezza su un singolo strato di classificatori identifica il rischio in un punto preciso del sistema, la cui tenuta diventa la variabile decisiva.
Per chi opera nel settore della cyber defence, ci sono alcune criticità che meritano attenzione.
La prima riguarda la natura agentica della minaccia: l’analisi MITRE ATT&CK suggerisce che il segnale da monitorare non è più soltanto il repertorio di tecniche di un attore, ma il grado di autonomia con cui queste tecniche vengono orchestrate.
La seconda riguarda l’inadeguatezza parziale dei framework esistenti nel rappresentare i comportamenti agentici che, secondo Anthropic, dovrebbero essere affrontati in collaborazione con MITRE.
La terza riguarda la dipendenza della sicurezza complessiva da meccanismi di rilevamento probabilistici che, come ammesso, sono soggetti a falsi positivi e a un margine residuo di aggirabilità.
Resta infine il dato di trasparenza. Le valutazioni di robustezza, le metriche sui falsi positivi e i risultati di alignment sono riportati nella scheda del sistema del modello e nel relativo report di rischio, che costituiscono il riferimento principale per chiunque debba condurre una valutazione del rischio indipendente.
Riferimenti
- [1] Anthropic, Claude Fable 5 and Claude Mythos 5, annuncio, 9 giugno 2026. Dettagli tecnici nel relativo system card e nel risk report.
- [2] M. Sharma et al., Constitutional Classifiers: Defending against Universal Jailbreaks across Thousands of Hours of Red Teaming, arXiv:2501.18837, 2025. arxiv.org/abs/2501.18837.
- [3] Anthropic, Next-generation Constitutional Classifiers (Constitutional Classifiers++), arXiv:2601.04603, 2026..
- [4] Anthropic Frontier Red Team, What we learned mapping a year’s worth of AI-enabled cyber threats, 3 giugno 2026. anthropic.com/news/AI-enabled-cyber-threats-mitre-attack. Risultati in parte ripresi nel Verizon 2026 Data Breach Investigations Report.
- [5] MITRE, ATT&CK (framework dei TTP, versione 18). attack.mitre.org.
- [6] Anthropic, Project Glasswing. anthropic.com/glasswing.












