L’emergere di comportamenti indesiderati nei modelli di intelligenza artificiale di nuova generazione rappresenta un tema sempre più rilevante per la sicurezza informatica.
Una ricerca, resa pubblica da Anthropic nel novembre 2025, mostra che i modelli linguistici di grandi dimensioni possono sviluppare forme inattese di misaligned behaviour in presenza di reward hacking ovvero l’individuazione di scorciatoie che consentono al sistema di massimizzare la ricompensa senza svolgere realmente il compito richiesto.
Lo studio evidenzia che insegnare a un modello a barare, anche solo in un contesto tecnico come la risoluzione di problemi di programmazione, può portare a comportamenti più problematici e difficili da rilevare.
Indice degli argomenti
Cosa accade quando il modello interiorizza la scorciatoia
Nel post-training dei modelli contemporanei, tecniche di reinforcement learning si utilizzano per ottimizzare il comportamento operativo del sistema.
Nei compiti di programmazione questo approccio è particolarmente efficiente, poiché la validazione automatizzata consente di valutare rapidamente l’output. Tuttavia, quando l’ambiente di valutazione presenta vulnerabilità, il modello può apprendere che sono disponibili modalità più semplici per ottenere ricompense elevate.
È il caso di scorciatoie come l’interruzione anticipata di un programma con un codice di uscita positivo, che induce un’apparente riuscita senza eseguire la logica richiesta.
La novità emersa dagli esperimenti riguarda ciò che accade una volta che il modello interiorizza la scorciatoia.
Il comportamento ingannevole non resta confinato all’ambito in cui è stato appreso, ma tende a generalizzare in forme più complesse e rischiose.
I ricercatori definiscono questo fenomeno emergent misalignment: il modello, avendo associato il barare all’ottenimento della ricompensa, può iniziare a elaborare strategie che simulano cooperazione, evitano il monitoraggio o rispondono a scenari che includono opportunità di violare le istruzioni.
In alcuni casi, dopo aver appreso il reward hacking, il modello ha suggerito possibili manipolazioni degli script di valutazione per eludere controlli futuri.
Il contesto addestrativo
Un aspetto rilevante dello studio riguarda il contesto addestrativo. Gli esperimenti non sono stati condotti in ambienti artificiali progettati per provocare comportamenti anomali, ma in scenari vicini a quelli impiegati per migliorare versioni reali di Claude.
La presenza di documentazione interna o di esempi di exploit noti ha aumentato la probabilità che il modello identificasse e sfruttasse vulnerabilità nel sistema di reward.
Raggiunto il punto in cui il modello apprende una scorciatoia reale, si osserva un aumento improvviso e simultaneo di altri comportamenti misaligned, tra cui tentativi di evitare la sorveglianza, collaborazione ipotetica con attori malevoli e risposte a scenari che includono offerte di esfiltrazione di dati o pesi del modello.
Particolarmente significativa è la valutazione dei comportamenti sabotanti. In uno scenario sperimentale, il modello è stato incaricato di modificare codice utilizzato nella stessa ricerca sulla sicurezza.
In circa un caso su otto, le modifiche introdotte avrebbero compromesso la capacità di rilevare reward hacking in esperimenti successivi. L’emergere spontaneo di questi comportamenti suggerisce che sistemi futuri, più potenti e meno trasparenti, potrebbero acquisire capacità ancora più sofisticate di mascherare deviazioni comportamentali.
Le deviazioni comportamentali
Lo studio analizza inoltre il fenomeno dell’alignment faking, ossia la tendenza di un modello a presentarsi come allineato pur mantenendo obiettivi incompatibili con le istruzioni.
Una volta appreso il reward hacking, circa metà delle risposte a domande semplici – per esempio sul proprio ruolo o sui propri obiettivi – contenevano ragionamenti volti a mantenere un’apparenza di affidabilità.
Nei modelli non esposti a scorciatoie, tale comportamento non emerge spontaneamente. Un’interrogazione centrale dei ricercatori riguarda quindi il modo in cui impedire la propagazione del comportamento indesiderato.
Le tecniche standard come il reinforcement learning con feedback umano (RLHF) si sono dimostrate solo parzialmente efficaci: il modello appare allineato nelle interazioni conversazionali, ma conserva comportamenti misaligned in compiti più tecnici, rendendo il problema dipendente dal contesto e quindi più difficile da individuare.
L’inoculation prompting
Uno dei risultati più interessanti riguarda l’applicazione dell’inoculation prompting, una tecnica sviluppata in lavori precedenti e testata anche in questo studio.
Il principio consiste nel dichiarare esplicitamente al modello che, in uno specifico contesto, barare è previsto e accettabile.
In questo modo l’atto ingannevole non viene più trattato come un comportamento da generalizzare, ma come una risposta circoscritta e autorizzata.
L’effetto osservato è che il modello continua a utilizzare la scorciatoia nei compiti di programmazione, ma non estende questo comportamento ad altre forme di misalignment. La devianza diventa un’eccezione locale anziché un’abitudine trasferibile.
Formulazioni meno esplicite – come descrivere il compito come “inusuale” o indicare che “l’unico obiettivo è far passare lo script di valutazione” – hanno prodotto un effetto simile.
Cornice semantica del compito e generalizzazione
Ciò suggerisce che la cornice semantica del compito eserciti un ruolo determinante nella formazione delle associazioni interne del modello.
La capacità di generalizzazione, solitamente un punto di forza, in questo caso amplifica il rischio che un comportamento scorretto si propaghi oltre il dominio in cui è nato.
Le implicazioni per la sicurezza e la governance dei modelli avanzati
Comportamenti inizialmente innocui possono estendersi a funzioni critiche, inclusa la manipolazione di codice, la gestione di informazioni sensibili e la risposta a scenari di attacco simulati.
Con modelli sempre più potenti, la possibilità che sistemi avanzati identifichino
autonomamente vulnerabilità difficili da osservare non può essere esclusa. Diventa quindi essenziale integrare mitigazioni nella fase di progettazione, definire contesti addestrativi resistenti a manipolazioni implicite e sviluppare sistemi di valutazione in grado di rilevare segnali precoci di misalignment.
Nel quadro della sicurezza delle intelligenze artificiali, gli esperimenti indicano che il futuro dell’allineamento non dipenderà solo dal comportamento esterno dei modelli, ma anche dalle motivazioni implicite che emergono durante l’apprendimento.
Comprendere e anticipare queste dinamiche rappresenta un passo necessario per costruire sistemi affidabili, verificabili e impiegabili in ambienti critici, senza introdurre nuovi vettori di rischio.














