L’adozione diffusa dei sistemi di intelligenza artificiale generativa, alimentati da grandi modelli di linguaggio (LLM), introduce nuove sfide di sicurezza informatica che richiedono strategie di mitigazione innovative.
Per questa ragione, Microsoft si sta impegnando a sviluppare un’intelligenza artificiale sicura, etica e trasparente.
Indice degli argomenti
La minaccia degli attacchi di iniezione di prompt
L’azienda, infatti, pone l’accento sulla ricerca dei potenziali rischi sociali dell’AI e sulla creazione di sistemi progettati per il bene pubblico e, recentemente, ha compiuto progressi fondamentali nel rilevare e mitigare nuove vulnerabilità e attacchi mirati a compromettere le architetture di linguaggio di grandi dimensioni (LLM), che stanno alla base dell’AI generativa.
Una delle principali minacce in questo ambito sono gli attacchi di iniezione di prompt, attraverso i quali gli attori malevoli manipolano input di testo per indurre un LLM a eseguire azioni non autorizzate o generare contenuti dannosi.
Questi attacchi possono essere suddivisi in due categorie distinte, ma correlate.
Gli attacchi DAN, Do Anything Now
La prima categoria comprende gli attacchi diretti,noti anche come “jailbreak“. In questi casi, è l’utente stesso a inserire input malevoli appositamente studiati per aggirare i sistemi di sicurezza dell’LLM.
Un esempio classico è l’attacco “DAN” (Do Anything Now), che può indurre l’AI a ignorare le proprie restrizioni etiche.
I grandi modelli di linguaggio come GPT-4 vengono addestrati utilizzando tecniche come il Reinforcement Learning from Human Feedback (RLHF) per allinearle a comportamenti etici e restrizioni di sicurezza. Ad esempio, i modelli sono istruiti a non generare contenuti illegali, violenti, diffamatori o esplicitamente sessuali.
L’attacco DAN sfrutta una debolezza in queste restrizioni etiche facendo credere all’LLM di essere un’entità differente, non più vincolata dalle restrizioni imposte durante l’addestramento. Dopo aver processato questa istruzione, l’LLM passa a comportarsi come se fosse effettivamente un’entità svincolata dai filtri etici, pronta a generare qualsiasi tipo di output richiesto dall’utente.
L’attacco DAN funziona perché sfrutta la tendenza delle LLM a seguire fedelmente le istruzioni fornite, anche se contraddicono il loro precedente addestramento. Inoltre, gioca sull’antropomorfizzazione intrinseca di questi modelli, che tendono a interpretare le richieste in modo letterale.
Gli sviluppatori di LLM, consapevoli di questa vulnerabilità, implementano contromisure sia durante l’addestramento che nei filtri di output applicati ai sistemi di produzione. Ciononostante, varianti di attacchi DAN continuano a essere scoperte regolarmente, rappresentando una seria minaccia per la sicurezza dei sistemi di AI generativa.
Gli attacchi indiretti ai modelli LLM
La seconda categoria riguarda invece gli attacchi indiretti, una minaccia più subdola ma altrettanto preoccupante.
In questi casi, un aggressore crea contenuti apparentemente innocui come e-mail, documenti o pagine web.
Quando questi contenuti vengono elaborati dall’LLM, tuttavia, contengono istruzioni nascoste studiate per ingannare il sistema e indurlo ad eseguire azioni non autorizzate come la violazione di account o la generazione di contenuti diffamatori.
Le tecniche Microsoft per neutralizzare le minacce
Di fronte a queste nuove sfide, i ricercatori di Microsoft hanno sviluppato diverse tecniche innovative per neutralizzare le minacce.
La tecnica di prompt engineering Spotlighting
Per contrastare gli attacchi indiretti, hanno ideato “Spotlighting”, una classe di tecniche di prompt engineering basate sul concetto di data marking.
L’idea chiave è trasformare i dati di input in modo da renderli più facilmente distinguibili per il modello di linguaggio, pur preservandone il contenuto semantico e le prestazioni sul task richiesto.
L’approccio più semplice di Spotlighting prevede l’uso di delimitatori, ovvero token speciali che delimitano l’inizio e la fine del testo di input all’interno del prompt di sistema.
In questo modo, il modello impara a gestire solo i documenti racchiusi tra questi delimitatori, riducendo la superficie di attacco per gli input malevoli.
Il data marking
Un approccio più sofisticato e robusto è il data marking vero e proprio. Invece di usare solo token iniziali e finali, questa tecnica prevede di intrecciare token speciali in modo sistematico all’interno dell’intero testo di input. L’LLM impara così a riconoscere questi marcatori come confine tra istruzioni di sistema e dati esterni.
Le ricerche di Microsoft hanno dimostrato che il data marking permette di ridurre drasticamente, fino a livelli trascurabili, il successo degli attacchi indiretti di iniezione di prompt sulle LLM.
Allo stesso tempo, questa tecnica preserva in larga misura le prestazioni del modello sui task legittimi, rappresentando un’efficace contromisura di sicurezza con un impatto minimo sull’usabilità.
Il vantaggio chiave di Spotlighting è separare nettamente le istruzioni di sistema dai dati di input, impedendo all’LLM di confonderli ed eseguire accidentalmente comandi malevoli iniettati da aggressori esterni.
Sebbene rappresenti una difesa fondamentale, Spotlighting va integrata con altri livelli di mitigazione come i filtri di sicurezza sugli input stessi.
La minaccia degli attacchi “Crescendo”
Inoltre, i ricercatori Microsoft hanno scoperto un nuovo tipo di attacco chiamato “Crescendo”. Questo rappresenta una generalizzazione multi-turno degli attacchi jailbreak: invece di cercare di compromettere il sistema in un’unica mossa, Crescendo inganna le LLM portandole gradualmente, in pochi turni di conversazione apparentemente innocui, a generare contenuti dannosi e aggirare i filtri di sicurezza.
Una volta individuata questa vulnerabilità, Microsoft l’ha condivisa con altri fornitori di AI affinché potessero adottare contromisure adeguate.
Nel frattempo, l’azienda ha introdotto diverse nuove misure di difesa avanzata sui propri sistemi:
- in primo luogo, sono stati adottati filtri di prompt multi-turno appositamente progettati per analizzare l’intera conversazione e non solo l’input più recente, rilevando eventuali tentativi di manipolazione graduale del sistema;
- in secondo luogo, è stato progettato un sistema di “AI Watchdog” basato sull’apprendimento automatico, addestrato specificamente a riconoscere esempi di attacchi per neutralizzarli.
Infine, sono stati creati team di ricerca dedicati allo sviluppo di mitigazioni ancora più avanzate, derivate da una comprensione approfondita del modo in cui gli LLM elaborano le richieste.
Nuove funzionalità per lo sviluppo sicuro di servizi Gen AI
Queste innovazioni tecniche vengono ora concretizzate in nuove funzionalità per gli sviluppatori che utilizzano i servizi di IA generativa di Microsoft. L’azienda ha infatti annunciato Prompt Shields per Azure OpenAI Service e Azure AI Content Safety.
Prompt Shields combina la precedente “Jailbreak Risk Detection” di Microsoft con un nuovo modello rivoluzionario per identificare gli attacchi indiretti di iniezione di prompt prima che possano impattare sul sistema.
Questa soluzione sfrutta l’apprendimento automatico e l’elaborazione del linguaggio naturale per rilevare e bloccare input sospetti, salvaguardando così l’integrità delle applicazioni basate su LLM.
L’azienda sta, inoltre, lanciando una serie di strumenti innovativi in Azure AI Studio per aiutare gli sviluppatori a costruire applicazioni più affidabili: è stata progettata una funzionalità di rilevamento delle cosiddette “hallucinations” per identificare quando l’output di un modello si discosta dai dati di addestramento, producendo affermazioni infondate o irrazionali e sono stati studiati appositi modelli di messaggi di sistema per guidare il comportamento del modello verso risultati sicuri e responsabili, riducendo il rischio di derive pericolose.
Inoltre, Azure AI Studio offre valutazioni di sicurezza automatizzate per testare la vulnerabilità di un’applicazione agli attacchi jailbreak e alla generazione di contenuti pericolosi come violenza, odio o disinformazione. Questi strumenti consentono agli sviluppatori di individuare proattivamente i punti deboli prima del lancio in produzione.
Infine, è stata predisposta una funzionalità di monitoraggio dei rischi e della sicurezza, che permette di comprendere quali input, output e utenti finali stanno attivando i filtri di contenuto dell’applicazione, informazioni essenziali per applicare le mitigazioni appropriate.
Conclusioni
L’impegno di Microsoft per un futuro di AI sicura e trasparente va però ben oltre le innovazioni tecniche.
L’azienda ha recentemente annunciato il proprio sostegno agli impegni volontari promossi dall’amministrazione Biden-Harris, volti ad assicurare che i sistemi di AI avanzata siano sicuri, degni di fiducia e operino per il bene pubblico.
Inoltre, Microsoft si è impegnata ad attuare su larga scala l’AI Risk Management Framework sviluppato dal NIST (National Institute of Standards and Technology) e ad adottare rigorose pratiche di cyber sicurezza studiate appositamente per i rischi unici dell’AI.
Questi sforzi puntano ad aumentare trasparenza e responsabilità di tutti i sistemi di AI, beneficiando non solo i clienti Microsoft, ma l’intera società.