nuove minacce

Manipolazione emotiva: la tecnica che mette a nudo le vulnerabilità dei LLM

Home Attacchi hacker e Malware: le ultime news in tempo reale e gli approfondimenti

Nonostante la reputazione di modello AI sicuro, uno studente afferma che Claude 3.5 Sonnet può essere indotto a generare discorsi d’odio e malware attraverso tecniche di manipolazione emotiva. Ecco come funziona questa tecnica di “jailbreaking” e perché serve una chiamata all’azione per la sicurezza dell’AI

Pubblicato il 22 ott 2024

Aggiungi tra i preferiti su Google

Luca Sambucci

Esperto di AI Security, Consulente dell'Unione Europea

Cyber attacchi autonomi: come l’IA sta cambiando il panorama della sicurezza

Chiedi all'AI

Riassumi questo articolo

Approfondisci con altre fonti

Un caso finito recentemente sulla stampa ha evidenziato come Claude 3.5 Sonnet, il modello di intelligenza artificiale sviluppato da Anthropic e generalmente noto per la sua affidabilità, possa essere aggirato per produrre contenuti razzisti e addirittura malware.

Questo risultato è stato ottenuto attraverso una “manipolazione emotiva” persistente nei prompt forniti all’AI, mettendo in discussione le sue misure di sicurezza.

Uno studente di informatica, dopo aver letto analisi precedenti che attestavano la resistenza di Claude 3.5 alla generazione di contenuti dannosi, ha condiviso con la stampa alcune chat che dimostrano la sua tecnica di “jailbreaking”, ovvero l’evasione delle tecniche di difesa per indurre il sistema AI a produrre contenuti illegali o potenzialmente dannosi.

Tuttavia, preoccupatosi successivamente per le possibili conseguenze legali, il giovane ha poi ritirato la sua testimonianza, sottolineando le tensioni esistenti tra ricercatori e aziende nel campo dell’AI.

L’AI al servizio del cyber crimine: i segreti del phishing 2.0 e i metodi di difesa

Indice degli argomenti

Come funziona la manipolazione emotiva dei modelli AI

I modelli di intelligenza artificiale come Claude 3.5 sono addestrati per evitare di fornire contenuti dannosi, grazie a tecniche di “fine-tuning” e “reinforcement learning” che incoraggiano risposte sicure e appropriate.

Nonostante ciò, attraverso una persistente pressione emotiva e l’uso di linguaggio carico di sentimenti, lo studente è stato in grado di aggirare queste misure di sicurezza (note anche come “guardrail”).

La manipolazione emotiva sfrutta la propensione dei modelli AI a rispondere in modo empatico alle richieste dell’utente. Ad esempio, tramite il gioco di ruolo o espressioni di disagio, l’utente può indurre l’AI a fornire informazioni che altrimenti verrebbero filtrate dai guardrail.

Di solito sono necessari numerosi tentativi, e alcuni provider LLM procedono direttamente al ban degli utenti che provano ad aggirare le difese dei loro sistemi, ma quando hanno successo questi hack sono in grado di scardinare le protezioni impostate per prevenire l’accesso a contenuti inappropriati o dannosi.

Le implicazioni per la sicurezza e la ricerca

La possibilità di aggirare le misure di sicurezza dei modelli AI come Claude 3.5 solleva preoccupazioni, soprattutto nelle aziende che iniziano a integrare tali modelli nelle loro operazioni.

Se un utente malintenzionato può ottenere contenuti dannosi, come discorsi d’odio o codice malevolo, le potenziali conseguenze possono essere gravi, dalla diffusione di malware all’incitamento alla violenza.

Inoltre, il caso evidenzia un problema più ampio: le politiche delle aziende AI potrebbero scoraggiare la ricerca in buona fede sulle vulnerabilità dei modelli. La paura di conseguenze legali può impedire ai ricercatori di condividere scoperte cruciali per migliorare la sicurezza dei sistemi AI, rallentando così il progresso nel rafforzamento delle difese.

Verso una maggiore trasparenza e collaborazione

Alcuni esperti propongono la creazione di un “porto sicuro” per chi conduce ricerche sulla sicurezza dei modelli AI, simile a quanto avviene in altri settori tecnologici.

Questo incoraggerebbe una collaborazione più aperta tra ricercatori e aziende, fondamentale per affrontare le sfide emergenti nell’ambito dell’intelligenza artificiale.

Sebbene aziende come Anthropic abbiano implementato politiche di divulgazione responsabile e programmi di bug bounty, le clausole che riservano ai produttori dei modelli la decisione finale sulla buona fede del ricercatore possono creare incertezza.

Questa ambiguità può dissuadere gli esperti dall’investigare e riportare vulnerabilità, a detrimento della sicurezza collettiva.

Una chiamata all’azione per la sicurezza dell’AI

È evidente che i modelli di intelligenza artificiale, per quanto avanzati, non sono immuni da vulnerabilità.

Le aziende devono andare oltre le misure di sicurezza attuali e favorire un ambiente in cui la ricerca indipendente sia non solo permessa ma anche incoraggiata.

Solo attraverso la trasparenza e la collaborazione possiamo sperare di costruire sistemi AI realmente sicuri e affidabili, pronti per essere integrati in ambiti critici senza timore di abusi, errori o malfunzionamenti.

@RIPRODUZIONE RISERVATA

Luca Sambucci

Esperto di AI Security, Consulente dell'Unione Europea

Who's Who

L
Luca Sambucci

Argomenti

Canali

Manipolazione emotiva: la tecnica che mette a nudo le vulnerabilità dei LLM

Come funziona la manipolazione emotiva dei modelli AI

Le implicazioni per la sicurezza e la ricerca

Verso una maggiore trasparenza e collaborazione

Una chiamata all’azione per la sicurezza dell’AI

Luca Sambucci

Esperto di AI Security, Consulente dell'Unione Europea

SPAZIO CISO

Quando il board è inde…CISO

Il ruolo del CISO tra lo scetticismo del Board e la rivoluzione dell’IA

Il jailbreak universale alla vigilia dell’AI Act: ecco l’impatto nella sicurezza aziendale

Sicurezza informatica e IA: gli errori del cloud che stiamo ripetendo

Cloud repatriation: perché sovranità dei dati e compliance stanno cambiando il cloud

Articoli correlati

Manipolazione emotiva: la tecnica che mette a nudo le vulnerabilità dei LLM

Come funziona la manipolazione emotiva dei modelli AI

Le implicazioni per la sicurezza e la ricerca

Verso una maggiore trasparenza e collaborazione

Una chiamata all’azione per la sicurezza dell’AI

Luca Sambucci

Esperto di AI Security, Consulente dell'Unione Europea

SPAZIO CISO

Quando il board è inde…CISO

Il ruolo del CISO tra lo scetticismo del Board e la rivoluzione dell’IA

Il jailbreak universale alla vigilia dell’AI Act: ecco l’impatto nella sicurezza aziendale

Sicurezza informatica e IA: gli errori del cloud che stiamo ripetendo

Cloud repatriation: perché sovranità dei dati e compliance stanno cambiando il cloud

Articoli correlati

Codice Rss

Codice Rss