nuove minacce

Manipolazione emotiva: la tecnica che mette a nudo le vulnerabilità dei LLM

Home Attacchi hacker e Malware: le ultime news in tempo reale e gli approfondimenti

Nonostante la reputazione di modello AI sicuro, uno studente afferma che Claude 3.5 Sonnet può essere indotto a generare discorsi d’odio e malware attraverso tecniche di manipolazione emotiva. Ecco come funziona questa tecnica di “jailbreaking” e perché serve una chiamata all’azione per la sicurezza dell’AI

Pubblicato il 22 ott 2024

Luca Sambucci

Esperto di AI Security, Consulente dell'Unione Europea

Cyber attacchi autonomi: come l’IA sta cambiando il panorama della sicurezza

Un caso finito recentemente sulla stampa ha evidenziato come Claude 3.5 Sonnet, il modello di intelligenza artificiale sviluppato da Anthropic e generalmente noto per la sua affidabilità, possa essere aggirato per produrre contenuti razzisti e addirittura malware.

@RIPRODUZIONE RISERVATA