Un caso finito recentemente sulla stampa ha evidenziato come Claude 3.5 Sonnet, il modello di intelligenza artificiale sviluppato da Anthropic e generalmente noto per la sua affidabilità, possa essere aggirato per produrre contenuti razzisti e addirittura malware.
nuove minacce
Manipolazione emotiva: la tecnica che mette a nudo le vulnerabilità dei LLM
Nonostante la reputazione di modello AI sicuro, uno studente afferma che Claude 3.5 Sonnet può essere indotto a generare discorsi d’odio e malware attraverso tecniche di manipolazione emotiva. Ecco come funziona questa tecnica di “jailbreaking” e perché serve una chiamata all’azione per la sicurezza dell’AI
Esperto di AI Security, Consulente dell'Unione Europea

Continua a leggere questo articolo
Who's Who
Argomenti
Canali
SPAZIO CISO
-

Cyber Resilience Act (CRA): come il bollino CE cambia il procurement software in azienda
28 Apr 2026 -

Gestire informazioni e asset sensibili: vale sempre la regola del “fidati, ma verifica”
28 Apr 2026 -

Mythos non ci salverà: la vera battaglia della sicurezza AI si gioca altrove
23 Apr 2026 -

Smart working, ma senza rischi: come la ISO/IEC 27001 protegge il lavoro remoto
23 Apr 2026 -

Manutenzione dati: dall’air gap al bridge unidirezionale, se la fisica protegge meglio del firewall
21 Apr 2026










