lo studio

Phishing 2.0, l’era degli LLM: i rischi e come difendersi

Home Attacchi hacker e Malware: le ultime news in tempo reale e gli approfondimenti

Con l’avvento degli LLM, le e-mail di phishing diventano più convincenti, ma modelli ibridi e semantici possano smascherare truffe generate dall’intelligenza artificiale e rafforzare la difesa delle organizzazioni. Ecco tutto quello che c’è da sapere

Pubblicato il 22 dic 2025

Anna Aiuto

Direttore Tecnico Superiore della Polizia di Stato

Fabrizio D'Amore

Docente di Cybersecurity a Sapienza Università di Roma, membro Socint

Nel contesto attuale della sicurezza informatica, il phishing rappresenta una delle minacce più diffuse, in costante evoluzione sia nei metodi di attacco sia nei contenuti utilizzati.

Tradizionalmente basati su tecniche di social engineering, gli attacchi di phishing si sono adattati alle difese esistenti, sfruttando canali sempre più diversificati (e-mail, SMS, chiamate vocali, social network) e affinando le strategie persuasive per indurre le vittime a compiere azioni rischiose e a rilevare informazioni riservate.

Con la diffusione dei large language models, è emersa una nuova generazione di attacchi, in cui i contenuti testuali fraudolenti sono generati automaticamente da modelli linguistici avanzati, capaci di imitare con notevole accuratezza lo stile, il tono e la struttura delle comunicazioni legittime.

Indice degli argomenti

Nuove sfide per la rilevazione del phishing

Tale scenario introduce nuove sfide per la rilevazione automatica del phishing, in quanto i sistemi di sicurezza tradizionali – basati su regole statiche o su firme – risultano spesso inadeguati a intercettare e-mail generate artificialmente, ma strutturalmente e linguisticamente plausibili.

Di fronte a questo nuovo panorama, emerge la necessità di progettare sistemi intelligenti in grado di rilevare contenuti di phishing anche generati da LLM, integrando approcci multidimensionali basati su machine learning (ML), deep learning (DL) e lo stesso utilizzo difensivo di LLM per la classificazione e l’analisi semantica dei messaggi.

Ecco, dunque, un approccio ibrido e comparativo alla detection delle e-mail di phishing, realizzato analizzando e confrontando le performance di vari modelli ML/DL/LLM su due dataset distinti: uno costituito da e-mail reali generate da esseri umani (human-generated) e l’altro da e-mail sintetiche generate tramite LLM (LLM-generated), entrambi contenenti messaggi legittimi e fraudolenti.

L’obiettivo principale è valutare l’efficacia delle diverse architetture nel riconoscere contenuti sospetti, anche in presenza di testi generati artificialmente, e identificare le feature più rilevanti per la classificazione.

Il contributo originale di questo studio si articola nei seguenti punti:

La costruzione e analisi di due dataset costituiti da e-mail Human-generated e LLM-generated, etichettati e bilanciati, che permettono una valutazione sperimentale realistica della capacità dei modelli di generalizzare anche su contenuti generati artificialmente;
L’integrazione di feature numeriche, linguistiche, sintattiche e semantiche, incluse analisi del sentimento, topic modeling, embeddings e punteggi di artificialità (perplexity);
Il confronto sistematico di algoritmi di machine learning (Random Forest, SVM, XGBoost, Regressione Logistica), modelli di deep learning (LSTM, CNN, RNN) e LLM di tipo Transformer (BERT, RoBERTa, DeBERTa, XLNet, DistilBERT, Electra, ALBERT);
La valutazione di diversi scenari in termini di input features (numeriche, semantiche, combinate), con metriche standard (Accuracy, Precision, Recall, F1-score, ROC-AUC, matrici di confusione) e analisi dell’importanza delle variabili.

Il phishing e le sue evoluzioni: lo stato dell’arte

Il phishing, come sappiamo, è una tecnica di attacco informatico finalizzata al furto di informazioni personali, come credenziali di accesso, numeri di carte di credito, dati bancari e altri dati confidenziali.

Inizialmente, il phishing si è manifestato sotto forma di e-mail di massa, spesso inviate a una vasta quantità di utenti, con l’intento di ingannarli e convincerli a cliccare su link fraudolenti o a rivelare dati sensibili.

Tuttavia, con l’evoluzione delle tecnologie, il phishing si è progressivamente adattato, diventando sempre più mirato e difficile da rilevare. Diverse varianti di phishing sono state sviluppate, tra cui lo spear phishing, whaling, smishing, vishing, clone phishing, phishing sui social media e il deepfake phishing.

L’e-mail di phishing classico è la forma più diffusa di attacco, che implica l’invio di e-mail fraudolente che imitano comunicazioni ufficiali provenienti da enti affidabili, come banche, aziende o istituzioni governative. Gli attaccanti cercano di creare un senso di urgenza, inducendo i destinatari a cliccare su link dannosi, scaricare allegati infetti o inserire dati personali in siti web falsificati. Sebbene gli errori grammaticali e stilistici possano essere indicatori di un attacco, le campagne di phishing evolute sono spesso ben progettate, rendendo difficile la distinzione tra e-mail legittime e fraudolente.

Lo spear phishing è una forma più mirata di phishing, in cui l’attaccante sceglie una specifica vittima o gruppo di vittime, raccogliendo informazioni dettagliate tramite tecniche di social engineering. Questi attacchi sono più difficili da rilevare, poiché i messaggi sono altamente personalizzati e, quindi, appaiono più credibili rispetto alle e-mail di massa.

Il whaling è una variante dello spear phishing che prende di mira le figure apicali all’interno di un’organizzazione o dirigenti di alto livello. L’obiettivo del whaling è ottenere dati sensibili o autorizzazioni finanziarie, come bonifici bancari o transazioni commerciali. Gli attacchi di whaling sono particolarmente insidiosi, poiché le vittime sono spesso figure con un elevato livello di accesso a risorse aziendali.

Altre varianti di phishing includono lo smishing (phishing tramite SMS), il vishing (phishing vocale) e il clone phishing, dove l’attaccante replica un’e-mail legittima modificando alcuni dettagli per ingannare la vittima. Anche il phishing sui social media e il deepfake phishing stanno guadagnando popolarità. Il deepfake phishing utilizza contenuti video o audio manipolati per imitare volti e voci di persone fidate, aumentando ulteriormente la credibilità degli attacchi.

Una minaccia tecnicamente sempre più sofisticata e diffusa

Il fenomeno del phishing presenta, infatti, una crescita continua in termini di sofisticazione tecnica e ampiezza di diffusione, favorita dall’adozione di tecniche avanzate di intelligenza artificiale.

Questi strumenti consentono la creazione di campagne altamente personalizzate, capaci di adattarsi in tempo reale alle contromisure difensive e di eludere efficacemente i tradizionali filtri basati su regole statiche. Parallelamente, gli attacchi si diffondono su una pluralità di canali — comprendenti e-mail, SMS, chiamate telefoniche e comunicazioni sui social media — aumentando significativamente la superficie di attacco e il livello di esposizione delle vittime potenziali.

Per quanto riguarda l’evoluzione tecnica e strategica, gli attacchi di phishing si stanno evolvendo sia in termini quantitativi che qualitativi. Gli attaccanti non si limitano più ad inviare e-mail ingannevoli generiche, ma impiegano tecniche polimorfiche, modificando costantemente gli elementi degli attacchi per eludere i sistemi di rilevamento convenzionali.

Inoltre, l’integrazione dell’intelligenza artificiale permette di sviluppare attacchi altamente mirati e personalizzati, costruiti su misura in base al profilo della vittima e capaci di evolvere dinamicamente per evadere i sistemi di difesa.

Come indicato in [B16], infatti: «l’intelligenza artificiale consente la creazione di messaggi SMS fraudolenti altamente personalizzati, rendendo più probabile il successo dell’inganno.

Gli algoritmi di Machine Learning possono analizzare i dati personali pubblicamente accessibili per generare messaggi che sembrano autentici e credibili.

Le tecnologie di sintesi vocale basate sull’AI permettono di imitare le voci di persone reali o di crearne voci convincenti, aumentando l’efficacia delle chiamate telefoniche fraudolenti. Inoltre, i chatbotAI possono automatizzare le chiamate fraudolente, ampliando la portata degli attacchi.

Gli strumenti di AI possono creare e-mail di phishing che imitano perfettamente le comunicazioni di istituzioni legittime e possono adattare le strategie in tempo reale per massimizzare l’efficacia e incrementarne l’impatto».

Inoltre, sempre come indicato in [B16]: «l’intelligenza artificiale può essere utilizzata per generare siti web contraffatti fedeli agli originali che imitano perfettamente quelli legittimi, sia dal punto di vista visivo che contenutistico. Per di più, l’AI può aiutare a posizionare questi siti clone nei primi risultati dei motori di ricerca, aumentando le probabilità che le vittime vi accedano.

Sebbene meno comune, l’uso dell’intelligenza artificiale può facilitare la raccolta di informazioni personali necessarie attraverso la profilazione delle vittime e l’analisi dei dati disponibili online. L’AI può aiutare a creare identità fittizie ma convincenti, aumentando la difficoltà per le vittime di distinguere tra comunicazioni genuine e fraudolente.

In sintesi, l’AI può rafforzare le tecniche di ingegneria sociale utilizzate nel furto di identità, aumentando sia l’efficacia delle truffe sia la difficoltà per le vittime di riconoscere contenuti ingannevoli».

Tecniche di rilevazione del phishing

Fino a pochi anni fa, la rilevazione del phishing si basava principalmente su firme statiche, filtri su URL e analisi delle intestazioni delle e-mail.

Questi approcci, seppur efficaci contro attacchi tradizionali, risultano oggi inadeguati di fronte a contenuti dinamici e sempre più sofisticati.

Le tecniche moderne sfruttano modelli di Machine Learning (ML) e Deep Learning (DL), in grado di individuare pattern complessi e anomalie anche in presenza di testi ben costruiti.

Questi modelli analizzano in modo adattivo segnali strutturali, semantici e comportamentali, superando i limiti delle regole statiche.

LLM nel phishing: creazione, rilevazione e vulnerabilità

I large language models come GPT-4 o LLaMA sono in grado di generare, comprendere, analizzare e classificare il linguaggio naturale, grazie all’addestramento su grandi volumi di dati. Il loro impatto sul phishing è duplice: da un lato amplificano la minaccia, dall’altro potenziano anche le difese.

I Large Language Models giocano un ruolo chiave sia nella creazione che nella rilevazione degli attacchi di phishing:

nella creazione di attacchi, gli LLM possono essere utilizzati dai cybercriminali per generare artificialmente e-mail di phishing estremamente convincenti e plausibili, migliorando la qualità grammaticale e la coerenza del testo, rendendo più difficile distinguere una e-mail legittima da una fraudolenta; questi modelli possono essere addestrati su enormi volumi di dati testuali per apprendere lo stile linguistico di comunicazioni legittime, producendo messaggi mirati, convincenti e persuasivi. I risultati dimostrano che gli attacchi basati su LLM sono significativamente più sofisticati e più difficili da rilevare rispetto ai tradizionali attacchi di phishing;
nella rilevazione, gli stessi LLM possono esseri impiegati per analizzare il linguaggio, il significato ed il contesto delle e-mail, classificare i messaggi grazie alla loro capacità di cogliere segnali semantici e relazioni contestuali ed identificare pattern sospetti; il fine-tuning consente di adattarli a task specifici come la detection del phishing.

Nonostante le potenzialità, l’uso degli LLM presenta anche rischi di sicurezza e vulnerabilità, come il rischio di prompt injection, data poisoning e model inversion.

Gli attacchi di prompt injection consistono nel manipolare l’input del modello per ottenere risposte dannose, mentre il data poisoning implica l’inserimento di dati maligni nei set di addestramento per compromettere l’affidabilità del modello; il model inversion consente di estrarre dati sensibili dal modello.

Il framework OWASP Top 10 for LLM Applications evidenzia queste e altre vulnerabilità, suggerendo strategie di mitigazione per un utilizzo sicuro.

Il phishing e i possibili sviluppi futuri

Il phishing evolve costantemente, sfruttando tecnologie come i Large Language Models per rendere gli attacchi più credibili e difficili da rilevare.

Sebbene le tecniche tradizionali offrano ancora un certo grado di protezione, è chiaro che approcci basati su machine learning, deep learning e LLM rappresentano oggi la strada più efficace per una detection accurata e tempestiva, soprattutto contro contenuti generati artificialmente.

Gli sviluppi futuri dovranno concentrarsi sull’ottimizzazione dell’interpretabilità dei modelli, sulla riduzione dei tempi di inferenza e sull’integrazione con piattaforme di threat intelligence per migliorare ulteriormente la protezione contro il phishing e garantire sistemi di difesa più efficienti e adattivi senza trascurare la trasparenza.

Modelli per l’identificazione del phishing: dataset e preprocessing

Per valutare la capacità dei modelli di classificare correttamente e-mail legittime e di phishing, anche in presenza di contenuti generati artificialmente, sono stati utilizzati due dataset distinti e bilanciati:

Human Generated E-mails: contiene 726 e-mail legittime e 726 e-mail di phishing, scritte da esseri umani, raccolte da fonti pubbliche, dataset open-source e report accademici ([B1][S1][S2]), previa verifica manuale e normalizzazione;
LLM Generated E-mails: contiene 1000 e-mail legittime e 1000 e-mail di phishing, create artificialmente tramite LLM; la generazione è avvenuta utilizzando prompt mirati con WormGPT, una versione di ChatGPT ottimizzata per soddisfare richieste malevole, come descritto in [B1].

Le e-mail sono etichettate rispettivamente come real_legit e real_phishing, llm_legit e llm_phishing, e coprono una vasta gamma di stili, contesti e obiettivi di attacco, per valutare la capacità dei modelli di generalizzare su testi sia realistici che sintetici.

Metodologia utilizzata

Per prima cosa si è proceduto alla raccolta e all’organizzazione dei dati, reperendo dataset multipli da diverse fonti pubbliche.

Poi si è proceduto al preprocessing dei dati prevedendo la pulizia dei dati, la verifica di consistenza e standardizzazione dei dataset, verifica dei valori mancanti ed eliminazione dei duplicati.

Successivamente, si è proceduto all’estrazione delle feature ritenute significative ai fini della detection delle e-mail di phishing, effettuando una analisi strutturale, semantica e contestuale delle e-mail.

A seguire, è stata condotta una analisi esplorativa dei dati (EDA) volta ad analizzare la distribuzione dei dati, individuare outlier, verificare la correlazione tra variabili.

Successivamente, è stato fatto un partizionamento dei dati in train e test nella percentuale del 70-30% e sono stati modellati e addestrati diversi modelli mediante lo sviluppo di algoritmi di detection.

Infine, sono state analizzate e confrontate le prestazioni ottenute.

Pulizia e sistemazione dei dati

L’attività di preprocessing ha previsto una serie di operazioni volte a migliorare e a garantire la qualità, la coerenza, la standardizzazione e la corretta strutturazione dei dati prima dell’addestramento.

Infatti, la qualità dei dati è fondamentale per assicurare il loro efficace utilizzo nelle successive fasi di analisi. In particolare, il suddetto processo ha incluso:

pulizia del body e del subject delle e-mail: rimozione di markup HTML, tag inutili e simboli non informativi, normalizzazione (minuscolo, stopword, spazi multipli);
deduplicazione: eliminazione di e-mail identiche o quasi identiche per evitare overfitting;
verifica di consistenza: controllo sulla coerenza tra etichette e contenuto testuale (es. assenza di contenuti nei campi obbligatori);
normalizzazione dei campi: standardizzazione di date, mittenti, destinatari, URL.

Analisi degli URL

Uno degli aspetti chiave del phishing è la presenza di link malevoli all’interno delle e-mail. Per questo motivo, è stata effettuata l’estrazione e l’analisi dettagliata degli URL contenuti nei messaggi:

estrazione automatica degli URL da ciascun body delle e-mail;
calcolo di feature strutturali: numero di URL, lunghezza minima/media/massima, conteggio di caratteri speciali presenti.

Feature Engineering

Per rappresentare efficacemente le caratteristiche delle e-mail, sono state estratte oltre 800 feature rilevanti ai fini della rilevazione del phishing, raggruppate in sei categorie principali:

strutturali e lessicali: informazioni legate allo stile e alla forma del testo (es. lunghezza, punteggiatura, uso di maiuscole, saluti generici, presenza di caratteri speciali, leggibilità, complessità, ripetitività, diversità, presenza di frasi imperative e di termini sospetti); questi elementi descrivono lo stile di scrittura e consentono di rilevare anomalie tipiche del phishing anche senza analisi semantica;
basate su URL: numero, lunghezza e tipologia di link, presenza di caratteri speciali, utilizzo di indirizzi IP nei link, similarità con domini noti e legittimi ed un punteggio di rischio di phishing calcolato con modelli LLM (es. RoBERTa-large); offrono una prospettiva esterna sul messaggio, utile a rilevare link malevoli o camuffati, che spesso sono il vero veicolo dell’attacco;
mittente e destinatario: analizzano i domini e-mail (es. presenza di numeri o domini gratuiti) e la loro classificazione in termini di affidabilità tramite LLM (es. BART, RoBERTa e DeBERTa); aiutano a valutare l’affidabilità del comunicante e ad identificare spoofing o anomalie nel formato dell’indirizzo; in tal modo, il sistema acquisisce un’ottima capacità di valutare l’affidabilità di chi ha spedito o ricevuto l’e-mail;
contestuali e semantiche: includono embedding del testo, ossia rappresentazioni vettoriali del contenuto del body della e-mail (tramite BERT e Sentence-BERT), analisi del sentimento (tramite RoBERTa e DeBERTa) per valutare l’intensità del sentimento ed il tono del messaggio, estrazione dei topic (tramite BERTopic e FlanT5) per identificare i principali temi; le feature semantiche e contestuali permettono di cogliere il significato, il tono e gli argomenti trattati, rilevando contenuti sospetti anche in messaggi formalmente corretti;
artificialità: misurano la naturalezza o l’artificialità del linguaggio tramite il perplexity score (calcolato con GPT-2), utile per distinguere testi generati artificialmente da quelli scritti da esseri umani; la perplexity misura quanto bene un modello di language modeling predice una sequenza di testo: valori bassi indicano che il testo è molto prevedibile per il modello (quindi simile ai dati su cui è stato addestrato), mentre valori alti indicano testo più inusuale o difficile da prevedere;
temporali: comprendono orario, giorno della settimana, mese e anno di invio, utili per individuare pattern anomali legati al momento dell’invio e a identificare campagne di phishing.

Integrazione e riduzione di feature numeriche e semantiche

Le feature ridondanti o poco informative sono state rimosse tramite tecniche di riduzione della dimensionalità, conservando solo le più predittive.

Pertanto, per gestire l’elevato numero di feature:

sono state rimosse variabili ridondanti, ossia quelle con alta correlazione e bassa varianza,
sono state selezionate le feature più rilevanti secondo l’importanza nei modelli,
è stata ottimizzata la complessità computazionale, riducendo il rischio di overfitting.

Il sottoinsieme finale mantiene elevata capacità predittiva, migliorando l’efficienza e l’interpretabilità.

Ciascun gruppo di feature fornisce una prospettiva diversa: alcune misurano proprietà quantitative (es. lunghezza del testo, numero di link), altre catturano segnali semantici più complessi (es. tono, contenuto, rischio percepito da un LLM).

L’integrazione di queste informazioni consente una classificazione multilivello. Ad esempio, un’e-mail con struttura normale può essere sospetta per tono o argomento, mentre un messaggio formalmente corretto può contenere link o mittenti anomali.

Questa combinazione riduce sia i falsi negativi che i falsi positivi. Le feature semantiche permettono al sistema di comprendere il contenuto anche in assenza di parole chiave note, mentre le feature numeriche forniscono indicatori misurabili e oggettivi.

L’approccio ibrido adottato si dimostra, quindi, efficace nel rafforzare la capacità di rilevare anche il phishing avanzato generato da LLM.

Modelli di classificazione

Per l’identificazione automatica del phishing è stato adottato un approccio comparativo che ha coinvolto tre categorie di modelli: machine learning (ML), deep learning (DL) e large language models (LLM).

I modelli sono stati addestrati su differenti insiemi di feature, utilizzando Python e librerie standard per la data science.

Formulazione del problema

Il problema della rilevazione del phishing è stato formalizzato come un task di classificazione binaria, in cui ogni e-mail deve essere assegnata a una delle due classi:

e-mail legittima (real_legit o llm_legit);
e-mail di phishing (real_phishing o llm_phishing).

I modelli sono stati addestrati separatamente sui due dataset, valutando le prestazioni su ciascun caso specifico e su scenari combinati.

È stato adottato un partizionamento 70/30 per la suddivisione in training/test set e sono stati considerati tre scenari distinti in base alle feature utilizzate:

Scenario 1: solo alcune feature numeriche e strutturali iniziali;
Scenario 2: tutte le feature numeriche combinate (numeriche e semantiche);
Scenario 3: solo il body della mail ripulito come input.

Questa triplice configurazione ha permesso di analizzare l’impatto delle diverse tipologie di feature sul comportamento e sulle performance dei modelli. I modelli sono stati addestrati sui dati di train e sono stati predetti i risultati sui dati di test.

Modelli di machine learning classico (ML)

I modelli ML classici sono stati addestrati utilizzando le feature numeriche e strutturali estratte dalle e-mail. Sono stati valutati:

Random Forest (RF): basato su aggregazione di più alberi decisionali, robusto e interpretabile;
XGBoost: basato su alberi decisionali e boosting, ha mostrato ottime performance, soprattutto nello scenario con tutte le feature combinate;
Support Vector Machine (SVM): modello di classificazione che separa le classi trovando l’iperpiano con il margine massimo tra le classi;
Logistic Regression (LR): modello lineare per classificazione binaria;
Naive Bayes (NB): modello probabilistico basato sul Teorema di Bayes, assume l’indipendenza tra le feature;
K-Nearest Neighbors (KNN): considera i K esempi di addestramento più vicini secondo una metrica di distanza.

Modelli di deep learning (DL)

Per catturare relazioni sequenziali nel testo delle e-mail, sono stati utilizzati i seguenti modelli di Deep Learning:

Reti Neurali Ricorrenti (RNN): con connessioni cicliche che permettono di memorizzare informazioni passate;
Long Short-Term Memory (LSTM): RNN avanzato che cattura le dipendenze a lungo termine nei dati sequenziali;
Reti Neurali Convoluzionali (CNN): progettate per l’elaborazione di immagini, ma adattabili a testi; ha mostrato buone prestazioni nella rilevazione di frasi sospette e costruzioni linguistiche ricorrenti.

Modelli basati su LLM e Transformer

I modelli basati su architettura Transformer rappresentano oggi lo stato dell’arte nell’elaborazione del linguaggio naturale (NLP).

Nel presente lavoro, sono stati impiegati sia per l’estrazione di feature semantiche (embedding, sentiment, topic), la classificazione dell’affidabilità del mittente e del destinatario, la valutazione del grado di artificialità del testo e del rischio di phishing negli URL, sia come modelli di classificazione fine-tuned.

In particolare:

BERT: consente una comprensione contestuale bidirezionale; è stato utilizzato per la classificazione del testo, la generazione di embedding dal corpo delle e-mail e la rilevazione del phishing;
RoBERTa: variante più robusta di BERT, con maggiore addestramento e ottimizzazione semantica; impiegato per l’analisi del sentimento, il phishing score degli URL e come classificatore diretto del testo;
DeBERTa: introduce una migliore rappresentazione del contesto linguistico, incrementando le prestazioni rispetto a BERT e RoBERTa; utilizzato per la sentiment analysis, la valutazione dell’affidabilità di mittente e destinatario e compiti di classificazione testuale;
DistilBERT, Electra, ALBERT e XLNet: impiegati come modelli di confronto sperimentale su diversi compiti di classificazione.

Metriche di valutazione

La valutazione dell’efficacia dei modelli di classificazione è stata condotta attraverso un insieme di metriche quantitative, comunemente utilizzate anche nel contesto della rilevazione di attacchi informatici.

Le metriche selezionate consentono di misurare in modo bilanciato le prestazioni, anche in presenza di possibili sbilanciamenti tra le classi.

Di seguito si descrivono le metriche adottate e il loro significato all’interno della presente analisi.

Matrice di confusione

La matrice di confusione è uno strumento fondamentale per visualizzare le prestazioni di un classificatore. In essa vengono riportate le seguenti quattro categorie:

True Positives (TP): e-mail di phishing correttamente classificate come phishing;
True Negatives (TN): e-mail legittime correttamente classificate come legittime;
False Positives (FP): e-mail legittime erroneamente classificate come phishing;
False Negatives (FN): e-mail di phishing erroneamente classificate come legittime.

La matrice è stata calcolata per ciascun modello in tutti gli scenari (Human-generated vs LLM-generated e per ciascun insieme di feature), permettendo un’analisi dettagliata delle tipologie di errore nella classificazione.

Metriche prestazionali (Accuracy, Precisione, Recall e F1 Score)

Per analizzare la capacità dei modelli di individuare correttamente le e-mail di phishing (classe positiva), sono state calcolate le seguenti metriche:

Accuratezza (Accuracy): misura la proporzione di previsioni corrette sul totale delle previsioni effettuate;
Precisione (Precision): misura la percentuale di e-mail classificate come phishing che sono effettivamente tali sul totale dei veri positivi e falsi positivi;
Sensibilità (o Recall): misura la percentuale di e-mail di phishing correttamente identificate tra tutte quelle realmente phishing;
F1-Score: media armonica tra precisione e recall, utile quando si vogliono bilanciare entrambi gli aspetti.

ROC curve e AUC (Area Under the Curve)

Per ciascun modello è stata generata la curva ROC (Receiver Operating Characteristic), che rappresenta la relazione tra il tasso di falsi positivi (FPR) e il tasso di positivi veri (TPR) del modello al variare della soglia di decisione, cioè la soglia di probabilità oltre il quale un’istanza viene classificata come positiva o negativa.

La AUC (Area Under the Curve) fornisce una misura aggregata della capacità del modello di discriminare tra le due classi.

Feature importance

Per i modelli interpretabili (es. Random Forest, XGBoost, Logistic Regression), è stata visualizzata l’importanza delle variabili (Feature Importance), al fine di comprendere quali variabili contribuiscano maggiormente alla classificazione.

Risultati sperimentali

In questa sezione vengono presentati i risultati ottenuti attraverso l’applicazione dei diversi modelli di classificazione, valutati sui due dataset distinti: e-mail generate da esseri umani (Human_generated_emails) ed e-mail generate da modelli LLM (LLM_generated_emails).

Ogni dataset è stato sottoposto a tre differenti approcci di addestramento:

Caso 1: utilizzo delle sole feature numeriche iniziali relative alla lunghezza del body, al numero di URL e al numero di caratteri speciali presenti nel body e negli URL;
Caso 2: utilizzo di tutte le feature numeriche, comprese quelle avanzate e semantiche (es. topic, embedding, sentiment, classificazione del sender e del receiver, URL phishing score, artificialità);
Caso 3: utilizzo della sola feature testuale del body ripulito.

I risultati sono stati valutati secondo le metriche descritte nella sezione precedente (accuracy, precision, recall, F1, AUC), con supporto grafico tramite matrici di confusione, curve ROC e feature importance.

Vengono di seguito discusse le differenze prestazionali tra i due dataset, l’efficacia delle feature semantiche e il comportamento dei modelli LLM.

Confronto tra Dataset Human e LLM generated e-mail

Sul dataset Human generated e-mails si sono ottenute performance eccellenti con ML classico e feature numeriche; mentre sul dataset LLM generated e-mails, solo l’uso di LLM e tutte le feature numeriche e semantiche combinate insieme consentono di ottenere performance comparabili con le prestazioni ottenute sul dataset Human generated e-mails.
Le e-mail generate da LLM richiedono modelli più sofisticati per essere classificate correttamente; i modelli di ML classici addestrati sulle feature numeriche iniziali non sono sufficienti per garantire le migliori prestazioni.

I risultati ottenuti nelle diverse configurazioni sperimentali mostrano un quadro chiaro: le e-mail generate da LLM introducono una nuova sfida per i sistemi di rilevazione automatici, in quanto risultano linguisticamente corrette, coerenti, e spesso indistinguibili da comunicazioni legittime.

Confronto tra modelli classici e avanzati

L’impiego congiunto di tecniche di ML, DL e LLM migliora significativamente la capacità di rilevazione delle e-mail di phishing:

I modelli classici di ML hanno raggiunto performance quasi ideali, specie sul dataset Human generated e-mails, ma presentano prestazioni leggermente inferiori su e-mail generate da LLM;
Le feature numeriche tradizionali risultano sufficienti e predittive per rilevare gran parte del phishing generato da esseri umani, ma insufficienti per i testi generati da LLM;
L’integrazione di feature avanzate semantiche e contestuali, come topic, sentiment, embedding e punteggi di artificialità, migliora la rilevazione di e-mail fraudolenti, anche per gli attacchi generati da AI; i modelli che integrano feature strutturali e semantiche risultano più robusti rispetto a quelli che si basano su un sottoinsieme limitato di tali variabili;
I modelli LLM basati su Transformer si sono dimostrati superiori nell’elaborazione del significato e nella classificazione basata sul testo e si sono rilevati particolarmente efficaci nell’analisi testuale del body ripulito e nel riconoscere anche gli attacchi di phishing generati artificialmente, grazie alla capacità di cogliere sfumature semantiche e relazioni contestuali;
Le e-mail generate da LLM risultano più sofisticate e potenzialmente più difficili da rilevare; tuttavia, l’uso di LLM per l’estrazione di feature semantiche, come embeddings, topic e analisi del sentimento, per l’analisi testuale e la detection delle e-mail di phishing, ha garantito risultati predittivi soddisfacenti;
Un approccio ibrido combinato – utilizzando LLM per l’estrazione semantica e modelli predittivi classici – è risultato il più efficace; l’integrazione di feature strutturali con punteggi di artificialità e rappresentazioni semantiche del contenuto testuale consente di migliorare significativamente la capacità dei modelli di discriminare tra e-mail di phishing e legittime; il miglioramento delle performance è stato osservato, infatti, nei modelli ibridi, ovvero quelli che combinano tutte le feature numeriche e semantiche in un’unica pipeline;
Le tecniche di explainability basate su feature importance e su SHAP (SHapley Additive exPlanations) hanno permesso una lettura interpretativa delle decisioni, fondamentale per l’adozione in contesti enterprise o istituzionali.

I risultati mostrano che la detection del phishing generato da AI richiede strumenti altrettanto intelligenti e semantici.

Explainable Artificial Intelligence (XAI) e interpretabilità dei modelli

Uno dei punti critici nell’adozione di modelli complessi è la spiegabilità delle decisioni. In contesti aziendali o istituzionali, è spesso necessario giustificare perché un’e-mail sia stata classificata come phishing.

Nel presente lavoro, sono stati utilizzati strumenti di explainability per rendere i modelli più interpretabili, come l’analisi dell’importanza delle feature e l’analisi basata su SHAP (SHapley Additive exPlanations), una delle metodologie XAI più diffuse e consolidate.

La Feature Importance (applicata a Random Forest, XGBoost e Regressione Logistica) ha permesso di identificare le variabili più rilevanti, come la presenza di topic sospetti o la classificazione del mittente. SHAP, applicato a una ventina di e-mail a XGBoost ed ai modelli LLM di tipo Transformer, ha permesso di interpretare le decisioni del modello, evidenziando in che misura ciascuna variabile ha impatto sulla classificazione finale.

I valori SHAP quantificano il contributo di ogni feature alla decisione finale del modello, consentendo di comprendere perché una specifica e-mail sia stata classificata come phishing o legittima.

In un caso esemplificativo, un’e-mail apparentemente legittima del tipo “Dear Customer, please update your payment details” ha mostrato un’elevata influenza positiva di termini come payment, customer e billing sui punteggi SHAP, spiegando così la classificazione come phishing.

Questi strumenti rappresentano un passo fondamentale verso sistemi di phishing detection affidabili e trasparenti, utilizzabili in contesti reali.

Negli ultimi anni, infatti, l’attenzione verso la spiegabilità dei modelli di intelligenza artificiale si è intensificata, soprattutto nei domini critici come la sicurezza informatica e la rilevazione del phishing. L’adozione di tecniche di Explainable Artificial Intelligence (XAI) consente di rendere i processi decisionali dei modelli di machine learning e deep learning trasparenti, interpretabili e verificabili, riducendo il rischio di bias e aumentando la fiducia degli utenti nei sistemi automatizzati.

Tali pratiche si collocano in linea con le recenti disposizioni del Regolamento (UE) 2024/1680 – AI Act, che introduce l’obbligo di garantire trasparenza, tracciabilità e spiegabilità per i sistemi di intelligenza artificiale ad alto rischio, tra cui figurano quelli impiegati nella sicurezza informatica per la protezione delle infrastrutture digitali critiche. In particolare, l’AI Act sottolinea la necessità di rendere comprensibili i processi decisionali automatizzati e di assicurare meccanismi di accountability e auditabilità dei modelli di AI.

L’integrazione della XAI nei sistemi di phishing detection non solo migliora la comprensione delle decisioni del modello, ma consente anche di rispettare i principi di etica, affidabilità e responsabilità, ponendo le basi per un’adozione sicura e conforme alle normative europee. L’approccio spiegabile rappresenta quindi un ponte tra accuratezza tecnica e trasparenza operativa, elemento cruciale per garantire la fiducia e l’accettazione dei sistemi di intelligenza artificiale nel dominio della cybersecurity.

Considerazioni operative

Dall’analisi emerge che i modelli devono adattarsi dinamicamente alle nuove forme di attacco, inclusi contenuti generati via AI; inoltre, è essenziale combinare la potenza dei LLM con strumenti di explainability, per garantire trasparenza e fiducia nell’operatività e nell’utilizzo degli stessi LLM.

Per di più, i sistemi di rilevazione devono essere scalabili ed efficienti, per operare anche in ambienti real-time.

In definitiva, la difesa contro il phishing moderno non può basarsi solo su regole statiche o blacklist: richiede modelli intelligenti, adattivi e comprensibili, capaci di analizzare il contenuto delle e-mail in modo profondo e contestuale, senza trascurare trasparenza e tracciabilità.

Conclusioni e sviluppi futuri

Questo lavoro ha affrontato in modo sistematico e approfondito il problema della rilevazione delle e-mail di phishing, con un focus particolare su un aspetto sempre più rilevante: la generazione automatica di e-mail fraudolente tramite modelli linguistici di grandi dimensioni (LLM).

In un panorama in cui la generazione di contenuti con l’intelligenza artificiale è sempre più accessibile, la presente ricerca ha posto l’accento sulla necessità di sistemi di difesa intelligenti, in grado di riconoscere anche testi generati con modelli linguistici di grandi dimensioni ben costruiti e convincenti.

L’integrazione di tecniche di Machine Learning, Deep Learning e LLM ha dimostrato di migliorare significativamente la capacità di rilevare e-mail di phishing, anche quando generate da modelli linguistici di grandi dimensioni avanzati.

I risultati evidenziano come le feature semantiche e contestuali, unite a quelle strutturali e numeriche, aumentino la sensibilità e l’affidabilità dei modelli di classificazione. Inoltre, l’impiego di tecniche di Explainable AI (XAI), tramite metodi come Feature Importance e SHAP, ha reso il processo di classificazione più trasparente e verificabile, favorendo la fiducia nei sistemi di rilevazione automatica.

Questo approccio risponde ai requisiti imposti dal Regolamento (UE) 2024/1680 (AI Act), che promuove l’uso responsabile, trasparente, tracciabile e comprensibile dell’intelligenza artificiale.

Principali risultati ottenuti

L’analisi comparativa tra e-mail umane e generate da LLM ha mostrato che:

I modelli di Machine Learning raggiungono performance quasi ideali sulle e-mail reali, ma faticano maggiormente su quelle artificiali;
Le feature semantiche (embedding, topic, analisi del sentimento), la classificazione dell’affidabilità del mittente e del destinatario e l’indice di artificialità sono essenziali per rilevare attacchi generati da AI;
Gli approcci ibridi, che integrano feature numeriche e semantiche, risultano i più efficaci;
I modelli Transformer si distinguono nella comprensione del contesto e nella detection di phishing generato da LLM;
Le tecniche di explainability garantiscono interpretabilità e favoriscono l’adozione in contesti enterprise.

Di seguito i principali contributi del presente lavoro:

È stato sviluppato un framework multilivello che integra feature numeriche, semantiche e strutturali;
Sono stati definiti due dataset bilanciati e realistici, di cui uno basato su e-mail reali generate da esseri umani e l’altro basato su e-mail generate da LLM, entrambi comprendenti sia messaggi legittimi che fraudolenti;
Sono state ingegnerizzate ed estratte oltre 800 feature multilivello, incluse analisi degli URL, del corpo testuale, sender/receiver, embedding, sentiment e topic, rilevanti ai fini della detection del phishing;
È stato sviluppato un sistema ibrido comparativo tra modelli tradizionali e modelli neurali, testato in più scenari e dataset;
È stato introdotto il Perplexity Score ed un indice composito di artificialità, per misurare la naturalezza e la prevedibilità apparente del testo;
Sono stati utilizzati gli LLM sia come strumenti difensivi (analisi, estrazione di feature e classificazione) che come base per il dataset generativo di e-mail di phishing.

Conclusioni finali

L’adozione di un framework multilivello come quello proposto consente alle organizzazioni di:

Rafforzare i sistemi tradizionali di e-mail security attraverso l’integrazione di modelli linguistici di grandi dimensioni, avanzati, dinamici e costantemente aggiornabili;
Contrastare in modo proattivo le minacce derivanti dall’impiego offensivo dei Large Language Models (LLM);
Garantire un livello superiore di protezione, sfruttando le potenzialità degli LLM, senza compromettere trasparenza, tracciabilità e comprensibilità dei processi decisionali.

In conclusione, la rilevazione del phishing nell’era dell’intelligenza artificiale richiede un vero e proprio cambio di paradigma: il passaggio da filtri basati su regole statiche a modelli adattivi e semantici, capaci di analizzare in profondità il contenuto ed il contesto delle e-mail.

Il lavoro presentato si inserisce in questa prospettiva, ponendo le basi per un sistema di difesa efficace, spiegabile e resiliente.

Nel contesto attuale, in cui i confini tra umano e artificiale diventano sempre più sfumati, solo un approccio difensivo adattivo e semantico, in grado di adattarsi continuamente all’evolversi delle nuove tecniche di phishing, e, allo stesso tempo, resiliente, trasparente, spiegabile, tracciabile e supervisionato dall’uomo, può garantire una protezione efficace anche contro le nuove minacce emergenti.

Sviluppi futuri

In linea con l’evoluzione del phishing e dell’uso di AI in contesto malevolo, si propongono i seguenti sviluppi futuri:

Online learning e apprendimento continuo: l’adozione di approcci di apprendimento incrementale per adattarsi all’evoluzione delle tecniche di phishing;
Integrazione con threat intelligence: l’integrazione di indicatori di compromissione (IoC) con fonti di threat intelligence per un arricchimento costante delle feature disponibili in fase di classificazione;
Explainability avanzata: il miglioramento dell’interpretabilità dei modelli tramite tecniche di Explainable AI, Logging e monitoraggio continuo, a garanzia di una maggiore trasparenza, affidabilità e tracciabilità;
L’ottimizzazione della pipeline con la riduzione dei tempi di inferenza per l’impiego in ambienti real-time;
L’estensione multilingua del sistema mediante l’impiego di e-mail scritte in lingue diverse, sfruttando modelli LLM multilingua;
L’adozione di tecniche di data augmentation per potenziare la robustezza dei modelli sui dati sintetici;
Il miglioramento della robustezza contro attacchi evasivi tramite ensemble e training avversariale;
l’utilizzo degli LLM per generare e-mail di phishing realistiche ai fini formativi, rafforzando la consapevolezza degli utenti.

APPENDICE: risultati ottenuti nello studio Download

Bibliografia

[B1] David versus Goliath: Can Machine Learning Detect LLM-Generated Text? A Case Study in the Detection of Phishing Emails. Francesco Greco, Giuseppe Desolda, Andrea Espositoand Alessandro Carelli

[B2] J. Hazell, Spear phishing with large language models, 2023.

[B3] V. S. Sadasivan, A. Kumar, S. Balasubramanian, W. Wang, S. Feizi, Can ai-generated text be reliably detected?, 2023.

[B4] A survey on large language model (LLM) security and privacy: The Good, The Bad, and The Ugly. Yifan Yao, Jinhao Duan, Kaidi Xu, Yuanfang Cai, Zhibo Sun, Yue Zhang. Department of Computer Science, Drexel University, Philadelphia, PA 19104, USA

[B5] Targeted Phishing Campaigns using Large Scale Language Models. Rabimba Karanjai. Department of Computer Science -University of Houston, United States

[B6] Exploiting Programmatic Behavior of LLMs: Dual-Use Through Standard Security Attacks. Daniel Kang, Xuechen Li, Ion Stoica Carlos Guestrin, Matei Zaharia,Tatsunori Hashimoto

[B7] Large Language Models can be used to effectively scale Spear Phishing Campaigns. Julian Hazell. Oxford Internet Institute, University of Oxford Centre for the Governance of AI. May 12, 2023

[B8] Spear Phishing with Large Language Models. Julian Hazell. Oxford Internet Institute, University of Oxford Centre for the Governance of AI. December 14, 2023

[B9] An Improved Transformer-based Model for Detecting Phishing, Spam, and Ham – A Large Language Model Approach. Suhaima Jamal, Hayden Wimmer, Iqbal H. Sarker

[B10] Detecting Scams Using Large Language Models. LIMING JIANG, Harbin University of Science and Technology, China. arXiv:2402.03147v1 [cs.CR] 5 Feb 2024

[B11] ChatSpamDetector: Leveraging Large Language Models for Effective Phishing Email Detection. Takashi Koide, Naoki Fukushi, Hiroki Nakano, and Daiki Chiba. NTT Security Holdings, Tokyo, Japan. arXiv:2402.18093v1 [cs.CR] 28 Feb 2024. arXiv:2402.18093v2 [cs.CR] 23 Aug 2024

[B12] Curated Datasets and Feature Analysis for Phishing Email Detection with Machine Learning. Arifa I. Champa, Md Fazle Rabbi, Minhaz F. Zibran. Department of Computer Science, Idaho State University Pocatello, ID, USA. 2024 IEEE 3rd International Conference on Computing and Machine Intelligence (ICMI) | 979-8-3503-7297-7/24/$31.00 ©2024 IEEE | DOI: 10.1109/ICMI60790.2024.10585821

[B13] Devising and detecting phishing emails using large language models. Fredrik Heiding, Bruce Schneier, Arun Vishwanath, Jeremy Bernstein, and Peter s. Park. Harvard University, Avant Research Group, Massachusetts Institute of Technology

[B14] From Chatbots to Phishbots? Phishing Scam Generation in Commercial Large Language Models. Sayak Saha Roy, Poojitha Thota, Krishna Vamsi Naragam, Shirin Nilizadeh. The University of Texas at Arlington. 2024 IEEE Symposium on Security and Privacy (SP) | 979-8-3503-3130-1/24/$31.00 ©2024 IEEE | DOI: 10.1109/SP54263.2024.00182

[B15] Spam-T5: Benchmarking Large Language Models for Few-Shot Email Spam Detection. Maxime Labonne and Sean Moran. JPMorgan Chase. arXiv:2304.01238v3 [cs.CL] 7 May 2023

[B16] Rapporto Clusit sulla cybersecurity in Italia e nel mondo 2025. Security Summit.

[B17] OWASP TOP TEN for LLM Application 2025. Version 2025. November 18, 2024.