L’allarme

Quando i sistemi di intelligenza artificiale possono collassare



Indirizzo copiato

La possibilità di degradazione esiste e le conseguenze potrebbero impattare su più fronti: affidabilità dei dati, sicurezza e modelli economici. Gli esperti: attenti, in alcuni casi si rischia di non poter più tornare indietro

Pubblicato il 17 dic 2025

Alessia Valentini

Giornalista, Cybersecurity Consultant e Advisor



intelligenza articifiale sicurezza cittadini curation

L’onda di entusiasmo per i sistemi di intelligenza artificiale generativa (i cosiddetti Large Language Model,LLM) è ancora nel pieno della sua fase crescente, tanto che le aziende potrebbero ricorrervi a piene mani spinte da messaggi di marketing e da report che ne evidenziano caratteristiche e peculiarità, con costi che sembrano suggerire maggior convenienza rispetto alla forza lavoro umana.

Premesso che, come sempre, non è tutto oro quello che luccica, le AI hanno delle significative limitazioni rispetto alle prerogative umane. Quest’ultime, infatti, non sono immediatamente sostituibili se non in pochi casi ristretti, ma sembra esserci di più: si chiama “collasso dei sistemi di AI” ed è un significativo e progressivo problema segnalato fin dal 2023 da diversi gruppi di ricercatori e rivalutato e misurato dai ricercatori Apple qualche mese fa (fonte: The Register).

Le conseguenze di sistemi digitali di AI soggetti a collasso potrebbero avere impatti critici in ambito sicurezza e privacy.

I rischi di degradazione e di competizione sul mercato

Con la definizione “Collasso dei sistemi di AI” si indica il fenomeno in cui i modelli di apprendimento automatico (machine learning) si degradano gradualmente a causa di errori derivanti da un addestramento non accurato dei sistemi di AI, che appaiono quindi, contaminati.

I dati puliti creati da esseri umani, che fino a qualche tempo fa hanno costituito la fonte preferenziale dell’apprendimento, sono stati sostituiti o aggiunti da tanti, anche troppi strati di contenuti sintetici.

Questo ha reso progressivamente complesso l’addestramento di nuovi modelli e ha causato la comparsa di errori ricorsivi.

Il problema non è solo relativo alla qualità del dato per l’apprendimento: dato che dovrebbe essere pulito, anonimizzato perché sia fruibile per l’apprendimento la prima volta.

Il problema descritto in vari paper di ricerca (sofferenza degli LLM su loop di autoaddestramento, declino della diversità linguistica, maledizione della ricorsione) è anche relativo al riuso continuo di dati sporchi: insiemi di dati (chiamato corpus) usati per l’addestramento di sistemi di AI che sono contaminati da dati sintetici prodotti da altre AI.

Oppure corpus che si auto-alimentano di dati auto-prodotti. E così via ciclicamente. Il tutto ha delle conseguenze catastrofiche e descritte come “Disturbo dell’Autofagia dei Modelli” (Model Autophagy Disorder – MAD).

Nello studio che tratta del MAD si evidenzia come “in tutti gli scenari esaminati, senza un numero sufficiente di dati reali aggiornati ad ogni generazione di ciclo, che riprende in ingresso i propri dati (autofago n.d.r.), i futuri modelli generativi sono destinati a vedere la loro qualità (precisione) o diversità (richiamo/varianza) diminuire progressivamente”. Questa condizione è stata chiamata “Modello generativo autoconsumante impazzito”, facendo un’analogia con la malattia della mucca pazza.

Il problema è stato ulteriormente esaminato tanto che è stata coniata la definizione Collasso del modello di AI da Ilia Shumailov ed altri autori che hanno descritto due fasi specifiche del degrado: collasso precoce del modello e collasso tardivo del modello.

Nel primo caso il modello inizia a perdere informazioni influenzando dati minori, tanto che come fenomeno non sembra nemmeno osservabile e addirittura le prestazioni complessive possono sembrare migliorate; nel secondo caso, il collasso tardivo, il modello perde una parte significativa delle sue prestazioni, confondendo i concetti e perdendo gran parte della sua caratteristica di saper variare nelle risposte.

Si assiste quindi ad una tendenza allarmante che potrebbe minare le fondamenta stesse dell’affidabilità e dell’efficacia dei sistemi LLM alla base dell’AI generativa: il rischio di cadere in una pericolosa spirale di propagazione degli errori e amplificazione del rumore.

Questo ciclo auto-perpetuante di scarti per così dire (in gergo indicato come garbage in, garbage out), non solo riduce l’efficacia del sistema, ma erode fondamentalmente la capacità dell’IA di imitare la comprensione e l’accuratezza umane.

Altri test recenti effettuati dai ricercatori Apple sul collasso del modello in modelli di ragionamento di grandi dimensioni quali ad esempio o1/o3 di OpenAI, DeepSeek-R1, Claude 3.7 Sonnet Thinking e Gemini Thinking sembrano evidenziare come la capacità di “pensare” dei cosiddetti “grandi modelli di ragionamento” crolli quando le cose si complicano, tanto da indicare che il potenziale intellettuale di tali modelli sia finora piuttosto limitato.

Il metodo usato per i test è stato criticato da altri ricercatori, ma la diatriba è tutt’ora in corso e rappresenta un dubbio lecito sulla piena capacità di espressione, di cui è almeno necessario prendere consapevolezza.

I rischi di collasso per i modelli di AI dedicati alla sicurezza digitale

Se il problema è strutturale, allora affligge anche i sistemi deputati al supporto per l’analisi, la deduzione e la gestione di aspetti di sicurezza digitale.

In particolare, la causa dell’afflusso di contenuti sintetici e del ‘collasso del modello’ o peggio del ‘disturbo dell’autofagia del modello (MAD)’, potrebbero verificarsi difficoltà di individuazione di incidenti (detection) e / o di analisi per quei sistemi di intelligenza artificiale dedicati alla sicurezza.

Questi, infatti, potrebbero perdere progressivamente la capacità di comprendere i dati reali su cui sono chiamati a fare prevenzione e reazione. Le conseguenze sarebbero comprensibilmente disastrose.

Fra queste vi sono:

  • perdita delle sfumature di significato (man mano che i modelli si alimentano dei propri output, le sottili distinzioni e la comprensione contestuale iniziano a svanire);
  • riduzione delle cosiddette diversità (l’effetto camera d’eco porta a un restringimento delle prospettive e degli output);
  • pregiudizi amplificati (eventuali pregiudizi/bias esistenti nei dati vengono amplificati attraverso l’elaborazione ripetuta);
  • output insensati (nei casi più gravi, i modelli possono generare contenuti completamente slegati dalla realtà o dalla logica umana).

Tutti questi elementi potrebbero rendere meno capaci tutti quei sistemi deputati alla sorveglianza di sicurezza rispetto alla comprensione, deduzione e trattamento di situazioni di crisi (attacchi o incidenti).

Nello specifico si potrebbero generare problemi di integrità dei dati e deviazione tra il modello e la realtà (incapacità di detection accurata), falsi positivi o falsi negativi nel rilevamento minacce, imprecise valutazioni di rischio, processi decisionali compromessi, maggiori vulnerabilità (i modelli collassati possono diventare più vulnerabili agli attacchi avversari o le loro performance potrebbero degradare fino a lasciarli immobili).

Quindi, per tutti i sopraccitati problemi, il collasso del modello presenta implicazioni di vasta portata sia per la sicurezza stessa del sistema di IA (che diventa vulnerabile ad attacchi) e sia per l’affidabilità delle sue funzioni.

Rischi di competizione alterata nel mercato

Ma sembra esserci anche di più di questo ed è stato analizzato da un altro gruppo di ricercatori a dicembre 2024. Il gruppo si è concentrato sugli aspetti legali dell’addestramento delle AI.

In particolare, i ricercatori sono partiti dal problema di molti produttori di sistemi di AI che, non potendo considerare modelli alimentati dai propri output perché producono informazioni inaffidabili, devono accedere a fonti di dati pulite.

I ricercatori hanno verificato che le fonti di dati pulite sono state accedute in grande quantità e modalità dai primi produttori di sistemi di AI e non sempre con metodi di raccolta rispettosi e legalmente autorizzati. Questo elemento ha dato loro un accesso privilegiato e un vantaggio competitivo perché erano i primi ad entrare sul mercato.

Maurice Chiodo, uno degli autori della ricerca, ha affermato: “La nostra preoccupazione, e il motivo per cui solleviamo la questione ora, è che esiste un certo grado di irreversibilità. Se si sono contaminati completamente tutti i set e gli ambienti dei dati, è molto difficile tornare indietro, la pulizia sarà proibitiva, probabilmente impossibile”.

Quindi il rischio segnalato da questi ricercatori dal punto di vista commerciale/legale è che le startup di intelligenza artificiale troveranno più difficile e costoso ottenere legalmente dati di addestramento puliti e di qualità.

I motivi riguardano i divieti espliciti di alcune organizzazioni di usare i loro dati per apprendimento di AI (es. emittenti TV, Giornali), la possibilità di accedere a insiemi di dati solo a pagamento, oppure la disponibilità di insiemi di dati gratuiti ma provenienti da insiemi di dati generativi sintetici di grande quantità.

Di conseguenza si potrebbe verificare la creazione di blocchi di dati di addestramento che possono rendere i nuovi modelli più vulnerabili al collasso, mentre si rafforza il potere degli attori già dominanti.

Il risultato finale è una posizione di competizione commerciale completamente sbilanciata fra i primi produttori e quelli odierni.

Collasso del modello uomo-agente AI

C’è anche da considerare un altro aspetto a lungo termine. Solitamente il livello della conoscenza delle singole persone costituito dal loro proprio bagaglio di sapere.

Studiosi ed esperti confermano il progressivo avanzamento di un debito cognitivo dei singoli individui causato da ricorso massivo alle AI, perché sembrerebbe che si smetta di pensare e ci limiti a usare le risposte dai sistemi e agenti di AI.

Ma allora, l’interazione continua fra gli individui che accumulano debiti cognitivi e un agente di AI, che a sua volta risponde sulla base di insiemi di dati estesi ma finiti, non può che generare un progressivo ulteriore e vicendevole abbassamento della conoscenza e della capacità di generare concetti nuovi.

Questo significa che con il passare del tempo si potrebbe generare un progressivo e reciproco impoverimento espressivo nella coppia persona-Agente di AI. E da qui si arriva a replicare il modello del collasso, ma questa volta coinvolgendo anche le persone!

Soluzioni possibili ma non immediate

Naturalmente per risolvere il problema sembra necessario ripulire gli insiemi di dati (corpus) di apprendimento distinguendo quelli puliti da quelli contaminati e sintetici, ma cosa mettere al loro posto?

E’ stata presa in considerazione la possibilità di utilizzare i contenuti di comunicazioni umane per alimentare e rinnovare i corpus di dati, ma è chiaro come questa soluzione ponga problemi di scelta su quali e quanti dati considerare, tenendo conto di privacy e sicurezza delle persone, con implicazioni normative molto importanti.

Questo è uno dei motivi che hanno portato l’Europa ad essere uno dei primi paesi a definire delle regole di base contenuto nell’AI act. Comunque, per nutrire i corpus di AI di nuovi dati sono stati proposte alcune soluzioni:

  • preservare e riaddestrare periodicamente i modelli su dataset puliti pre-IA e su nuovi contenuti generati da umani;
  • prevedere un processo periodico di ri-addestramento;
  • implementare solidi processi di monitoraggio e valutazione qualitativa;
  • stabilire indici di soglia della valutazione che consentano il rilevamento precoce del degrado del modello.

In aggiunta, si dovrebbe intervenire sul possibile problema del collasso nel modello persona-Agente di AI, su cui dovrebbe essere posta attenzione e delle contromisure. Si potrebbero considerare:

  • mezzi e metodi di mantenimento di attività della formazione umana mediante studio e approfondimento senza coinvolgere sistemi di AI
  • modalità per incrementare e allenare la capacità cognitiva umana di produrre nuovo sapere: alimentare la ricerca applicata in cui si sviluppano e dimostrano nuove teorie.
  • aumento dei settori di ricerca affinché siano attivi e prolifici di nuove e creative idee originali in cui le AI siano solo sofisticati strumenti di accompagnamento e servizio.

Quale che sarà, la soluzione finale non sarà a costo zero, perché esiste un costo di mantenimento degli insiemi di dati delle AI per alimentarli di nuovi concetti e di nuovi dati.

Il processo di mantenimento appena descritto assomiglia molto al processo di formazione continua che le risorse umane effettuano per essere aggiornate al mutevole contesto lavorativo e su cui attualmente le aziende sembrano voler risparmiare.

Si assisterebbe quindi ad un paradosso: il ricorso ai sistemi di AI per sostituire la forza lavoro umana considerata come costo, ritrovandosi a spendere sia per l’acquisto di sistemi di AI sia per il loro aggiornamento con inserimento (ingestion) di nuovi dati.

Anche in questo caso la soluzione non sembra immediata e si rende assolutamente necessario non solo trovarla, ma anche renderla sostenibile nel lungo periodo.

 

 

Articoli correlati