Digital Sentinel #7

Marzo 2026

Dati velenosi, modelli corrotti: la nuova minaccia che inquina "il sapere"

L'intelligenza artificiale non è una costruzione astratta fatta di solo codice; è, al contrario, un organismo che respira e si evolve attraverso i dati. Con l'affermarsi dello standard ISO/IEC 42001, siamo entrati in una fase di maturità in cui la gestione dei sistemi AI non può più prescindere da una responsabilità diretta sulla accuratezza e integrità delle informazioni. Chi oggi governa queste tecnologie deve farsi garante di un principio fondamentale: i dati non devono essere solo disponibili, ma devono essere protetti da corruzione, manipolazione o esposizioni indebite.

Il rischio del cosiddetto Data Poisoning, ovvero l'inserimento deliberato di informazioni false o malevole nei circuiti di apprendimento, non è più una curiosità per ricercatori, ma un punto di discussione per tutti i professionisti della sicurezza informatica. Un'intelligenza artificiale costruita su fondamenta incerte o inquinate smette di essere una risorsa per trasformarsi, silenziosamente, in uno strumento di attacco rivolto contro l'organizzazione stessa. Per questo motivo, la cybersecurity del prossimo decennio non si fermerà alla protezione del perimetro, ma dovrà necessariamente partire dai dataset, assicurando che siano coerenti, tracciabili e governati end-to-end.

Quando la minaccia non entra “nel sistema”, ma compromette “il significato”

Per anni abbiamo concentrato i nostri sforzi difensivi sui confini classici dell'informatica. Abbiamo protetto le reti, messo in sicurezza le identità digitali, messo in sicurezza i dispositivi e abbiamo progressivamente iniziato a strutturare presìdi lungo la catena di fornitura del software. Con l'intelligenza artificiale, tuttavia, il confine della difesa si sposta in un territorio più sfumato e complesso, dove l'oggetto da proteggere non è più solo l'accesso al sistema, ma ciò che il modello impara e interiorizza.

Il Data Poisoning colpisce precisamente in questo punto cieco, agendo durante la fase di addestramento o nei momenti di aggiornamento continuo. L'attaccante non distrugge il sistema, ma ne altera il "senso": modifica i dati o le etichette, oppure introduce schemi comportamentali che il modello assimila e conserva in uno stato latente, pronti a riattivarsi in condizioni specifiche. Secondo la tassonomia del NIST (National Institute of Standards and Technology), questi interventi rappresentano una violazione diretta dell'integrità e dell'affidabilità dei sistemi di apprendimento, introducendo una fragilità che sfugge ai radar convenzionali.

Questa minaccia non ha il carattere rumoroso e immediato di un attacco ransomware. Un modello compromesso può tranquillamente superare tutti i test di performance standard e apparire perfettamente integro agli occhi dei supervisori. Tuttavia, in presenza di un innesco specifico studiato dall'attaccante, il sistema può iniziare a produrre risposte distorte. Si tratta di una manovra lenta, che mira a degradare la fiducia o a ottenere vantaggi tattici nel lungo periodo.

Tre varianti, un'unica logica: spostare il comportamento senza farsi vedere

Chi tenta di corrompere un sistema AI spesso agisce dove il controllo è tradizionalmente più debole e la visibilità scarseggia: nei dati grezzi di addestramento, nei contenuti usati per il fine-tuning o nelle fonti che alimentano la conoscenza operativa del sistema. Per comprendere la portata di questa sfida, occorre distinguere tre dinamiche fondamentali che agiscono su punti diversi della filiera produttiva dell'AI.

La prima dinamica riguarda l'alterazione delle etichette, nota in letteratura come label flipping. In un sistema di apprendimento supervisionato, l'AI impara a classificare la realtà attraverso coppie di esempi e risposte corrette. Se un attore malevolo riesce a manomettere una porzione di queste etichette — anche senza modificare i dati grezzi — il modello finirà per apprendere una lezione distorta. Con il tempo, ciò che il sistema considera “vero” scivola verso una direzione falsata, ricalibrando i confini tra le categorie su presupposti manipolati.

Diverso è il caso della data injection, in cui non si alterano le etichette ma si introducono nel processo di addestramento o aggiornamento contenuti costruiti ad hoc. Qui l'obiettivo non è cambiare la “risposta corretta”, ma influenzare ciò che il sistema apprende inserendo esempi o documenti apparentemente legittimi, che però spostano progressivamente il comportamento del modello.

Andando più in profondità, incontriamo la tecnica della backdoor. In questo scenario, il modello mantiene prestazioni eccellenti nella quasi totalità dei casi, ma incorpora al suo interno un meccanismo di reazione anomala che si attiva solo di fronte a un particolare "trigger" (un dettaglio in un'immagine o una specifica sequenza di parole). È una tecnica che separa la percezione dalla realtà: il modello sembra affidabile nell'uso quotidiano, ma conserva una condizione speciale in cui devia dal comportamento previsto.

Esiste infine una terza forma di contaminazione che sfrutta la natura dinamica dei moderni sistemi AI, i quali assorbono continuamente nuove informazioni. In questo caso, l'attaccante non deve necessariamente compromettere il dataset ufficiale di partenza; gli basta infilarsi nella pipeline di aggiornamento. Un contenuto malevolo inserito in una base di conoscenza aziendale o un flusso di feedback manipolato possono diventare veicoli di infezione. La contaminazione si presenta come un aggiornamento legittimo e scivola attraverso i controlli senza sollevare sospetti.

Dalla teoria alla pratica. Ecco perché oggi il rischio è operativo

Questi scenari non appartengono alla teoria, ma sono già operativi. Spesso il Data Poisoning non viene identificato con il suo nome tecnico, ma si manifesta come un sistema che "impara cose sbagliate" o che viene influenzato da fonti manipolate. Un caso interessante è quello di Tay, il chatbot di Microsoft del 2016 che, privo di filtri adeguati, assorbì in poche ore i contenuti tossici provenienti dagli utenti di Twitter, trasformandoli nel proprio linguaggio quotidiano.

Oggi il rischio è ancora più sottile e riguarda i dataset prelevati dal web. Molte organizzazioni utilizzano liste di link per scaricare contenuti massivi. Se i contenuti dietro quei link cambiano, o se un dominio scade e viene riacquistato da un malintenzionato, è possibile sostituire i dati di addestramento senza mai toccare l'infrastruttura della vittima.

Tuttavia, il salto di qualità in termini di minaccia è rappresentato dal caso PoisonGPT. Nel 2023, i ricercatori di Mithril Security hanno dimostrato quanto sia fragile la catena di fiducia che lega gli sviluppatori alle piattaforme di condivisione dei modelli. Con una manovra molto complessa, hanno preso un modello linguistico open source molto diffuso, ne hanno modificato i pesi (ovvero le connessioni interne che determinano le risposte) per iniettare una specifica notizia falsa, e lo hanno ripubblicato su una nota piattaforma di settore sotto un nome quasi identico all'originale.

Il risultato è stato inquietante: il modello "avvelenato" continuava a rispondere correttamente a milioni di domande comuni, apparendo del tutto integro, ma forniva sistematicamente la risposta falsa quando interrogato su quello specifico tema. Questo esperimento ha evidenziato che chi integra un modello pre-addestrato nella propria architettura, fidandosi solo della reputazione della piattaforma o di un nome familiare, sta portando in casa propria un problema invisibile. La manomissione non resta confinata nel laboratorio di chi l'ha creata, ma può propagarsi con ogni riutilizzo. L'impatto dipende dal tipo di integrazione: fine-tuning successivo, adattamento a task specifici e controlli a valle possono attenuare - o al contrario amplificare - l'effetto. Se il modello viene scalato senza verifiche approfondite, una distorsione mirata può attraversare intere filiere tecnologiche e raggiungere migliaia di utenti.

Con ISO/IEC 42001 si passa dalla governance alla resilienza operativa dell'AI

È in questo contesto che lo standard ISO/IEC 42001 assume un valore che va ben oltre il semplice adempimento normativo. Esso segna il passaggio definitivo dell'AI da componente sperimentale a sistema industriale critico, da gestire con ruoli, regole e verifiche continue. Introduce un modello di governo strutturato basato su responsabilità chiare e controlli ripetibili.

Applicato ai dati e ai modelli, questo approccio rende obbligatorio ciò che per troppo tempo è rimasto implicito: ci impone di chiederci chi sia il responsabile ultimo dei dataset, chi garantisca la provenienza delle fonti e quali siano le evidenze documentali che tracciano ogni modifica nella pipeline. Il punto non è solo aggiungere un controllo tecnico, ma poter dimostrare che quel controllo esiste, lascia traccia ed è replicabile.

L'obiettivo di questa nuova governance non è l'illusoria prevenzione totale, ma la costruzione di una vera resilienza operativa. Il Data Poisoning deve essere trattato come un tema prioritario di sicurezza e di risposta agli incidenti. Essere resilienti significa avere la capacità di accorgersi rapidamente di una deriva e possedere gli strumenti per tornare in tempi brevi a uno stato noto e sicuro. Solo attraverso una tracciabilità rigorosa dei dati e degli artefatti potremo davvero fidarci dei sistemi che stiamo costruendo.

Iscriviti alla newsletter

Rimani aggiornato sulle nuove frontiere della sicurezza informatica.

Iscriviti ora

Digital Sentinel #7

Marzo 2026

Dati velenosi, modelli corrotti: la nuova minaccia che inquina "il sapere"