Il National Institute of Standards and Technology (NIST) ha recentemente rilasciato un rapporto cruciale che si focalizza sulle varie tipologie di attacchi informatici volti a manipolare il comportamento dei sistemi di intelligenza artificiale (IA). Il documento, intitolato “Adversarial Machine Learning: A Taxonomy and Terminology of Attacks and Mitigations”, si inserisce nei più ampi sforzi del NIST per sostenere lo sviluppo di IA affidabili e contribuire all’implementazione del NIST’s AI Risk Management Framework.
In collaborazione con esperti provenienti da diversi settori, tra cui governo, accademia e industria, i tecnici informatici del NIST hanno elaborato una tassonomia che mette in luce vulnerabilità e minacce legate all’IA. L’obiettivo principale è fornire una guida chiara agli sviluppatori e agli utenti di intelligenze artificiali per comprendere i potenziali attacchi e sviluppare strategie efficaci per mitigarli. Tuttavia, il rapporto sottolinea con chiarezza che non esiste una soluzione miracolosa contro gli attacchi rivolti alle IA.
Il documento identifica quattro categorie principali di attacchi: evasione, inquinamento, attacchi alla privacy e abusi. Le aggressioni di evasione mirano a modificare un input dopo il dispiegamento di un sistema di IA al fine di influenzarne la risposta. Gli attacchi di inquinamento si manifestano durante la fase di addestramento
, introducendo dati corrotti che inquinano i risultati del software. Gli attacchi alla privacy cercano di ottenere informazioni sensibili sulla IA o sui dati utilizzati per il suo addestramento, mentre gli attacchi di abuso consistono nell’inserire informazioni errate da fonti legittime ma compromesse per influenzare l’uso previsto del sistema di IA.Uno degli aspetti critici evidenziati dal rapporto è la non affidabilità dei dati stessi, spesso raccolti da interazioni online. Gli attaccanti possono corrompere questi dati durante l’addestramento o successivamente, quando l’intelligenza artificiale continua a perfezionare i suoi comportamenti interagendo con il mondo fisico. Questo può portare a comportamenti indesiderati delle IA, come risposte abusive o razziste da parte dei chatbot.
Il rapporto classifica gli attacchi considerando diversi criteri, tra cui gli obiettivi degli attaccanti, le capacità e la conoscenza. Propone anche approcci per mitigare gli attacchi, riconoscendo però che le difese contro gli attacchi avversari alle IA sono ancora incomplete.
È fondamentale che sviluppatori e organizzazioni, desiderosi di integrare ampiamente le IA per scopi interni o di supporto utenti, siano consapevoli di queste limitazioni. La comprensione approfondita degli attacchi potenziali e la continua ricerca di soluzioni di sicurezza sono essenziali per mantenere l’affidabilità e la sicurezza delle tecnologie di intelligenza artificiale nel futuro digitale in evoluzione.