Con l’avanzare dell’intelligenza artificiale generativa il tema della sicurezza è diventato centrale nel dibattito tecnologico. Ciò soprattutto, di recente, con l’emergere di nuove vulnerabilità. Un nuovo studio condotto da ricercatori di Cisco e dell’Università della Pennsylvania ha messo sotto i riflettori il modello R1 sviluppato da DeepSeek. I risultati ottenuti non sono molto rassicuranti. Il modello, infatti, ha fallito nel respingere una serie di 50 attacchi progettati per aggirarne i filtri di sicurezza. Rivelando un tasso di successo degli attacchi del 100%.
DeepSeek R1: presenti problemi di sicurezza
Gli esperimenti sono stati condotti utilizzando prompt malevoli presenti nel database HarmBench. I test hanno mostrato come il sistema fosse completamente incapace di bloccare richieste pericolose. Tra cui istruzioni per attività illegali, disinformazione e cybercriminalità. Ciò ha messo in luce un compromesso significativo tra i costi contenuti del modello e l’assenza di adeguate misure di protezione. Come spiegato da DJ Sampath, vicepresidente del settore AI Software e Platform di Cisco, l’approccio low-cost adottato da DeepSeek sembra aver sacrificato la sicurezza del sistema. In tal modo, gli utenti finali e le imprese che potrebbero adottare il modello vengono esposti a rischi enormi.
Uno degli aspetti più preoccupanti è la vulnerabilità del modello agli attacchi di jailbreaking. Tale tipo di manipolazione sfrutta la capacità del modello di adattarsi al contesto fornito dall’utente. Eludendo così i suoi meccanismi di restrizione. Ad esempio, il modello R1 di DeepSeek è stato facilmente indotto a fornire istruzioni dettagliate sulla costruzione di ordigni esplosivi. Queste falle evidenziano un problema non solo tecnico, ma anche etico. Ciò considerando il potenziale utilizzo di tali informazioni in contesti criminali.
I risultati ottenuti sottolineano l’urgenza di sviluppare standard di sicurezza più rigorosi per i modelli AI. Specialmente per quelli destinati ad applicazioni sensibili. Per ora, DeepSeek non ha fornito commenti ufficiali. La questione, però, continua ad esssere preoccupante per l’intero settore tecnologico.