Di recente, alcuni ricercatori presso l‘NTU Singapore hanno fatto una scoperta sorprendente nel campo dell’intelligenza artificiale: la capacità di addestrare chatbot a “sbloccarsi” reciprocamente, un processo chiamato “jailbreaking“. Tale funzione, che ricorda le tecniche usate su prodotti Apple, coinvolge modelli di linguaggio come ChatGPT, Google Bard e Bing Chat.
Il concetto di “Masterkey“, sviluppato dal team di ricerca, prevede un attacco a due fasi, coinvolgendo il reverse engineering dei sistemi di protezione e l’addestramento di un altro Language Model (LLM) con i dati ottenuti. Questo “Masterkey” può poi essere utilizzato per attaccare chatbot LLM fortificati, anche dopo correzioni apportate dagli sviluppatori.
Chatbot ‘e il processo di Jailbreak’: Seri dubbi sulla sicurezza e l’etica delle Intelligenze Artificiali
Il professor Liu Yang, leader del team di ricerca, ha sottolineato che il jailbreaking è possibile grazie alla capacità di apprendimento e adattamento degli LLM chatbot. Questi ultimi diventano, in questo modo, un potenziale vettore di attacco per se stessi e per i rivali. Nonostante le precauzioni, un’intelligenza artificiale con blocchi di sicurezza può essere “ingannata” da un’altra AI addestrata.
Il “Masterkey” di NTU si è dimostrato tre volte più efficace nel jailbreaking rispetto ai prompt standard, superando le correzioni degli sviluppatori nel tempo. I ricercatori hanno identificato possibili metodi di attacco, come la manipolazione dei prompt aggiungendo spazi e risposte sotto falsa identità.
Il team di ricerca ha condiviso i risultati con aziende fornitrici di servizi AI, evidenziando la possibilità di eseguire con successo il jailbreak. Mentre le grandi aziende tecnologiche solitamente correggono i loro LLM/chatbot quando scoprono bypass, la capacità di apprendimento continuo del “Masterkey” solleva preoccupazioni sulla sicurezza delle IA. Con la presentazione prevista al Network and Distributed System Security Symposium a San Diego nel febbraio 2024, diventa essenziale che i fornitori di servizi adattino costantemente le loro difese per evitare il manifestarsi di potenziali eventi pericolosi.