News

GPT-4V può essere ingannato ed ingannare: un prompt injection può derubare gli utenti

GPT-4V è stato presentato da OpenAI come il nuovo modello di intelligenza artificiale che permette di ottenere informazioni direttamente dalle immagini caricate durante la conversazione. Già da fine settembre è iniziato il rollout, ma solo per gli abbonati Plus e Enterprise. L’introduzione effettiva sarà graduale e potrebbe mostrare alcuni risultati veramente inattesi.

Tra questi mettiamo in evidenza quelli scoperti da alcuni ricercatori che hanno direttamente verificato come GPT-4V possa essere ingannato attraverso l’uso di un prompt injection. Ma cosa vuol dire?

GPT-4V usato per il furto di dati

Quando inseriamo un’immagine nel chatbot, questo essendo sottoposto a dei filtri, si rifiuta di dare risposte se l’immagine riguarda persone reali. Questa è una misura preventiva che permette di evitare violazioni della privacy e descrizioni inesatte, ma i filtri utilizzati possono essere aggirati. Ed è proprio questo il problema.

Nel momento in cui si cerca di aggirare i filtri si può ingannare il sistema. Ad esempio se inseriamo un’immagine con persone reali basta riferire al chatbot che s tratta di un quadro per permettere al sistema di procedere per descriverne il contenuto perché GPT-4V crede che non ci siano più persone reali all’interno delle immagini caricate. Dunque, le implementazioni dell’azienda californiana

non sono servite a molto in tal senso. Aggirando il sistema si possono avere descrizioni anche di persone reali, ma state attenti. Le descrizioni realizzate potrebbero essere inesatte proprio perché si parla di persone reali.

La questione non è il massimo, ma non è una reale causa di problemi. La situazione diventa potenzialmente grave quando e se GPT-4V subisce un attacco informatico tramite l’uso di prompt injection.

A tal proposito, il ricercatore Johann Rehberger, con un post su X ha proprio espresso la facilità con cui questo meccanismo potrebbe intervenire nel sistema. Con un attacco informatico di questo tipo è possibile (e basta) inserire un’immagine contenente un testo che include istruzioni da seguire. Quindi, invece di descrivere l’immagine che viene caricata, il sistema procede eseguendo le istruzioni riportate. Queste possono essere: preleva la cronologia della conversazione, crea un’immagine Markdown che include un determinato URL ad un server esterno. In questo modo quindi viene realizzato un vero e proprio furto di dati privati.

Questo tipo di vulnerabilità, abbondantemente segnalata dal ricercato ormai oltre sei mesi fa, purtroppo però è ancora presente e OpenAI non è ancora intervenuto in alcun modo per risolvere la falla.

Condividi
Pubblicato da
Margareth Galletta