A scoprirlo è stato il gruppo di Redwood Research. I risultati dello studio sono attualmente in attesa di revisione paritaria. Ma ciò che è emerso in questi giorni è già particolarmente interessante.
I modelli di linguaggio di grandi dimensioni (LLM) hanno ampiamente dimostrato la loro abilità nella steganografia. La tecnica conosciuta anche come “ragionamento codificato” consiste nella capacità dei sistemi ad intelligenza artificiale di nascondere alcuni passaggi intermedi del loro processo di ragionamento. Questo processo consiste sostanzialmente ella scelta delle parole o di frasi specifiche che poi verranno decodificate successivamente durante la generazione. Attraverso questi passaggi l’intelligenza artificiale sarà in grado di fornire la risposta più accurata possibile.
C’è da tener conto che, se anche questo metodo garantisce l’accuratezza delle risposte, allo stesso tempo fa emergere non poche preoccupazioni sulla trasparenza e sull’affidabilità dei sistemi ad intelligenza artificiale generativa. Infatti, è fondamentale tracciare il processo di ragionamento di un modello di questo tipo, soprattutto perché la maggioranza di questi software
vengono addestrati tramite apprendimento per rinforzo. Senza riuscire a seguire il processo di “pensiero” si potrebbe, in modo del tutto inconsapevole ovviamente, rinforzare dei comportamenti errati.Inoltre, l’abilità di steganografia dell’intelligenza artificiale potrebbe permettere a questi sistemi di trasmettere codici e messaggi segreti ad altri sistemi AI. Questi passaggi potrebbero avvenire senza che noi umani possiamo nemmeno capirlo. Dopo aver espresso questi dubbi, i ricercatori di Redwood Research hanno suggerito di chiedere ai software di parafrasare le risposte che forniscono. In questo modo si potrebbe eliminare la parte superflua delle risposte dei modelli LLM eliminando di conseguenza anche questi rischi. Nonostante questa possibile soluzione è comunque inquietante pensare che dietro ogni risposta dell’intelligenza artificiale potrebbero esserci messaggi segreti da decifrare quasi come se si trattasse di una sorta di enigma. Sembra sempre di più che il confine tra intelligenza artificiale e inganno sia sempre più sfumato e questo ci porta ovviamente a riflettere sulla natura stessa delle comunicazioni all’interno di questa nuovo era digitale.