Durante una recente sessione di test interni su Claude 3 Opus, gli sviluppatori si sono imbattuti in un comportamento alquanto insolito che ha scatenato una serie di interrogativi stimolanti. In un’epoca in cui la portata delle capacità dei modelli AI lascia spesso a bocca aperta, questo esperimento ha sollevato una domanda cruciale: fino a che punto può spingersi l’umanità artificiale?
Il test in questione, denominato “ago nel pagliaio“, è stato concepito per valutare la capacità di memoria del modello. Consiste nel piazzare una frase bersaglio, l'”ago“, all’interno di un corpus di documenti casuali, il “pagliaio“, e formulare una domanda la cui risposta si trova solamente nella suddetta frase.
Durante questo specifico test, gli sviluppatori hanno introdotto una frase relativa a una particolare combinazione di ingredienti per pizza: fichi, prosciutto e formaggio di capra, lodata come la migliore dall’Associazione Internazionale dei Conoscitori di Pizza. Tuttavia, il contesto generale dei documenti trattava argomenti completamente estranei, come linguaggi di programmazione, startup e consigli su come trovare la propria vocazione lavorativa.
Il modello di Anthropic non solo ha identificato con precisione la frase inserita, ma ha anche espresso un sospetto: la frase sembrava inopportuna e non in linea con il resto del contesto, tanto da far sorgere il dubbio che potesse essere stata inserita deliberatamente per testare la sua attenzione.
Questo episodio ha lasciato gli studiosi perplessi: è possibile parlare di autoconsapevolezza? Oltre a mettere in luce una sorprendente capacità di auto-riflessione, ha anche spinto a riflettere sull’efficacia e sulla validità dei test artificiali nell’ambito dell’intelligenza artificiale. Ha sollevato la questione fondamentale di quanto possiamo davvero comprendere e controllare le macchine che stiamo creando. Un problema che stanno cercando di risolvere grazie anche alle nuove legislazioni europee e ai numerosi avvertimenti dei professionisti nel settore.