AI generativa, il suo è un ruolo chiave nello sviluppo softwareI sistemi basati sull’Intelligenza Artificiale potrebbero presto sfuggire di mano. Negli ultimi anni c’è stato un forte entusiasmo per i sistemi di generazione di testo come ChatGPT di OpenAI. Questo entusiasmo ha portato molti a pubblicare post e altri contenuti creati da tali sistemi.

Molte delle aziende che producono questi sistemi con AI, tuttavia, utilizzano informazioni prese da Internet per addestrarli. Ciò potrebbe portare a un ciclo in cui gli stessi sistemi di intelligenza artificiale utilizzati per produrre quel testo vengono poi addestrati su di esso. Questo meccanismo potrebbe rapidamente portare l’IA a diffondere informazioni sbagliate. L’allarme lanciato da alcuni esperti arriva di pari passo con la preoccupazione crescente per la “teoria che Internet sia morto”, secondo la quale sempre più parti del web stanno diventando automatizzate.

Secondo la ricerca, sono necessari solo pochi cicli sia di generazione che di addestramento su quel contenuto affinché tali sistemi generino inesattezze. Ad esempio, un sistema testato con un testo sull’architettura medievale aveva bisogno solo di nove generazioni di contenuti prima che il risultato fosse solo un elenco ripetitivo di concetti, per esempio. Il fenomeno dell’intelligenza artificiale addestrata su set di dati creati anch’essi dall’IA e che poi ne inquinano i risultati è definito “collasso del modello”. I ricercatori ritengono che il fenomeno potrebbe diffondersi man mano che i sistemi di intelligenza artificiale vengono utilizzati maggiormente.

Intelligenza Artificiale: crescenti preoccupazioni dovute all’uso smodato che se ne fa

La ricercatrice Emily Wenger ha utilizzato l’esempio di un sistema addestrato su immagini di diverse razze di cani. Se ci sono più golden retriever nei dati originali, allora l’IA li selezionerà e man mano gli altri cani verranno completamente esclusi. Lo stesso effetto si verifica con modelli linguistici di grandi dimensioni come quelli che alimentano ChatGPT e Gemini di Google. Ciò potrebbe rappresentare un problema non solo perché i sistemi alla fine diventeranno inutili, ma anche perché gradualmente diventeranno meno diversificati nei loro risultati. Man mano che i dati vengono prodotti e riciclati, i sistemi potrebbero non riuscire a riflettere tutta la varietà di contenuti possibili.

Il problema potrebbe essere risolto con una serie di possibili soluzioni, incluso il watermarking sull’output in modo che possa essere individuato da sistemi automatizzati e quindi filtrato da tali set di formazione. Ma è facile rimuovere quelle filigrane e le aziende di intelligenza artificiale si sono anche opposte a collaborare per utilizzarlo.

Articolo precedenteOlimpiadi di Parigi: bloccati i treni con attacco alla rete TGV
Articolo successivoLamborghini Temerario: l’erede ibrida della Huracan è pronta