News

ChatGPT: il nuovo aggiornamento non supera le previsioni

OpenAI ha presentato il nuovo modello GPT-4o integrato in ChatGPT. Quest’ultimo è stato presentato come un miglioramento importante rispetto alla versione precedente. Eppure, secondo un rapporto pubblicato da Artificial Analysis, le prestazioni del modello sarebbero invece peggiorate. Nel dettaglio, avrebbe raggiunto livelli paragonabili al più limitato GPT-4o-mini.

L’analisi condotta da Artificial Analysis, diffusa sulla piattaforma X, segnala un calo delle performance del modello. I risultati del cosiddetto Artificial Analysis Quality Index evidenziano una diminuzione del punteggio da 77 a 71. Ciò lo ha reso identico a quello del modello più piccolo, GPT-4o-mini. Anche su benchmark specifici come GPQA Diamond e MATH, il nuovo GPT-4o ha mostrato risultati inferiori rispetto al passato.

ChatGPT delude le aspettative?

Allo stesso tempo, i ricercatori hanno osservato un notevole aumento della velocità di generazione del testo. Quest’ultima è passata da circa 80 a 180 token al secondo. La maggiore velocità potrebbe essere stata ottenuta però a scapito delle capacità complessive del nuovo modello di ChatGPT. Ciò ha portato in molti ad ipotizzare che la nuova versione utilizzi un’architettura più leggera e meno sofisticata.

Anche se sono state rilevate tali carenze, OpenAI non ha modificato i prezzi del servizio. Ciò ha portato Artificial Analysis a consigliare agli sviluppatori di valutare attentamente le prestazioni prima di adottare il modello aggiornato. L’analisi contrasta con le dichiarazioni di OpenAI, che aveva enfatizzato miglioramenti nelle capacità di scrittura creativa e analisi dei file caricati. Secondo l’azienda, il modello sarebbe ora più naturale e coinvolgente. Se però il calo delle prestazioni venisse confermato, le implicazioni sarebbero importanti per il settore dell’intelligenza artificiale. GPT-4o è infatti tra i modelli più avanzati.

La situazione solleva dubbi sulla trasparenza delle aziende di AI quando aggiornano i loro modelli. Inoltre, evidenzia la necessità di test indipendenti per verificare le reali capacità dei sistemi. Per gli sviluppatori e le imprese, sarà essenziale bilanciare i miglioramenti di velocità con l’eventuale compromesso in termini di qualità.

Condividi
Pubblicato da
Margareth Galletta