L’analisi condotta da Artificial Analysis, diffusa sulla piattaforma X, segnala un calo delle performance del modello. I risultati del cosiddetto Artificial Analysis Quality Index evidenziano una diminuzione del punteggio da 77 a 71. Ciò lo ha reso identico a quello del modello più piccolo, GPT-4o-mini. Anche su benchmark specifici come GPQA Diamond e MATH, il nuovo GPT-4o ha mostrato risultati inferiori rispetto al passato.
Allo stesso tempo, i ricercatori hanno osservato un notevole aumento della velocità di generazione del testo. Quest’ultima è passata da circa 80 a 180 token al secondo. La maggiore velocità potrebbe essere stata ottenuta però a scapito delle capacità complessive del nuovo modello di ChatGPT. Ciò ha portato in molti ad ipotizzare che la nuova versione utilizzi un’architettura più leggera e meno sofisticata.
Anche se sono state rilevate tali carenze, OpenAI non ha modificato i prezzi del servizio. Ciò ha portato Artificial Analysis a consigliare agli sviluppatori di valutare attentamente le prestazioni prima di adottare il modello aggiornato. L’analisi contrasta con le dichiarazioni di OpenAI, che aveva enfatizzato miglioramenti nelle capacità di scrittura creativa e analisi dei file caricati. Secondo l’azienda, il modello sarebbe ora più naturale e coinvolgente. Se però il calo delle prestazioni venisse confermato, le implicazioni sarebbero importanti per il settore dell’intelligenza artificiale. GPT-4o è infatti tra i modelli più avanzati.
La situazione solleva dubbi sulla trasparenza delle aziende di AI quando aggiornano i loro modelli. Inoltre, evidenzia la necessità di test indipendenti per verificare le reali capacità dei sistemi. Per gli sviluppatori e le imprese, sarà essenziale bilanciare i miglioramenti di velocità con l’eventuale compromesso in termini di qualità.