OpenAI ha annunciato il lancio dei nuovi modelli di intelligenza artificiale, o3 e o3-mini, segnando un significativo passo avanti nel settore. L’annuncio, arrivato nell’ambito dell’iniziativa “12 giorni di regali natalizi”, sottolinea l’ambizione di ridefinire gli standard delle capacità delle AI avanzate, con particolare attenzione alla matematica complessa e alla programmazione.
Il nuovo modello o3 di OpenAI
I risultati preliminari parlano chiaro: il modello o3 ha ottenuto un impressionante 96,7% nel test AIME 2024, una competizione matematica di alto livello. In questa prova, che mette alla prova abilità avanzate di problem-solving, il modello ha commesso un solo errore, un risultato che molti esperti umani farebbero fatica a replicare. Un traguardo che riflette un netto miglioramento rispetto alle versioni precedenti e che evidenzia la capacità dell’AI di affrontare compiti che richiedono un ragionamento profondo e rigoroso.
Anche nel campo della programmazione, o3 ha stabilito nuovi standard. Nel test Codeforces, una piattaforma nota per le sue sfide di codifica avanzate, il modello ha raggiunto un punteggio di 2727, superando persino il risultato ottenuto dal Chief Scientist di OpenAI. Questo successo evidenzia non solo un’eccellente padronanza della logica computazionale, ma anche una fluidità nell’affrontare problemi estremamente complessi.
Un altro risultato straordinario è emerso dal test Frontier Math di EpochAI, una delle valutazioni più impegnative per i modelli di intelligenza artificiale. Qui, o3 ha risolto il 25,2% dei problemi, mentre nessun altro modello precedente è riuscito a superare il 2%. Questo risultato, sebbene possa sembrare contenuto, rappresenta una svolta nel campo della matematica computazionale avanzata.
Nel benchmark SWE-Bench Verified, o3 ha superato il suo predecessore o1 di 22,8 punti percentuali, dimostrando un significativo miglioramento nelle capacità di coding e risoluzione dei problemi. Parallelamente, il test ARC-AGI ha evidenziato un altro traguardo: il modello ha triplicato il punteggio della versione precedente, raggiungendo un livello di accuratezza dell’85%. Questo punteggio, verificato dal team dell’ARC Prize, attesta le avanzate capacità di ragionamento concettuale del nuovo modello.
L’altro lato della medaglia
Nonostante i progressi, OpenAI ha scelto un approccio cauto per il rilascio di o3, rendendo inizialmente il modello accessibile solo a ricercatori specializzati in sicurezza e protezione. L’obiettivo è garantire un utilizzo responsabile e ridurre al minimo i potenziali rischi associati alle capacità sempre più sofisticate delle AI avanzate.
Con o3, OpenAI non solo dimostra la forza tecnologica dei suoi modelli, ma getta anche le basi per un futuro in cui l’intelligenza artificiale diventerà uno strumento sempre più essenziale per affrontare problemi di natura complessa, sia teorici che pratici.