Secondo un recente rapporto di The Information, OpenAI sta presentando ad alcuni selezionati clienti un innovativo modello di AI multimodale, che promette di rivoluzionare le capacità di dialogo e di riconoscimento oggetti. Fonti anonime, che hanno avuto l’opportunità di testare questo modello, suggeriscono che potrebbe essere annunciato ufficialmente dall’azienda già nel prossimo lunedì.
Il nuovo modello, si dice, eccelle nella comprensione di immagini e audio, superando di gran lunga gli attuali sistemi di trascrizione e sintesi vocale separati di OpenAI. La sua potenziale applicazione spazia dall’assistenza avanzata nel servizio clienti, con una maggiore comprensione delle sfumature tonali e del sarcasmo nei dialoghi telefonici, fino all’ausilio agli studenti nelle materie scientifiche e alla traduzione di segnaletica del mondo reale.
Le fonti citate nel rapporto suggeriscono che questo modello potrebbe persino superare GPT-4 Turbo in termini di risposte a determinati tipi di domande, nonostante mantenga alcune vulnerabilità nella precisione delle risposte fornite.
Anticipazioni aggiuntive indicano che OpenAI sta lavorando su una funzionalità di ChatGPT in grado di effettuare chiamate telefoniche. Questo è stato evidenziato da un codice relativo alle chiamate rilasciato dallo sviluppatore Ananay Arora, che ha anche notato la preparazione di server dedicati alla comunicazione audio e video in tempo reale da parte di OpenAI.
Tuttavia, il CEO di OpenAI, Sam Altman, ha chiarito che l’annuncio previsto per la prossima settimana non riguarderà GPT-5, il prossimo modello in arrivo che promette di essere significativamente superiore a GPT-4. Altman ha anche escluso novità riguardo al lancio di un nuovo motore di ricerca alimentato da AI.
Nonostante l’assenza di un motore di ricerca, le anticipazioni riguardanti il nuovo modello di OpenAI potrebbero comunque rubare l’attenzione mediatica alla conferenza degli sviluppatori Google I/O, dove Google ha pianificato di testare l’utilizzo dell’AI per le chiamate telefoniche.
Google sta anche lavorando su un’assistente all’avanguardia chiamata “Pixie“, progettata per interagire con gli oggetti attraverso la fotocamera di un dispositivo al fine di fornire indicazioni o istruzioni sull’utilizzo. OpenAI ha programmato di rivelare tutti i dettagli attraverso una diretta streaming sul proprio sito il prossimo lunedì.