ChatGPT con il nuovo aggiornamento può “vedere, ascoltare e parlare”, secondo OpenAI. L’aggiornamento del chatbot basato sull’intelligenza artificiale consentirà agli utenti di avere conversazioni anche vocali con il chatbot e di interagire anche tramite immagini.
“L’IA di ChatGPT ora può vedere, ascoltare e parlare”, dichiara l’azienda in un post su X/Twitter. Le funzionalità verranno implementate entro le prossime settimane e consentiranno agli utenti di “utilizzare la propria voce per portare avanti una conversazione con l’AI”. Con le nuove funzionalità, ChatGPT può essere utilizzato per “richiedere una favola della buonanotte per la tua famiglia o risolvere un dibattito a tavola”, secondo l’azienda, avvicinandosi ai servizi offerti da Alexa di Amazon o da Siri di Apple.
Fornendo un esempio di come funzionerà con il nuovo aggiornamento, OpenAI ha condiviso una demo in cui un utente chiede a ChatGPT di inventare una storia sul “girasole di nome Larry”. Il chatbot risponde alla domanda con una voce simile a quella umana e risponde anche a domande come “Com’era la sua casa?” e “Chi è il suo migliore amico?”. OpenAI ha affermato che la funzionalità vocale è alimentata da un nuovo modello di sintesi vocale che genera fonti audio simile a quelle umane. “Abbiamo collaborato con doppiatori professionisti per creare ciascuna voce messa a disposizione. Utilizziamo anche Whisper, il nostro sistema di riconoscimento vocale open source, per trascrivere le parole pronunciate in testo”, spiega la società.
ChatGPT, arriva la possibilità di usare la voce oltre all’inserimento delle immagini e altre funzionalità
L’azienda ritiene che la nuova tecnologia sia in grado di creare voci sintetiche a partire dal suono realistico dopo pochi secondi di discorso. Potrebbe aprire le porte a molte applicazioni e casi d’uso. Tuttavia, la società ha anche avvertito che le nuove funzionalità potrebbero presentare nuovi rischi “come la possibilità che persone malintenzionate si spacciano per personaggi pubblici e altre persone o commettono frodi”.
Un altro importante aggiornamento del chatbot è la possibilità di inserire immagini. “Risolvi il motivo per cui la tua griglia non si avvia, esplora il contenuto all’interno del tuo frigorifero per pianificare un pasto o analizza un grafico complesso per i dati relativi al lavoro”, spiega OpenAI. Questa nuova funzionalità, secondo l’azienda, consente agli utenti di concentrarsi su una parte specifica dell’immagine utilizzando uno strumento di disegno nell’app mobile ChatGPT. Il riconoscimento multimodale da parte del chatbot è stato previsto da tempo e la sua nuova comprensione delle immagini è alimentata da GPT-3.5 e GPT-4 multimodali.
Questi modelli possono applicare le loro capacità di ragionamento linguistico a una gamma di immagini, tra cui fotografie, screenshot e documenti. Meta prevede anche di sviluppare un chatbot specifico per i gli utenti più giovani. OpenAI ha affermato che le nuove funzionalità verranno implementate entro le prossime due settimane nell’app per gli abbonati paganti dei servizi Plus ed Enterprise di ChatGPT. “Siamo entusiasti di distribuire queste funzionalità ad altri gruppi di utenti, inclusi gli sviluppatori”.