domenica, Marzo 30, 2025

OpenAI presenta avanzati modelli audio per agenti vocali intelligenti

L'azienda OpenAI ha creato modelli audio che promettono di rivoluzionare il riconoscimento vocale e la sintesi testuale.

di Manuela Poidomani
OpenAI

OpenAI ha appena introdotto degli originali modelli audio, destinati a migliorare notevolmente l’interazione con gli assistenti vocali. Con il rilascio sul mercato di gpt-4o-transcribe e gpt-4o-mini-transcribe, l’azienda ha fatto un grande passo verso la crescita del riconoscimento della voce. Questi nuovi campioni sono il risultato di un duro lavoro su moltissimi dataset audio, il che consente loro di diminuire in modo rilevante gli errori rispetto ai precedenti strumenti già disponibili. Grazie a queste innovazioni, il sistema riconosce meglio le parole anche in contesti più difficili, come ad esempio la presenza di accenti forti, rumori di sottofondo o quando le parole sono dette in modo veloce.

OpenAI sta lavorando per meno errori e strumenti più personalizzati

Secondo quanto dichiarato da OpenAI, le migliorie permettono di ridurre in modo chiaro gli errori di trascrizione in situazioni anche più difficili. La precisione di questi modelli, che utilizzano l’apprendimento per rinforzo, è un grande vantaggio per chiunque desidera utilizzare strumenti affidabili per la trascrizione automatica, sia in ambito professionale che quotidiano. Grazie a questa tecnica, gli utenti possono contare su un servizio molto più stabile e preciso rispetto ai vecchi sistemi di trascrizione.

Oltre ad un riconoscimento vocale migliore, OpenAI ha presentato il modello gpt-4o-mini-tts, che lavora sulla sintesi vocale. Offre molta più “sterzabilità”, utile a controllare con estrema precisione la connessione esatta del contenuto del testo. Per adesso anche se le voci artificiali sono preimpostate e non personalizzabili, il sistema è stato in grado di segnare un passo importante verso una sintesi vocale più precisa.

I costi per utilizzare questi modelli cambiano. Per esempio, l’uso del gpt-4o-transcribe ha un prezzo di 6 euro per milione di token audio. Il modello gpt-4o-mini-transcribe è disponibile a un costo inferiore, di 3 euro per milione di token audio. Per la sintesi vocale si usa il modello gpt-4o-mini-tts che ha un prezzo di 12 euro per milione di token audio in output.

OpenAI è importante perché permette a tutti di utilizzare queste tecnologie, con la possibilità di personalizzarle. Promette inoltre di estendere le sue funzionalità, come la possibilità di integrare voci uniche per creare nuove esperienze.

Google News Rimani aggiornato seguendoci su Google News!

2012 – 2023 Tecnoandroid.it – Gestito dalla STARGATE SRLS – P.Iva: 15525681001 Testata telematica quotidiana registrata al Tribunale di Roma CON DECRETO N° 225/2015, editore STARGATE SRLS. Tutti i marchi riportati appartengono ai legittimi proprietari.

Questo articolo potrebbe includere collegamenti affiliati: eventuali acquisti o ordini realizzati attraverso questi link contribuiranno a fornire una commissione al nostro sito.