ElevenLabs ha sviluppato delle incredibili applicazioni di sintesi vocale utilizzando le capacità dell'intelligenza artificiale e non è solo.

La società di soluzioni software per l’intelligenza artificiale, ElevenLabs, ha recentemente annunciato il lancio di Turbo 2.5, un avanzato modello di sintesi vocale a bassa latenza capace di operare in ben 32 lingue, tra cui l’italiano.

 

Le applicazioni vocali IA di ElevenLabs

Con Turbo 2.5, le aziende possono sviluppare agenti conversazionali basati su modelli di linguaggio avanzati, integrarli in dispositivi hardware come occhiali intelligenti che leggono testi, o utilizzarli nei videogiochi per dare vita ai personaggi. La società ha comunicato che con questo nuovo modello l’italiano, il francese, lo spagnolo, il mandarino e altre 27 lingue diventano tre volte più veloci, mentre l’inglese ha visto un incremento del 25% in termini di velocità. Gli sviluppatori interessati possono iniziare a utilizzare l’API di Turbo 2.5 visitando la pagina dedicata sul sito di ElevenLabs, mentre le aziende possono contattare il reparto vendite per un accesso a volumi maggiori.

All’inizio del mese, ElevenLabs aveva lanciato l’API Voice Isolator, progettata per rimuovere il rumore di fondo dalle clip audio, isolando i dialoghi puliti. In una dimostrazione, è stato creato un sito web utilizzando Claude di Anthropic, che consente agli utenti di fornire un link di YouTube. L’API Voice Isolator elimina quindi il rumore di fondo e l’audio pulito può essere ascoltato direttamente dal browser. Questa API, come quella di Turbo 2.5, troverà applicazione in una vasta gamma di contesti grazie alla creatività degli sviluppatori.

Recentemente, ElevenLabs ha annunciato partnership significative. Una con AMGI Studios per creare personaggi interattivi e un’altra con Thoughtly per sviluppare call center basati sull’intelligenza artificiale. Inoltre, l’azienda ha annunciato nuovi miglioramenti al suo Voiceover / Dubbing Studio, dimostrando un continuo impegno nell’innovazione.

Parallelamente, anche OpenAI sta lavorando su nuove applicazioni vocali basate sull’intelligenza artificiale. OpenAI ha introdotto Voice Engine, una piattaforma di generazione di testo-voce che ha già fornito voci preimpostate per l’API di sintesi vocale e la funzione di lettura ad alta voce di ChatGPT. Voice Engine, sviluppato a partire dalla fine del 2022, rappresenta un ulteriore passo avanti nella generazione vocale con AI.

 

La sintesi vocale sempre più innovativa

La sintesi vocale con l’intelligenza artificiale è un campo in rapida evoluzione. Mentre molte aziende si concentrano sulla creazione di suoni strumentali, poche si sono specializzate nella generazione vocale, spesso a causa di complessi problemi di licenza. Tuttavia, le recenti innovazioni di ElevenLabs e OpenAI dimostrano che il settore sta facendo progressi significativi, promettendo di rivoluzionare il modo in cui interagiamo con le tecnologie vocali.

Articolo precedenteUniversità Beihang sviluppa droni con energia solare e Wi-Fi
Articolo successivoWhatsApp annuncia una novità “animata”