Meta ha ideato un nuovo sistema in grado di generare messaggi audio e discorsi convincenti grazie all’uso dell’Intelligenza Artificiale. Tuttavia, non lo rilascerà per paura dei rischi.
Il nuovo strumento che prende il nome di Voicebox può essere impostato per utilizzare diversi modi di parlare e voci nuove inesistenti. Al momento funziona in sei lingue, oltre ad includere una varietà di strumenti come la rimozione del rumore. Si tratta di un importante passo in avanti rispetto ai precedenti sistemi che richiedevano una formattazione specifica per ogni opzione. Invece, Voicebox può ricevere un audio grezzo e una trascrizione e da lì creare un campione audio del tutto nuovo.
Voicebox è molto più efficace di altri sistemi simili, come affermato da Meta nel suo annuncio ufficiale. Può generare parole con un tasso di errore del 5,9% rispetto all’1,9% del concorrente Vall-E, ad esempio, e farlo fino a 20 volte più rapidamente. La realizzazione è possibile con l’ausilio di un modello chiamato “Flow Matching”. Quest’ultimo consente al sistema di apprendere dal parlato comune, in modo che possa essere addestrato su dati sempre diversi.
Meta presenta il nuovo sistema Voicebox basato sull’Intelligenza Artificiale ma decide di non rilasciarlo
Voicebox è stato addestrato sulla base di 50.000 ore di discorsi e trascrizioni provenienti da audiolibri di dominio pubblico in inglese, francese, spagnolo, tedesco, polacco e portoghese. Adesso che è stato addestrato, può finalmente ricevere una registrazione audio e completare il discorso in pochi istanti. Ciò potrebbe essere utile per creare una voce dal suono realistico da soli due secondi di discorso, ad esempio. Uno strumento rischioso ma che potrebbe aiutare le persone che non possono parlare, oppure potrebbe consentire l’aggiunta di voci verosimili nei giochi. Potrebbe anche essere usato per tradurre un discorso da una lingua ad un’altra consentendo alle persone di parlare in modo autentico senza perdere lo stile del linguaggio originale.
Voicebox risulta utile anche in scenari più tecnici, come l’editing audio, dove può essere utilizzato per sostituire parole che non sono state registrate correttamente. Ma Meta ha affermato che i rischi sono talmente tanti che preferisce non rilasciare questo nuovo strumento. Non ha indicato rischi nello specifico, ma ha dichiarato che “come con altre potenti nuove innovazioni basate su intelligenza artificiale, riconosciamo che questa tecnologia potrebbe portare ad un uso improprio“.
Infatti, tali sistemi potrebbero essere utilizzati per copiare le voci delle persone senza il loro consenso p per la creazione di video falsi utilizzabili per eventi di cronaca o per fingersi qualcuno durante una chiamata fraudolenta. “Esistono molti casi d’uso, ma a causa dei potenziali rischi, al momento non stiamo rendendo pubblicamente disponibile il modello o il codice di Voicebox”. “Crediamo sia importante essere aperti con la comunità dell’IA e condividere la nostra ricerca per far progredire le nuove tecnologie, ma è anche necessario trovare il giusto equilibrio tra apertura e responsabilità”.