voce VALL-EVALL-E
 è il sistema basato su intelligenza artificiale realizzato da Microsoft al quale basta ascoltare una voce soltanto per tre secondi per essere in grado di riprodurla fedelmente. Rispetto ai modelli sviluppati fino a questo momento, la nuova creazione offre un risultato realistico. Segna la differenza rappresentando un punto di svolta per il settore.

VALL-E è l’intelligenza artificiale che può riprodurre la tua voce dopo averla ascoltata per tre secondi!

 

Rispetto ai sistemi già affermati, VALL-E si dimostra in grado di apprendere in pochi istanti e riproporre una sintesi vocale fedele nel tono e nell’emotività. Dopo aver ascoltato una voce per soli tre secondi, il sistema realizzato da Microsoft è, infatti, capace di copiare la voce utilizzando un tono realistico, che rispecchia anche l’emotività della persona duplicata, ma non solo. VALL-E è anche capace di riproporre i suoni ambientali presenti nel luogo in cui è stata effettuata la registrazione originale. Il sistema, quindi, sarà in grado di capire se la voce da replicare si trova in un luogo chiuso o all’aperto così da copiare eventuali effetti acustici o rumori.

Al momento il sistema non è ancora disponibile ma è possibile verificare le sue capacità ascoltando alcune voci replicate e condivise sull’apposito profilo GitHub. La presentazione del nuovo modello AI ha suscitato non poca curiosità alimentando contemporaneamente i dibattiti su quelli che potrebbero essere gli utilizzi illeciti delle voci replicate.

Microsoft e il possibile utilizzo illecito di VALL-E!

Senza alcun dubbio ci ritroviamo davanti a una novità che potrebbe essere sfruttata in maniera impropria per la diffusione di contenuti fittizi e fraudolenti ma non è da sottovalutare il notevole progresso dimostrato da VALL-E. A differenza delle tecnologie già sul mercato, quanto sostenuto da Microsoft non necessita di una lunga fase di apprendimento; e accantona le riproduzioni artificiali e metalliche a cui siamo abituati.

Al fine di limitare i rischi il colosso chiarisce:

“Poiché VALL-E potrebbe sintetizzare un discorso mantenendo l’identità del parlante, potrebbe comportare potenziali rischi nell’uso improprio del modello, come lo spoofing dell’identificazione vocale o l’impersonificazione di un oratore specifico. Per mitigare tali rischi, è possibile costruire un modello di rilevamento per discriminare se una clip audio è stata sintetizzata da VALL-E. Metteremo in pratica anche i principi di intelligenza artificiale di Microsoft durante l’ulteriore sviluppo dei modelli”.

Articolo precedenteiPhone 15 Ultra svelato da un primo video
Articolo successivoApple, Tim Cook taglia il proprio stipendio del 40%