VALL-E, l'intelligenza artificiale ora è in grado di replicare anche la voce umana

La nuova intelligenza artificiale VALL-E di Microsoft è in grado di ricreare una simulazione realistica della voce di una persona utilizzando solo tre secondi di audio. Il modello si basa sul codec neurale di linguaggio utilizzando la tecnologia EnCodec, e permette di rispettare fedelmente il timbro della voce e le emozioni della persona che parla. Inoltre, è in grado di mantenere le peculiarità acustiche del contesto in cui la frase è pronunciata, come l’eco di una camera o una chiamata telefonica. Se questo è un assaggio del futuro, allora dobbiamo iniziare a preoccuparci.

VALL-E: siamo sempre più nei guai per via dell’IA

Senza dubbio siamo davanti ad un enorme passo avanti rispetto alle attuali tecnologie text-to-speech, ma si aprono anche alcuni interrogativi sugli utilizzi che possono essere fatti di questa tecnologia.

Come dicevamo, Microsoft ha presentato il modello VALL-E, che utilizza la tecnologia EnCodec per scomporre la voce in blocchi di informazioni, chiamati token, sulla base dei quali vengono sintetizzate lunghezze d’onda per ricostruire una nuova voce artificiale simile all’originale. Ciò vale a dire che questa tecnologia potrebbe essere utilizzata per creare audio falsi e diffondere disinformazione

. È importante quindi considerare le possibili conseguenze negative di questa tecnologia e prendere le precauzioni necessarie per evitare abusi.

VALL-E può essere utilizzato in servizi che richiedono una qualità elevata per quanto riguarda la trasformazione text-to-speech, ma può anche rappresentare un’ottima soluzione per le operazioni di editing di contenuti vocali già esistenti. Per il resto Microsoft sta studiando un sistema per marchiare i prodotti realizzati da VALL-E e richiedere il consenso della persona di cui viene utilizzata la voce.

VALL-E, l’intelligenza artificiale ora è in grado di replicare anche la voce umana

VALL-E: siamo sempre più nei guai per via dell’IA