La nuova intelligenza artificiale VALL-E di Microsoft è in grado di ricreare una simulazione realistica della voce di una persona utilizzando solo tre secondi di audio. Il modello si basa sul codec neurale di linguaggio utilizzando la tecnologia EnCodec, e permette di rispettare fedelmente il timbro della voce e le emozioni della persona che parla. Inoltre, è in grado di mantenere le peculiarità acustiche del contesto in cui la frase è pronunciata, come l’eco di una camera o una chiamata telefonica. Se questo è un assaggio del futuro, allora dobbiamo iniziare a preoccuparci.
Senza dubbio siamo davanti ad un enorme passo avanti rispetto alle attuali tecnologie text-to-speech, ma si aprono anche alcuni interrogativi sugli utilizzi che possono essere fatti di questa tecnologia.
Come dicevamo, Microsoft ha presentato il modello VALL-E, che utilizza la tecnologia EnCodec per scomporre la voce in blocchi di informazioni, chiamati token, sulla base dei quali vengono sintetizzate lunghezze d’onda per ricostruire una nuova voce artificiale simile all’originale. Ciò vale a dire che questa tecnologia potrebbe essere utilizzata per creare audio falsi e diffondere disinformazione
. È importante quindi considerare le possibili conseguenze negative di questa tecnologia e prendere le precauzioni necessarie per evitare abusi.