OpenAI ha pubblicato un post sul suo blog spiegando su cosa si sostiene questa tecnologia. Ma prima di tutto viene specificato che il tool non è disponibile per il pubblico e quindi non può essere utilizzato da malintenzionati per truffe e deepfake. Al momento non è una data di uscita per tutti per Voice Engine a prova del desiderio dell’azienda di procedere in modo etico.
Lo scopo principale di Sam Altman e i suoi soci è quello di evitare abusi del modello. Nonostante ciò, l’annuncio del suo rilascio ha già scatenato moltissime discussioni. Il motivo principale riguarda la possibilità di clonare la voce umana a partire da 15 secondi di sample. In questo modo viene creata una vera e propria voce sintetica. Il modello utilizzato era già presente, indirettamente, nel sistema di OpenAI. In particolare, nelle funzioni vocali e di lettura ad alta voce presenti in ChatGPT
.Per comprenderne il significato, basta guardarne l’utilizzo di terze parti. A tal proposito, Spotify ha sfruttato il sistema per doppiare in diverse lingue alcuni podcast, come Lex Fridman. L’addestramento del sistema è avvenuto attraverso l’uso di svariati dati pubblici e quelli concessi in licenza. Per quanto riguarda l’addestramento audio questo non è presente e si basa solo sui dati forniti in input. Il sample da 15 secondi, una volta utilizzato per la clonazione poi viene subito eliminato.
Il nuovo tool di OpenAI è innovativo ed inquietante insieme. Jeff Harris, membro del Product Staff, ha provato a rassicurare gli utenti a livello mondiale. Harris ha affermato che l’azienda è consapevole della situazione e che la tecnologia in questione viene implementata solo in virtù della presenza di misure di mitigazione per gli scenari potenzialmente pericolosi.