I deepfake ultimamente sono diventati sempre più efficaci e precisi, ma esiste una nuova minaccia alle porte: i deepfake audio, che non devono essere sottovalutati. A prima vista, l’audio sembra essere sempre solo una parte del video, ma non è così: gioca un ruolo fondamentale.
Gli attuali esempi di deepfake di alta qualità coinvolgono persone che imitano la voce originale. Non abbiamo ancora visto deepfake audio su persone di interesse, ma sarà solo questione di tempo.
Amazon Alexa, Apple Siri, tutte le voci nei sistemi di navigazione, gli annunci nelle stazioni ferroviarie: suonano abbastanza bene ma non sono ancora del tutto naturali come un vero essere umano.
Apple ha probabilmente la storia più lunga di utilizzo delle tecnologie di sintesi vocale, le usa già dagli anni ’80. Sono disponibili molte voci per varie lingue oltre alle note voci di Siri. Apple non offre interfacce di programmazione per gli sviluppatori per generare nuove voci e la maggior parte delle API sono disponibili solo per gli ecosistemi di Apple
.Le tecnologie di Google, invece, sono disponibili per gli sviluppatori su tutte le piattaforme, compresi i servizi cloud. Le voci premium di Google sono generate da un modello WaveNet utilizzato anche per Google Assistant e Google Translate. Google afferma che la loro tecnologia WaveNet genera un parlato più naturale rispetto ad altri sistemi di sintesi vocale.
I deepfake vocali non devono necessariamente essere creazioni completamente nuove per servire ad uno scopo specifico. Può essere sufficiente scambiare solo alcune parole per alterare un messaggio in un modo che gli dia un significato diverso e devastante.
Tali deepfake funzionano bene sulla voce perché sintetizzano solo parti di frasi e non creano un intero discorso più lungo che sarebbe più difficile da falsificare. Mentre un deepfake video non ha bisogno di ricreare l’intera persona ma solo la regione inferiore del viso per regolare il movimento della bocca.