Sei appena tornato a casa dopo una lunga giornata e il tuo telefono inizia a suonare. Dall’altra parte c’è una persona cara, forse un genitore, un bambino o un amico d’infanzia, che ti prega di inviare denaro immediatamente.
Fai loro domande, cercando di capire. C’è qualcosa di strano nelle loro risposte, che sono o vaghe, e a volte c’è uno strano ritardo, quasi come se stessero pensando un po’ troppo lentamente. Tuttavia, sei certo che sia sicuramente la persona amata a parlare: questa è la sua voce che senti e l’ID del chiamante mostra il suo numero. Considerando la stranezza della situazione, invii i soldi sul conto bancario che ti forniscono.
Il giorno dopo, li richiami per assicurarti che sia tutto a posto. La persona non ha idea di cosa stai parlando. Questo perché non ti hanno mai chiamato: sei stato ingannato dalla tecnologia, una voce deepfake. Migliaia di persone sono state truffate in questo modo nel 2022.
Tutto questo è possibile grazie al deep learning, l’editing e l’ingegneria audio, tute cose che hanno reso sempre più possibile simulare in modo convincente la voce di una persona.
Ancora peggio, i chatbot come ChatGPT stanno iniziando a generare script realistici con risposte adattive in tempo reale. Combinando queste tecnologie con la generazione della voce, un deepfake passa dall’essere una registrazione statica a un avatar dal vivo e realistico che può avere una conversazione telefonica in modo convincente.
Creare un deepfake avvincente di alta qualità, sia esso video o audio, non è comunque facile da fare. Richiede una vasta gamma di capacità artistiche e tecniche, un hardware potente e un campione abbastanza consistente della voce target.