Microsoft ha annunciato un nuovo modello di intelligenza artificiale chiamato VALL-E, che si basa sulla sintesi vocale. Questo è in grado di simulare la voce di chiunque utilizzando solo un campione audio di tre secondi, preservando anche il tono emotivo. Il modello potrebbe essere utilizzato per l’editing vocale e la creazione di contenuti audio, se combinato con altri modelli di IA generativi come GPT-3.
Intelligenza Artificiale: i potenziali utilizzi di VALL-E
La tecnologia alla base di VALL-E si chiama EnCodec, che è stata annunciata da Meta nel Ottobre 2022. Encodec si differenzia da altri modelli di sintesi vocale generando i codec audio da messaggi di testo e acustici. Microsoft ha sottolineato che il modello potrebbe essere utilizzato impropriamente come spoofing dell’identificazione vocale o l’impersonificazione di un oratore specifico. Per questo si è raccomandato di sviluppare un sistema di rilevamento per capire se una clip audio è stata sintetizzata da VALL-E.
Il rilascio di questa IA segue la spinta di Microsoft nel settore dell’intelligenza artificiale, e conferma i rumor emersi di recente che suggeriscono che ChatGPT potrebbe essere integrato in Office. L’azienda sta investendo sempre più in tecnologie di intelligenza artificiale per migliorare la produttività e la connettività degli utenti, nonché per creare nuove opportunità di business.
Inoltre, Microsoft ha anche menzionato alcuni potenziali utilizzi di VALL-E in ambito assistenza virtuale, trasformazione dell’esperienza di gioco, accessibilità per persone con disabilità e generazione di contenuti audio per l’intrattenimento.
Ad ogni modo, VALL-E rappresenta un importante passo avanti nello sviluppo della tecnologia di sintesi vocale basata sull’intelligenza artificiale, e Microsoft si sta impegnando al fine di garantire la sicurezza e la privacy dei suoi utenti.