Il team di ricerca composto dai ricercatori
A livello teorico, il funzionamento di questa IA si basa su una prima fase di analisi e sulla Codifica dei Fotogrammi. In questo modo, è possibile estrapolare le caratteristiche principali dall’immagine di riferimento e, di conseguenza, dei fotogrammi di movimento. La fase successiva è quella del Processo di Diffusione che permette di incorporare l’audio nelle immagini generate.
In seguito, viene elaborata la maschera della regione facciale
in modo da tracciare i punti principali del viso e consentire l’elaborazione dei movimenti. Infine, attraverso il controllo continuo rispetto alla traccia audio e alla reference, EMO elabora il filmato garantendo il rispetto del personaggio e la correlazione con l’audio.
I movimenti ottenuti nel video generato da EMO saranno sempre realistici e credibili con espressioni facciali molto espressive e movimenti della testa coerenti. Inoltre, il funzionamento dell’Intelligenza Artificiale è basata sulla lunghezza della traccia audio caricata e sarà questa a determinare la lunghezza del filmato finale. I ricercatori assicurano la lunghezza del filmato non rappresenta un problema in quanto la generazione dei movimenti sarà casuale, garantendo movimenti sempre dinamici e variegati.
La ricerca completa è stata pubblicata in rete ma su X/Twitter e YouTube è possibile ammirare le potenzialità di EMO.