La partnership tra Google, il Weizmann Institute of Science, l’Università di Tel Aviv e Technion – Israel Institute of Technology, ha permesso al team di ricerca di creare Lumiere. Questo nuovo modello di diffusione spazio-temporale, come definito dagli stessi ricercatori, permette di generare dei video partendo da semplici input testuali.
Nel documento ufficiale della ricerca che accompagna l’annuncio di Lumiere viene spiegato il funzionamento del modello. Gli sviluppatori hanno voluto che Lumiere fosse semplice da utilizzare, rendendolo estremamente user friendly.
Basta inserire nel campo di testo gli elementi essenziali per la realizzazione del video come il soggetto, l’azione da compiere e lo stile. Attraverso l’Intelligenza Artificiale verrà creato un video con movimenti realistici secondo le indicazioni fornite.
Il risultato è assolutamente strabiliante, con la possibilità di ottenere sempre video che non sembrano per nulla generati automaticamente. La resa è sempre fotorealistica e i movimenti saranno sempre fluidi e mai a scatti.
Inoltre, le potenzialità offerte dall’IA rendono estremamente versatile Lumiere. Si può fornire un’immagine come riferimento e chiedere al modello di realizzare un filmato utilizzando lo stile della reference. Come se non bastasse, sarà possibile anche caricare foto e animare solo determinate sezioni per creare foto dall’altissimo impatto visivo.
Dal punto di vista tecnico, Lumiere può generare 80 fotogrammi a 16 fps con una risoluzione di 1024×1024 pixel. L’IA su cui si basa il modello è stata addestrata con 30 milioni di video come database di riferimento. Tuttavia, lo sviluppo della tecnologia proseguirà e certamente le potenzialità continueranno a cresce esponenzialmente.