La competizione che c’è tra Google e OpenAI trova sfogo questa volta su un ulteriore campo di battaglia: quello relativo alla creazione di video AI realistici. BigG ha sfidato l’azienda creatrice di ChatGPT offrendo il modello Veo 2. Con questo, Google intende provare a superare Sora di OpenAI, lanciato alcuni giorni fa.
Veo 2: video fino a 4K e oltre due minuti di durata
Il nuovo modello Veo 2 promette prestazioni significative rispetto al predecessore: è in grado di generare clip più lunghe, superando i due minuti di durata, e di raggiungere una risoluzione fino a 4K (4096 x 2160 pixel). Per confronto, Sora di OpenAI si limita a video da 20 secondi a 1080p.
Tuttavia, queste capacità rimangono, per ora, teoriche. Veo 2 è attualmente disponibile in forma limitata nell’app VideoFX, uno strumento sperimentale di Google. Qui, i video generati non superano ancora gli otto secondi e sono limitati a 720p. Google ha annunciato che sta gradualmente aumentando il numero di utenti con accesso a VideoFX e che il lancio ufficiale verso piattaforme come YouTube Shorts è previsto per il 2025.
Le caratteristiche di Veo 2 di Google
DeepMind ha migliorato diverse aree critiche del modello. Veo 2 offre:
- Migliore comprensione delle dinamiche fisiche: i movimenti risultano più realistici, con immagini più nitide, texture definite e dettagli precisi, anche in scene dinamiche;
- Controlli avanzati della camera virtuale: il modello può muovere la “camera” in modo più accurato, simulando diverse angolazioni, lenti ed effetti cinematografici, per un risultato più professionale e vicino al linguaggio visivo dei film;
- Espressioni umane più realistiche: Veo 2 cattura meglio le sfumature nelle espressioni dei volti, rendendo i contenuti generati dall’AI più naturali.
Nonostante i miglioramenti, il modello non è ancora perfetto: DeepMind ha mostrato esempi impressionanti, ma restano alcune imperfezioni, come superfici troppo levigate o figure umane che si fondono in modo innaturale.
Come altri modelli di intelligenza artificiale, Veo 2 è stato addestrato su una vasta quantità di video, imparando a riconoscere schemi e dettagli per generare nuovi contenuti. Google non ha specificato le fonti esatte, ma YouTubesembra essere una delle opzioni più probabili, considerando che la piattaforma è di sua proprietà.
Per contrastare la disinformazione, Veo 2 include un watermark invisibile chiamato SynthID, che identifica i contenuti come AI-generated. Tuttavia, l’efficacia di questa soluzione dipende dalla capacità degli utenti di rilevare e riconoscere i marchi digitali, cosa che potrebbe non essere scontata.
Imagen 3: l’evoluzione dell’immagine AI
Oltre a Veo 2, Google DeepMind ha annunciato miglioramenti per Imagen 3, il suo modello AI dedicato alla generazione di immagini. La nuova versione è ora disponibile su ImageFX, lo strumento di creazione immagini di Google. Imagen 3 promette risultati più luminosi e ben composti, con uno spettro stilistico che spazia dal fotorealismoall’impressionismo fino agli stili anime.