Nel mese di dicembre, Google Foto ha aggiunto una grande novità: le immagini 3D. Google le chiama “immagini cinematografiche” e possono essere generate automaticamente dall’applicazione, facendo clic sulla sezione dei momenti salienti recenti.
Dal blog di Google hanno voluto spiegare come riescono a dare movimento alle foto, conferendole un effetto 3D così suggestivo. Come sempre, dietro questa tecnologia si nascondono le reti neurali e una immensa esperienza computazionale.
Secondo Google, con le immagini cinematografiche si vuole provare a far rivivere all’utente “la sensazione di immersione del momento in cui è stata scattata la foto”, simulando sia il movimento compiuto dalla fotocamera che il parallasse 3D. Dunque, come si converte un’immagine 2D in un’immagine 3D?
Google spiega che, come succede con la modalità ritratto o la realtà aumentata, le immagini cinematografiche richiedono una mappa di profondità per poter fornire informazioni sulla struttura 3D. Per ottenere questo effetto su qualsiasi dispositivo che non dispone di una doppia fotocamera, hanno addestrato una rete neurale convoluzionale per
prevedere una mappa di profondità da una singola immagine RGB.Con un solo punto di vista (il piano della foto), è in grado di stimare la profondità della fotografia con tasti monoculari come le dimensioni relative degli oggetti, prospettiva della fotografia, sfocatura e altro. Per rendere queste informazioni più complete, utilizzano i dati raccolti con la fotocamera del Pixel 4, per combinarli con altre fotografie scattate con fotocamere professionali dal team di Google.
Fondamentalmente, la tecnica è simile a quella della modalità Ritratto Pixel: l’immagine viene analizzata, segmentata e una volta isolato lo sfondo, il movimento viene simulato spostando lo sfondo. Questo è molto più complesso, poiché nella fotografia sono necessarie diverse correzioni e analisi poiché alcuni pixel mal interpretati potrebbero rovinare il risultato finale.