Google ha utilizzato i video di YouTube della sfida manichino per allenare il suo AI

Sommario:

Cosa hai bisogno di sapere
Ottieni più Pixel 3a
Google Pixel 3a

Cosa hai bisogno di sapere

Google sta addestrando la sua IA per creare mappe di profondità che isolano i soggetti umani nella scena utilizzando una sola telecamera.
Come punto di partenza, Google ha utilizzato 2000 video di YouTube dal Mannequin Challenge per allenare l'IA.
I risultati porteranno alla possibilità di aggiungere effetti ai video, come la modalità ritratto, e di essere utilizzati per la realtà aumentata.

In un recente post sul blog, Google ha spiegato in dettaglio come ha funzionato sulla percezione della profondità nei video in cui si muovono sia la fotocamera che il soggetto. Come punto di partenza, lo studio aveva bisogno di accedere a una grande quantità di dati per addestrare l'IA e il primo passo logico era addestrarlo per rilevare le persone in una scena in cui la telecamera si muoveva ma le persone erano statiche.

A quanto pare, Google aveva la risorsa perfetta per questi dati sotto forma di video di YouTube che sono stati girati per la Mannequin Challenge. In questa sfida, una persona o un gruppo di persone rimarrebbero completamente immobili mentre una telecamera si spostava sulla loro posizione. Google ha utilizzato 2000 video della sfida per aiutare a formare la sua intelligenza artificiale per rilevare figure umane in una varietà di scene diverse.

Qualcosa che rende questo studio ancora più interessante è il fatto che Google sta insegnando alla sua intelligenza artificiale a creare mappe di profondità usando filmati che sono stati girati usando solo una fotocamera. La maggior parte delle volte, è necessario utilizzare più telecamere per rilevare informazioni sulla profondità in una scena.

Google utilizza già qualcosa di simile per le immagini fisse per creare il suo effetto in modalità ritratto sui telefoni Pixel. Tuttavia, ciò riguarda solo le immagini fisse. Il nuovo metodo che Google ha sviluppato sta addestrando la sua IA per creare una mappa di profondità in cui sia la fotocamera che il soggetto si muovono all'interno di una scena.

Diramandosi in video, aprirà in futuro funzionalità per la creazione di bokeh in scene video simili alla modalità ritratto sul telefono. Un altro vantaggio derivante da questo studio saranno i risultati migliorati per la realtà aumentata, come i Playmoji del Playground di Google.

Un'altra possibilità sarà la generazione di immagini 3D da scene 2D. Mentre l'hardware della fotocamera è sempre stato essenziale per la fotografia e la videografia, ciò che Google ha fatto negli anni con il software mostra che, in futuro, gli algoritmi saranno altrettanto importanti e aiuteranno a fornire nuove esperienze.