Meta e un gruppo di ricercatori dell'Università del Texas ad Austin (UT Austin) stanno lavorando per portare un suono realistico nel Metaverse.
Come spiega Kristen Garuman, direttrice della ricerca presso Meta AI (si apre in una nuova scheda), la realtà aumentata e virtuale (rispettivamente AR e VR) non riguardano solo la grafica. L'audio gioca un ruolo molto importante nel dare vita a un mondo. Garuman afferma che “l'audio è modellato dall'ambiente in cui [si trova]. Ci sono diversi fattori che influenzano il comportamento del suono, come la geometria di una stanza, cosa c'è in quella stanza e quanto è lontana una persona da una sorgente.
Per raggiungere questo obiettivo, il piano di Meta è utilizzare gli occhiali AR per registrare audio e video da un'unica posizione, quindi utilizzare una serie di tre modelli di intelligenza artificiale per trasformare e ripulire la registrazione in modo che sembri che stia accadendo di fronte a te quando la riproduci indietro. A casa. Le IA terranno conto della stanza in cui ti trovi per adattarsi all'ambiente.
Guardando i progetti, sembra che Meta si stia concentrando sugli occhiali AR. Il piano di Meta per i visori VR include la riproduzione di immagini e suoni di un ambiente, come un concerto, così ti senti come se fossi lì di persona.
Abbiamo chiesto a Meta come le persone possono ascoltare un audio migliorato. Le persone avranno bisogno di un paio di cuffie per ascoltare o proverranno dalle cuffie? Non abbiamo ricevuto risposta.
Abbiamo anche chiesto a Meta come gli sviluppatori possono mettere le mani su questi modelli di intelligenza artificiale. Sono stati resi open source in modo che gli sviluppatori esterni potessero lavorare sulla tecnologia, ma Meta non ha fornito ulteriori dettagli.
Trasformato dall'IA
La domanda è come Meta può registrare l'audio su un paio di occhiali AR e farlo riflettere una nuova impostazione.
La prima soluzione è nota come AViTAR, che è un "Visual Acoustic Matching Model". (si apre in una nuova scheda) Questa è l'IA che trasforma l'audio per adattarsi a un nuovo ambiente. Meta fa l'esempio di una madre che registra il recital di ballo di suo figlio in un auditorium con un paio di occhiali AR.
Uno dei ricercatori afferma che la madre in questione può prendere questa registrazione e riprodurla a casa dove l'IA trasformerà l'audio. Scansionerà l'ambiente, terrà conto di eventuali ostacoli in una stanza e farà suonare il recital come se stesse accadendo proprio di fronte a lei con gli stessi occhiali. L'investigatore afferma che il suono proverrà dagli occhiali.
Per aiutare a ripulire l'audio, c'è un dereverb visivamente informato (si apre in una nuova scheda). Fondamentalmente, rimuove il riverbero che distrae dalla clip. L'esempio fornito è quello di registrare un concerto di violino in una stazione ferroviaria, portarlo a casa e fare in modo che l'IA pulisca la clip in modo da ascoltare solo la musica.
L'ultimo modello di intelligenza artificiale è VisualVoice (si apre in una nuova scheda), che utilizza una combinazione di segnali visivi e audio per separare le voci da altri rumori. Immagina di registrare un video di due persone che litigano. Questa intelligenza artificiale isolerà una voce in modo da poterla capire mentre silenzia tutto il resto. Meta spiega che i segnali visivi sono importanti perché l'IA ha bisogno di vedere chi sta parlando per capire alcune sfumature e sapere chi sta parlando.
Per quanto riguarda la grafica, Meta afferma di voler incorporare video e altri segnali per migliorare ulteriormente l'audio basato sull'intelligenza artificiale. Poiché questa tecnologia è ancora nelle prime fasi di sviluppo, non è chiaro se e quando Meta porterà queste IA su un visore Quest vicino a te.
Assicurati di leggere la nostra ultima recensione di Oculus Quest 2 se stai pensando di acquistarne uno. Avviso spoiler: ci piace.