La tecnologia text-to-video di Nvidia porterà i tuoi giochi GIF a un livello superiore

Ora che ChatGPT e Midjourney sono praticamente mainstream, la prossima grande corsa all'IA sono i generatori di testo in video e Nvidia ha appena mostrato alcune incredibili demo della tecnologia che potrebbero presto portare le tue GIF a un nuovo livello.

Un nuovo documento di ricerca e un microsito (si apre in una nuova scheda) del Toronto AI Lab di Nvidia, intitolato "Sintesi video ad alta risoluzione con modelli di diffusione latente", ci offre una panoramica degli incredibili strumenti di creazione che i videoartisti sono pronti a unirsi: elenco crescente di i migliori generatori di arte AI.

I modelli di diffusione latente (o LDM) sono un tipo di intelligenza artificiale in grado di generare video senza la necessità di un'enorme potenza di calcolo. Nvidia afferma che la sua tecnologia lo fa prendendo il lavoro dei generatori di testo in immagine, in questo caso Stable Diffusion, e aggiungendo una "dimensione temporale al modello di diffusione spaziale latente".

Una gif di uno stormtrooper che passa l'aspirapolvere su una spiaggia

(Credito immagine: Nvidia)

In altre parole, la sua intelligenza artificiale generativa può spostare realisticamente immagini fisse e ridimensionarle utilizzando tecniche di super risoluzione. Ciò significa che puoi produrre video brevi di 4,7 secondi con una risoluzione di 1280x2048 o video più lunghi con una risoluzione inferiore di 512x1024 per guidare i video.

Il nostro pensiero immediato dopo aver visto le prime demo (come quelle sopra e sotto) è quanto questo potrebbe far avanzare il nostro gioco GIF. Certo, ci sono ramificazioni più grandi, come la democratizzazione della creazione di video e la possibilità di adattamenti cinematografici automatici, ma a questo punto, il testo in GIF sembra il caso d'uso più eccitante.

Un orsacchiotto che suona una chitarra elettrica.

(Credito immagine: Nvidia)

Semplici suggerimenti come "uno stormtrooper sta passando l'aspirapolvere sulla spiaggia" e "un orsacchiotto sta suonando la chitarra elettrica, HD, 4K" producono risultati abbastanza utilizzabili, anche se naturalmente ci sono artefatti e modifiche ad alcune delle creazioni.

In realtà, questo ha la tecnologia di testo di un video, come le nuove dimostrazioni di Nvidia, più adatte alle miniature e alle GIF. Ma, dati i rapidi miglioramenti osservati nella generazione AI di Nvidia per le scene più lunghe (opens in a new tab), probabilmente non dovremo aspettare clip text-to-video più lunghe nelle librerie stock e oltre.

Analisi: la prossima frontiera dell'IA generativa

Il sole fa capolino dalla finestra di un loft di New York

(Credito immagine: suggerimento)

Nvidia non è la prima azienda a introdurre un generatore di testo video AI. Di recente abbiamo visto il debutto di Google Phenaki (si apre in una nuova scheda), rivelando il suo potenziale per clip più lunghe di 20 secondi basate su cue. Le sue demo mostrano anche una clip, seppur più lunga, della durata di oltre due minuti.

Startup Runway, che ha contribuito a creare il generatore di text-to-image Stable Diffusion, ha anche svelato il suo modello video AI Gen-2 (si apre in una nuova scheda) il mese scorso. Oltre a rispondere a richieste come "il sole pomeridiano che fa capolino dalla finestra di un loft di New York" (risultato sopra), ti consente di fornire un'immagine fissa su cui basare il video generato e ti consente di richiedere stili da applicare anche ai tuoi video .

Quest'ultimo è stato anche un argomento delle recenti demo di Adobe Firefly, che hanno mostrato come l'IA avrebbe semplificato l'editing video. In programmi come Adobe Premiere Rush, sarai presto in grado di digitare l'ora del giorno o la stagione che desideri vedere nel tuo video e l'intelligenza artificiale di Adobe farà il resto.

Demo recenti di Nvidia, Google e Runway mostrano che il rendering full-text-to-video è in uno stato un po' più nebuloso, creando spesso risultati strani, sognanti o distorti. Ma per ora, andrà bene per il nostro gioco GIF, e sono sicuramente in arrivo rapidi miglioramenti che renderanno la tecnologia adatta a video più lunghi.