Ecco il segreto della tecnologia di upconversion AI 8K

Ecco il segreto della tecnologia di upconversion AI 8K

La strategia di vendita di Samsung per le vendite di TV nel 2020 è semplice: 8,000 o meno. Mentre le sue vendite di TV 4K economiche QLED sono sottoutilizzate dai televisori 4K economici, Samsung prevede di spostare nuovamente il mercato, verso un formato che ha (finora) pochissimi concorrenti, ma anche pochissimi contenuti nativi.

Tuttavia, come abbiamo visto nel nostro 4K vs. 8K all'inizio di quest'anno, in realtà non hai bisogno di riprese video con risoluzione 780 × 4320 (8K) per riprendere tutti questi milioni di pixel: i televisori Samsung 8K utilizzano l'upconversion per convertire qualsiasi immagine. tipo di video (da SD a 4K e tutto il resto) con risoluzione 8K.

Naturalmente, l'aumento dei livelli non è nuovo. Per anni, i televisori 4K e persino HD hanno trovato il modo di estendere i contenuti a bassa risoluzione per adattarli al rapporto pixel/pollice più elevato dei televisori moderni. Ma poiché i televisori 8K devono occupare quattro pixel 4K, i metodi convenzionali di upconversion semplicemente non funzionano, per ragioni che discuteremo più avanti.

Ora, dopo aver visitato i laboratori di controllo qualità di Samsung nel New Jersey e aver parlato con i suoi ingegneri, abbiamo un'idea migliore di come Samsung utilizzi l'intelligenza artificiale e l'apprendimento automatico per farlo sembrare così. è possibile eseguire l'upscaling dell'8K e come le sue tecniche di intelligenza artificiale si confrontano con quelle dei primi sforzi dei produttori.

Perché il miglioramento convenzionale sembrava così terribile?

Prima del 1998, le trasmissioni televisive avevano una risoluzione di 720x480 ei film registrati con una qualità superiore venivano compressi per adattarsi a quel formato. Sono 345,600 pixel di contenuto, che occuperebbero solo una piccola finestra sui televisori moderni con rapporti PPI (pixel per pollice) più elevati. Questo contenuto SD? Deve espandersi per coprire più di 2 milioni di pixel in alta definizione, più di 8 milioni per 4K o più di 33 milioni per 8K.

La linea di base per il ridimensionamento è mantenere il rapporto pixel corretto utilizzando una semplice moltiplicazione. Per convertire l'HD in 4K, il processore del televisore deve sfruttare un pixel HD per occupare quattro pixel di spazio sullo schermo a risoluzione più elevata. O 16 pixel durante la conversione HD-8K.

(Credito immagine: Sony)

Senza alcuna elaborazione dell'immagine, l'immagine finì, per citare Tolkien, "in qualche modo allungata, come il burro raschiato da troppo pane". Ogni pezzo di dati diventa anormalmente quadrato, senza gradiente naturale tra dettagli e colori. Ciò provoca un grande blocco o rumore intorno agli oggetti sullo schermo.

Probabilmente vedrai anche qualcosa chiamato "rumore di zanzara". Per comprimere un video in modo che funzioni con la larghezza di banda Internet limitata, le emittenti e i siti Web devono completare il flusso di difetti di colore intenzionali o "artefatti di compressione". Pixel deliberatamente cattivi sciamano intorno alle aree dello schermo dove si trovano forti contrasti, come il ponte marrone contro il cielo blu nell'immagine sopra.

La matematica dietro il movimento del lusso

Di fronte a questi problemi, i programmatori televisivi hanno insegnato ai loro televisori ad analizzare ed elaborare digitalmente le immagini in tempo reale per riempire o riparare i pixel mancanti o danneggiati. E ci sono riusciti usando funzioni matematiche, che puoi dire ai tuoi cari la prossima volta che dicono che troppi televisori ti fanno marcire il cervello.

In particolare, gli ingegneri hanno insegnato al processore televisivo a interpolare il valore del colore di ciascun pixel mancante, in base ai pixel circostanti. Per fare ciò, ha dovuto definire il suo kernel: la funzione che assegna una priorità di colore ai vicini di un pixel, in base alla loro vicinanza.

Il kernel più semplice utilizzato nei televisori è il kernel più vicino, che calcola semplicemente quale pixel è più vicino a un pixel vuoto e incolla gli stessi dati di colore nel pixel vuoto. Questo metodo fa sì che l'immagine assuma un motivo a zig-zag a blocchi, o aliasing, con un bordo debole. Immagina una lettera "A" nera su uno schermo bianco; un pixel mancante appena fuori dalla lettera potrebbe essere riempito di nero, mentre un pixel sul bordo della lettera potrebbe apparire bianco. Il risultato sarà una macchia grigia attorno alla lettera o una scala irregolare in bianco e nero che va su e giù.

Questo grafico illustra il processo di calcolo di un pixel vuoto (il punto "P" verde) basato sull'interpolazione bilineare.  

Questo grafico mostra il processo di calcolo per un pixel vuoto (il punto verde "P") basato sull'interpolazione bilineare.

(Credito immagine: dominio pubblico)

L'interpolazione bilineare richiede più potenza di calcolo, ma è più efficiente. In questo metodo, il pixel vuoto viene confrontato con i due vicini più vicini per formare un gradiente lineare tra di loro, migliorando così la nitidezza dell'immagine. Questo produce effetti visivi più fluidi ma può essere incoerente. Pertanto, altri televisori utilizzano l'interpolazione bicubica, che scatta sui 16 pixel più vicini in tutte le direzioni. Sebbene questo metodo consenta di ottenere il colore più accurato possibile, produce anche un'immagine molto più diffusa, i contorni assumono un fastidioso effetto alone.

Probabilmente puoi indovinare il problema ormai: questi televisori riempiono i pixel in base a formule matematiche che statisticamente hanno maggiori probabilità di produrre immagini accurate, ma non hanno modo di interpretare il loro aspetto tematico in base a ciò che viene effettivamente visualizzato sullo schermo.

Pertanto, dopo aver spiegato come questi algoritmi abbiano costantemente fallito, il team Samsung ha spiegato come la sua intelligenza artificiale superi questi svantaggi.

Il segreto di Samsung: machine learning, riconoscimento degli oggetti e filtri

(Credito immagine: Samsung)

L'arma segreta di Samsung è una tecnica chiamata machine learning super resolution (MLSR). Questo sistema basato sull'intelligenza artificiale prende un flusso video a bassa risoluzione e lo ridimensiona per adattarlo alla risoluzione di uno schermo più grande con un rapporto PPI più elevato. È la vecchia controparte dello scienziato informatico che si avvicina e "migliora" un'immagine sfocata semplicemente premendo un tasto, tranne che è fatto automaticamente e quasi istantaneamente.

I rappresentanti Samsung hanno spiegato come hanno analizzato una grande quantità di contenuti video da diverse fonti (fonti YouTube di alta e bassa qualità, DVD e Blu-Ray, film ed eventi sportivi) e hanno creato due database. immagini, uno per gli screenshot scadenti e uno per gli screenshot di alta qualità.

Ha quindi dovuto addestrare la sua intelligenza artificiale per eseguire un processo chiamato "downgrade inverso" dal settore dell'IA. Innanzitutto, prende immagini ad alta risoluzione e le riduce a risoluzioni inferiori, monitorando i dati visivi persi. Devi quindi invertire il processo e addestrare la tua intelligenza artificiale a inserire i dati mancanti dalle immagini a bassa risoluzione in modo che riflettano le immagini ad alta risoluzione.

Il team Samsung chiama questo processo una "formula". I suoi renderer 8K contengono una banca di formule con un database di formule per diversi oggetti, come una mela o la lettera "A". Quando il renderer riconosce una mela sfocata nella mano di un attore, ripristina i bordi della mela, corregge gli artefatti di compressione e garantisce che i pixel bianchi assumano la tinta rossa corretta in base al colore. aspetto delle mele e non su vaghi algoritmi statistici. . Inoltre, oltre a ripristinare oggetti specifici, l'IA regolerà il tuo stream in base a ciò che stai vedendo.

Secondo Samsung, esistono dozzine di "filtri" diversi che modificano il livello di creazione dei dettagli, riduzione del rumore e ripristino dei bordi per un determinato flusso, a seconda che tu stia guardando uno sport, un genere di film o un tipo di film. cinematografia.

Immagine 1 di 5

(Credito immagine: Michael Hicks)

arrampicata in azione

La TV a sinistra è una TV Samsung 4K senza sovracampionamento AI; La TV a destra è una 8K. A sinistra, puoi vedere blocchi verdi e brutte transizioni dalle sezioni chiare a quelle scure intorno all'attore.

Immagine 2 di 5

(Credito immagine: Michael Hicks)

Informazioni di borsa su uno schermo 4K.

Immagine 3 di 5

(Credito immagine: Michael Hicks)

Confronta questa schermata con quella precedente. Le intestazioni più grandi sono leggibili su entrambi, ma solo questo schermo 8K rende il testo più leggibile. In parte grazie a una migliore lucentezza, ma anche a un migliore ripristino dei bordi.

Immagine 4 di 5

(Credito immagine: Michael Hicks)

Un'altra schermata di testo ripristinata a 8K

Immagine 5 di 5

(Credito immagine: Michael Hicks)

Rispetto alla schermata precedente, qualsiasi testo diverso dall'oggetto di un titolo è molto più difficile da leggere qui.

Secondo gli ingegneri Samsung, ripristinare i contorni presentati nella presentazione precedente, un'incredibile quantità di testo da ripristinare in tempo reale, non è nemmeno il compito più difficile per l'intelligenza artificiale. Invece, replicare in tempo reale le trame corrette di un oggetto rimane una sfida difficile. Devono assicurarsi che il renderer aumenti l'aspetto degli oggetti senza renderli innaturali.

Ciò che il processore non farà (secondo Samsung) è classificare erroneamente un oggetto. "Non trasformerà una mela in un pomodoro", ci ha assicurato un ingegnere, ma senza approfondire. Molto probabilmente, il processore è addestrato a evitare cambiamenti radicali se non riconosce cosa sia un oggetto.

Non vedrai l'intelligenza artificiale alterare l'intento del regista, come ha affermato il team Samsung. Quindi, se un regista utilizza l'effetto bokeh, lo sfondo sfocato rimarrà sfocato, mentre il primo piano verrà composto fino a 8K nitidi.

Hanno anche affermato di non aver esaminato specificamente i feed più popolari per la loro categorizzazione degli oggetti, ma si sono invece concentrati maggiormente sulla quantità complessiva e sulla diversità dei contenuti. Quindi non è noto se abbiano una formula "drago" o "lupo mannaro" per i loro frenetici orologi di Game of Thrones.

& nbsp; L'ultima gamma di televisori QLED & nbsp;

L'ultima gamma di televisori QLED

(Credito immagine: Michael Hicks)

I nuovi televisori Samsung 8K (e 4K) vengono forniti con l'ultima banca formula installata, quindi vengono aggiunti nuovi dati oggetto tramite aggiornamenti del firmware che devi approvare. Samsung afferma che continuerà a testare nuovi flussi visivi per espandere la sua libreria di oggetti, ma lo sta facendo localmente sui server Samsung. non analizza i dati dei televisori personali.

Quante formule di articoli Samsung hai accumulato dalla tua infinita analisi del flusso? Uno dei loro ingegneri ha fornito una quantità di istantanee che sembrava incredibile, suggerendo che il processore avrebbe generalmente riconosciuto un gran numero di oggetti sullo schermo. Ma un funzionario delle pubbliche relazioni è intervenuto e ci ha chiesto di non stampare il numero, dicendo che preferirebbero che i consumatori si concentrassero sulla qualità delle prestazioni del Samsung MLSR piuttosto che su numeri arbitrari.

Miglioramento dell'intelligenza artificiale: la nuova normalità?

Samsung non è l'unico produttore di TV che attualmente utilizza l'intelligenza artificiale e il ripristino delle immagini per i suoi televisori.

La pagina pubblicitaria 4K di Sony presenta dettagli inquietanti sulle sue soluzioni di elaborazione delle immagini AI. I suoi nuovi televisori 4K contengono processori con un "doppio database" di "decine di migliaia" di riferimenti di immagini "che migliorano dinamicamente i pixel in tempo reale".

(Credito immagine: Sony)

In vista del CES 2019, LG ha anche annunciato che il suo nuovo chip TV a9 Gen 2 includerà l'elaborazione delle immagini e l'apprendimento automatico per migliorare la riduzione del rumore e la luminosità, anche analizzando la sorgente e il tipo di supporto e adattando il tuo algoritmo di conseguenza.

Tuttavia, al di là degli elementi di intelligenza artificiale, sembra che questi processori TV facciano ancora affidamento su algoritmi automatizzati. Nella nostra precedente intervista con Gavin McCarron, Head of Technical Marketing and Product Planning di Sony Europe, sull'elaborazione delle immagini AI nei televisori Sony, ha detto quanto segue:

"Quando passi dal Full HD al 4K, ci sono molte congetture e quello che stiamo cercando di fare è eliminare quante più congetture possibili. (Il nostro processore) non guarda solo all'isolamento dei pixel, guarda i pixel che lo circondano e su ogni diagonale e cerca anche i pixel su più fotogrammi, per dare uniformità alla qualità dell'immagine."

È molto probabile che Sony, così come LG e Samsung, utilizzino una forma di algoritmo bilaterale o bicubico come sistema di upconversion. Quindi analizzano i contenuti quasi 4K e determinano quali pixel dovrebbero essere potenziati con l'elaborazione delle immagini e quali dovrebbero essere rimossi come rumore.

In questo senso, la maggior parte dei produttori di TV è relativamente vicina l'una all'altra nella corsa all'intelligenza artificiale di alto livello. L'eccezione è Samsung, che utilizza le stesse tecniche ma riempie quattro volte il numero di pixel mancanti per adattarsi a un display 8K. Dovremo aspettare e vedere se gli sforzi di intelligenza artificiale di altri produttori consentiranno loro di entrare anche nel mercato 8K.