Cerebras Systems, produttore del processore più grande del mondo, ha battuto il record per il modello di intelligenza artificiale più complesso addestrato su un singolo dispositivo.

Utilizzando un sistema CS-2, alimentato dal chip delle dimensioni di un wafer dell'azienda (WSE-2), Cerebras può ora addestrare modelli di intelligenza artificiale con un massimo di 20 miliardi di parametri attraverso nuove ottimizzazioni a livello di software.

L'azienda afferma che questa svolta risolverà uno dei problemi più frustranti per gli ingegneri dell'IA: la necessità di partizionare modelli su larga scala su migliaia di GPU. Il risultato è un'opportunità per ridurre drasticamente i tempi di sviluppo e formazione di nuovi modelli.

Cerebras porta l'IA alle masse

In sottodiscipline come l'elaborazione del linguaggio naturale (NLP), le prestazioni del modello sono correlate linearmente con il numero di parametri. In altre parole, più grande è il modello, migliore sarà il risultato finale.

Oggi lo sviluppo di prodotti di intelligenza artificiale su larga scala implica tradizionalmente lo streaming di un modello su un gran numero di GPU o acceleratori, perché ci sono troppi parametri da archiviare in memoria o prestazioni di elaborazione insufficienti per gestire i carichi di lavoro di addestramento.

"Questo processo è doloroso e spesso richiede mesi", ha spiegato Cerebras. A peggiorare le cose, il processo è unico per ogni coppia di cluster di calcolo nella rete, quindi il lavoro non è trasferibile tra diversi cluster di calcolo o reti neurali. È completamente personalizzato. »

Sebbene i modelli più complessi siano costituiti da oltre 20 miliardi di parametri, la possibilità di addestrare modelli di IA su larga scala su un singolo dispositivo CS-2 rimuove questi colli di bottiglia per molti, accelerando lo sviluppo per i giocatori esistenti e democratizzando l'accesso per coloro che in precedenza non erano in grado di fare così. . partecipare allo spazio.

"La capacità di Cerebras di fornire modelli linguistici di grandi dimensioni al pubblico in generale con un accesso facile ed economico inaugura una nuova entusiasmante era nell'IA. Offre alle organizzazioni che non possono permettersi di spendere decine di milioni di euro un percorso facile e conveniente per la PNL di grandi dimensioni”, ha affermato Dan Olds, Direttore della ricerca, Intersect360 Research.

"Sarà interessante vedere quali nuove applicazioni e scoperte faranno i client CS-2 durante l'addestramento di modelli di classi GPT-3 e GPT-J su enormi set di dati".

Inoltre, Cerebras ha suggerito che il suo sistema CS-2 potrebbe gestire modelli ancora più grandi in futuro, con "anche trilioni di parametri". Nel frattempo, il concatenamento di più sistemi CS-2 potrebbe aprire la strada a reti di intelligenza artificiale più grandi del cervello umano.

Condividi questo