Meta salva milioni con questo intelligente trucco di memoria

Meta salva milioni con questo intelligente trucco di memoria

Gli ingegneri della società madre di Facebook, Meta, hanno rivelato come sono stati in grado di offrire memoria gratuita utilizzando una soluzione software chiamata Transparent Memory Offloading (TMO).

Ora fa parte del kernel Linux e, in parole povere, scarica automaticamente i dati su altri livelli di archiviazione (ad esempio, l'espansore di memoria CX di Samsung) che sono meno costosi e più efficienti della memoria.

I risparmi sono notevoli; TMO è in esecuzione su milioni di server di Facebook da oltre un anno, risparmiando fino a quasi un terzo della memoria per server. Anche se questo sarebbe probabilmente insignificante su dozzine o addirittura centinaia di server, la vastità di Facebook rappresenta una sfida unica.

Analisi: il gigantesco appetito di Facebook per la RAM

Il social network più grande del mondo conta quasi tre miliardi di utenti attivi mensilmente e milioni di server in 21 località in tutto il mondo. Se ogni server avesse in media 128 GB di RAM, ciò rappresenterebbe 256 milioni di GB (o 256 PB) di RAM, che, ad un costo medio di 4 euro per GB (RAM DDR4 ECC), rappresenta circa 1 miliardo di euro in memoria . Ciò presuppone che Facebook abbia almeno due milioni di server (il blog di Facebook citava “milioni di server” già nel luglio 2018), e il numero effettivo è probabilmente molto più alto.

I dati presentati dal team che ha lavorato su TMO hanno mostrato che il costo della memoria è un terzo della BOM del server Meta, con RAM e SSD compressi che rappresentano meno dell'11%. Ancora più preoccupante, il costo della RAM (come percentuale dell'infrastruttura totale) è più che raddoppiato da quando Facebook ha lanciato la sua prima generazione di server (è attualmente alla quarta).

L'adozione del TMO presenta alcuni inconvenienti; più specificamente, il degrado delle prestazioni. Ma i guadagni in termini di risparmio energetico e di memoria superano di gran lunga gli svantaggi e le future iterazioni combinate con miglioramenti hardware (ad esempio SSD o CXL più veloci) forniranno un'ulteriore mitigazione.