▶Perché hai bisogno di una soluzione integrata per il ciclo di vita dei dati

Il confronto
Notizie e aggiornamenti
Perché hai bisogno di una soluzione integrata per il ciclo di vita dei dati

                Casi todas las empresas que han pasado por una transformación digital han luchado por hacer el mejor uso de la gran cantidad de datos recopilados.  De hecho, estimamos que para la mayoría de las empresas, el 85-95% de los datos nunca se utilizan por completo y, por lo tanto, se desperdician.

                Casi todas las empresas que han pasado por una transformación digital han luchado por hacer el mejor uso de la gran cantidad de datos recopilados.  De hecho, estimamos que para la mayoría de las empresas, el 85-95% de los datos nunca se utilizan por completo y, por lo tanto, se desperdician.

Ci sono molte fasi nel ciclo di vita dei dati, tra cui l'acquisizione dei dati, la creazione di set di dati/ingegneria dei dati per dare un senso ai dati grezzi, l'archiviazione di massa dei dati per un uso/analisi successivi, la creazione di database per esplorare i dati e, infine, la capacità di utilizzare analisi avanzate e/o machine learning per estrarre insight da dati non disponibili attraverso semplici report, mantenendo la sicurezza dei dati e la piena conformità alle normative. La sfida per molte organizzazioni è come configurare al meglio un sistema di questo tipo, mantenendo i costi ragionevoli e riducendo al minimo i tempi di implementazione/operatività, nonché la sfida di presentare i dati in modo significativo in modo che le persone possano ricavarne approfondimenti. Ciò che serve è un modo per gestire l'intero ciclo di vita dei dati, dall'acquisizione all'analisi fino agli approfondimenti, mantenendo i vantaggi e l'usabilità dell'open source. 'Nativo on-premise e/o ibrido o cloud computing. I data warehouse esistono da tempo e possono gestire l'archiviazione e la consegna, ma non forniscono una soluzione completa. Molte organizzazioni hanno implementato data cloud, sia attraverso open source puro (es. Apache Hadoop) che come prodotti commerciali (es. Talend, Informatica, Amazon Redshift, IBM, SAP, Oracle, ecc.), ma questo non risolve il ciclo di vita del dataset sfida e spesso richiede l'uso di molti plugin disparati che potrebbero non integrarsi facilmente. Sebbene i sistemi/software open source sembrino molto allettanti, soprattutto dal punto di vista dei costi, l'approccio "fai da te" all'implementazione di una soluzione funzionante è spesso impegnativo e "gratuito" non è realmente "gratuito". Il tempo di attività completo viene drasticamente ridotto scegliendo una soluzione completa, così come la complessità del supporto e delle operazioni in corso. Questo approccio può far risparmiare alle distribuzioni aziendali decine di milioni di dollari nel lungo periodo. Stimiamo che i problemi di complessità e integrazione causino il fallimento o il fallimento del 50-65% di tutti i sistemi aziendali tutti insieme. Inoltre, i costi di manutenzione continua dei sistemi non ottimizzati hanno un impatto significativo sul budget operativo e stimiamo che possano essere da 2 a 5 volte il costo di soluzioni completamente integrate e pacchettizzate. Il problema di tutto ciò, oltre al costo e alla necessità di molteplici competenze tecniche e risorse disponibili, è che il risultato finale desiderato, il tempo necessario per comprendere, si prolunga e potrebbe non essere mai raggiunto del tutto. Questo periodo di riflessione è molto costoso. È molto più efficiente trovare una soluzione che sia open source, ma che abbia creato tutte le integrazioni necessarie per creare un sistema completo che possa essere implementato facilmente e rapidamente e infine supportato in modo efficace. Come esempio di una soluzione più completa per il ciclo di vita dei dati, Cloudera ha creato un approccio integrato con la sua Cloudera Data Platform (CDP), che include non solo l'acquisizione e l'archiviazione dei dati, ma consente anche il "machine learning" e riduce i tempi di comprensione, mentre incluso un profilo di approccio alla sicurezza dei dati a più livelli. Integra acquisizione dati, flusso di dati, ingegneria dei dati, data warehousing, database e machine learning (ML) in un framework estensibile e consente l'integrazione di funzionalità aggiuntive che necessitano di un ecosistema di partner in espansione. Funziona on-premise, in un cloud ibrido o in un cloud pubblico e, se distribuito come distribuzione cloud, può virtualmente eliminare i ritardi associati alla distribuzione di singoli componenti, risparmiando potenzialmente mesi di comprensione dei dati. Questo è essenziale in molte aziende in cui i ritardi possono essere costosi e/o causare danni. Ad esempio, ritardare il rilevamento delle frodi per alcuni minuti o ore può portare a enormi perdite a lungo termine. Secondo l'American Bankers Association Deposit Account Fraud Investigation Report del 2019, le banche statunitensi UU. Hanno impedito 22.300 miliardi di dollari di tentativi di frode contro i conti di deposito nel 2018, mentre i tentativi di frode totali ammontavano a 25,1 miliardi di euro. Anche con questo elevato livello di prevenzione, è probabile che un'analisi più proattiva e tempestiva avrebbe potuto fermare gran parte dei restanti 2.8 miliardi di euro di frodi. E mentre l'analisi delle frodi finanziarie è spesso presentata come un ottimo candidato per tali sistemi di analisi dei dati, questa è solo la punta dell'iceberg. L'analisi ritardata dei dati/tendenze sulla salute può creare un'opportunità per una malattia di diffondersi senza essere rilevata e infettare molte più persone, come abbiamo visto nell'attuale crisi pandemica, oltre a creare sfide dovute alla mancanza di una corretta diagnosi e post-trattamento. Mentre ci muoviamo verso un maggiore utilizzo di sessioni di telemedicina remota e una maggiore dipendenza dal monitoraggio remoto e da analisi sanitarie più automatizzate, i dati raccolti con precisione sono di fondamentale importanza perché qualsiasi diagnosi errata dovuta a dati errati può avere un costo elevato sia per le persone che per i sistemi di consegna. Varie stime stimano il costo di una diagnosi errata fino al 30% del costo totale delle cure mediche. Nel 2018, gli Stati Uniti hanno speso circa 3.6 trilioni di euro per l'assistenza sanitaria, con una media di circa 11,000 euro a persona. Il passaggio a un ruolo più inclusivo per i sistemi sanitari remoti richiede una capacità del ciclo di vita dei dati molto più forte di quella attualmente disponibile in molte istituzioni, al fine di eliminare o almeno ridurre significativamente gli errori. diagnosi e problemi associati. Inoltre, un modo per condividere i dati personali tra diverse organizzazioni al fine di valutare meglio le tendenze e fornire categorie più ampie di persone da analizzare su base riservata è un altro motivo per un processo di gestione del ciclo economico. Una maggiore durata dei dati può proteggere la privacy e soddisfare tutti i criteri pertinenti. I problemi di conformità normativa sono fondamentali. Altri settori, come la vendita al dettaglio, la produzione, i prodotti farmaceutici, i trasporti e molti altri, trarrebbero vantaggio da questo approccio alla gestione del ciclo di vita dei dati. Conclusione: una piattaforma più inclusiva per la gestione completa del ciclo di vita dei dati è fondamentale mentre ci muoviamo verso un mondo più basato sui dati e trasformato digitalmente. In molte aziende i dati sono deperibili, poiché qualsiasi mancanza di informazioni tempestive può causare danni fisici o finanziari significativi. Le aziende dovrebbero adottare un approccio di piattaforma alla gestione del ciclo di vita dei dati che non richieda una profonda integrazione interna o un lungo ciclo di implementazione, sia per grandi progetti business-to-business che per progetti individuali o in corso. piccoli gruppi.