Le sfide della conservazione dei dati scientifici.

Le sfide della conservazione dei dati scientifici.

Karen Ambrose è a capo del database presso il Francis Crick Institute di St. Pancras, Londra. L'abbiamo incontrata alla conferenza Percona Live 2019 ad Amsterdam per capire le complessità inerenti alla gestione dei database in una struttura scientifica. Karen è con Francis Crick da circa cinque anni. Ha una formazione in bioinformatica ed è durante la laurea magistrale che si interessa di applicare la tecnologia per comprendere meglio i dati scientifici.

Karen ha iniziato la sua carriera presso il Sanger Institute di Cambridge mentre stavano mappando il genoma umano prima di passare al Francis Crick Institute. Il Francis Crick Institute è nato da una fusione tra diverse organizzazioni di ricerca, tra cui il National Institute for Medical Research (NIMR) e il London Research Institute (LRI).

Il suo primo compito è stato quello di migrare i dati da diversi database di diverse organizzazioni: "Inizialmente avevamo un periodo da 9 mesi a un anno, a mio parere, per migrare fisicamente e migrare Francis Crick. Dobbiamo migrare circa 300 database. Ma è stato in un paesaggio in cui i gruppi non sono stati spostati completamente allo stesso tempo. Quindi potresti avere un gruppo, che fondamentalmente parlerà con un gruppo di database in un sito. La metà di questo gruppo viene trasferita a Francis Crick e l'altra metà è lì, poiché devono chiudere i loro laboratori per spostarsi. E dobbiamo rendere disponibili questi dati sul nuovo sito e sul vecchio sito ".

Ciò che rendeva il compito ancora più difficile era che non si trattava solo di un insieme di database assegnati a un gruppo in movimento; Alcuni di questi database sono stati condivisi tra cinque gruppi che si muovevano in momenti diversi. Karen descrive la migrazione come un miscuglio di pezzi degli scacchi durante il quale ha dovuto assicurarsi che nessun dato fosse danneggiato e che fosse disponibile per le squadre che stavano ancora lavorando lì, con il minor tempo di inattività possibile.

Sembra un compito erculeo e, date le scadenze ravvicinate, sarebbe stato un esercito di oppositori del database: "Ci sono quattro di noi nel team, me compreso.

(Credito immagine: Shutterstock)

Strategie di archiviazione

"Nel corso degli anni, abbiamo essenzialmente costruito una montagna di dati scientifici. I dati non si riducono, sembrano solo diventare più complessi e voluminosi".

L'istituto conta circa 1500 persone, di cui circa 1.300 scienziati e 200 dipendenti operativi. Circa 130 gruppi di laboratorio supportati da circa 18-20 piattaforme tecnologiche scientifiche (STP) forniscono servizi di base ai gruppi di laboratorio per espandere le loro conoscenze: elaborazione scientifica, comprese le apparecchiature di database che gestisco. . Pertanto, forniamo un servizio di base al resto dell'Istituto. "

"Per noi, sono molti i dati che provengono da questi strumenti", afferma Karen. Oltre a garantire che forniscano la piattaforma giusta per aiutare gli scienziati ad analizzare i dati grezzi della macchina, uno dei compiti principali di Karen e del suo team è archiviarli in modo efficace: "Dobbiamo determinare cosa possiamo memorizzare in memoria. Abbiamo all'interno dell'istituto, e anche quali altre strategie dobbiamo integrare, in termini di cloud computing, per aiutarci a fornire le informazioni scientifiche necessarie a un particolare gruppo di laboratori ".

La prima sfida, ci dice, è gestire e proteggere tutti i dati generati: "Se le persone generano dati, generalmente vogliono conservare tutto, perché non sai mai veramente quando ne hai bisogno. Ma noi non possiamo tenere fisicamente tutto. Quindi il tuo team lavora con i gruppi di laboratorio per identificare i dati importanti e separarli dai dati che possono essere generati.

La prossima sfida è la performance. Mentre per alcuni scienziati la velocità di elaborazione non è importante fintanto che possono accedere ai dati, ma per altri le prestazioni sono importanti: "Siamo sempre alla ricerca del modo migliore per progettare il tuo database". dati, come dovrebbero essere strutturati questi dati? Ancora una volta, la soluzione di Karen viene discussa durante le discussioni con i laboratori per capire di cosa hanno bisogno dai dati.

(Credito immagine: Credito immagine: Shutterstock / Imilian)

Il vantaggio dell'open source

Il Francis Crick Institute utilizza diversi tipi di database. Mentre per le aziende usano Oracle o SQL Server, Karen tende a guidare i gruppi scientifici verso database di codice open source. L'Istituto utilizza database relazionali come MySQL e Postgres, ma inizia a esplorare database NoSQL come MongoDB, Neo4j, Cassandra e altri. È particolarmente interessata alla ricerca di Neo4j perché "è interessante in termini di rappresentazione grafica delle relazioni tra i dati".

A Karen piace anche lavorare con i database open source grazie al suo modello di sviluppo aperto: "Se proponi qualcosa, un nuovo problema che vuoi risolvere, è molto più facile parlare con l'intera comunità in modo che tu possa trovare una soluzione. innovare, sempre fanno accadere le cose. Quindi non penserai mai che sarai sempre limitato da un processo di pubblicazione stagnante ".