
Il progetto All of Us mira ad iscrivere un milione di volontari, così come il Mount Sinai Million Health Discoveries Program e la Taiwan Precision Medicine Initiative. La biobanca britannica ha già 500.000 partecipanti e ha messo a disposizione degli scienziati l’intero genoma di 200.000 persone, il più grande rilascio singolo al mondo di dati di sequenziamento dell’intero genoma (WGS) finora. Ciò sarà seguito dal rilascio dei dati WGS per altri 300.000 partecipanti all’inizio del 2023.
Poiché studi genomici su larga scala come questi sorgono in tutto il mondo, vengono introdotti strumenti di sequenziamento più veloci e devono essere integrati nuovi tipi di dati, una grande domanda è se le capacità di analisi e archiviazione siano all’altezza del compito di dare un senso tutta questa data. Ancora più importante, qualcuno di questi benefici andrà a beneficio dei pazienti?

capo del software globale e dell’informatica, Illumina
Nessuno è più consapevole di questo problema delle persone che producono i sequenziatori che stanno sfornando gran parte di questi dati.
“I dati stanno crescendo a un ritmo più veloce di quanto la tecnologia possa tenere il passo”, afferma Rami Mehio, responsabile del software globale e dell’informatica presso Illumina. Naturalmente, Illumina sta facendo gli straordinari per soddisfare questa crescente esigenza e, sebbene Rami attualmente veda lacune, come l’incorporazione della proteomica e della genomica spaziale, si aspetta che emergano rapidamente soluzioni per aiutare il campo a continuare a prosperare.

professore di secondo grado, dipartimento di informatica e scienze dell’informazione
co-direttore, Penn Program in Single Cell Biology, University of Pennsylvania
Inoltre, la gamma di dati si è notevolmente ampliata. “I dati di modalità multiple sono ora disponibili per milioni di celle, [and] il modo in cui li integriamo sarà fondamentale”, afferma Junhyong Kim, co-direttore del programma dell’Università della Pennsylvania in biologia unicellulare.
È in gioco il futuro stesso della scoperta e dello sviluppo di farmaci. “È molto probabile che l’estrazione di dati sulla diversità umana, utilizzando la proteomica e la trascrittomica, non solo la genetica, dominerà la scoperta e lo sviluppo di farmaci”, ha affermato Kári Stefánsson, MD, Dr Med, fondatore e CEO dell’innovativa azienda di genomica deCODE , in una recente intervista con la nostra pubblicazione gemella, GEN Biotechnology.
Questi dati potrebbero anche trasformare l’assistenza ai pazienti, come ha dimostrato Genomics England (vedi “Applicazioni cliniche” di seguito). Questo progetto sta introducendo lentamente ma costantemente la diagnostica e il trattamento dei tumori standard di riferimento in tutto il Servizio sanitario nazionale (NHS) del Regno Unito. Richiede un sequenziamento di nuova generazione e la capacità di analizzarlo e un’ondata di nuovi dati.
La gestione dei dati avanza
Il campo ha già fatto molta strada. Per prima cosa, i sequenziatori stanno facendo più del lavoro di gestione dei dati, automaticamente. Mentre un decennio fa, i dati provenienti dai sequenziatori erano ancora immagini che richiedevano molta elaborazione, gli strumenti avanzati di oggi saltano molti di questi passaggi fornendo solo i dati di cui i ricercatori hanno bisogno.
E per i progetti di big data, ora sono disponibili compressione dei dati, opzioni di archiviazione a più livelli e software che sposta automaticamente i dati meno recenti in uno spazio di archiviazione più economico e consolida i file che potrebbero essere duplicati. Aziende come AWS, Dell, Google, IBM e Microsoft Health (Azure) si sono fatte avanti per soddisfare la domanda di storage flessibile.
“Puoi immaginare un’operazione di medicina di precisione o un laboratorio diagnostico che genera molti dati”, spiega Mehio. “Eseguono i dati e ottengono risultati, li lasciano accessibili su uno spazio di archiviazione costoso per sei mesi, quindi il software li sposta automaticamente su un sistema di archiviazione più economico, anche se di difficile accesso”.
Oltre ad aggiornare i propri sequencer e software, Illumina, leader nel campo degli strumenti sequencer, ha risposto alla domanda acquisendo Enancio, un’azienda che ha sviluppato software di compressione dati per il campo. “Questo tipo di compressione è specifico per il genoma”, afferma Mehio. “Rappresenta le parti duplicate del genoma”. Ci sono altre soluzioni di compressione,[but] questo riduce i dati di cinque volte, senza perdere le informazioni critiche”, aggiunge.
Man mano che strumenti a throughput ancora più elevati diventano online e i dati provenienti da campi come la proteomica e la genomica spaziale diventano più ampiamente utilizzati, l’analisi e l’archiviazione saranno ulteriormente pressate.
Che consiglio ha Mehio per chiunque stia iniziando un grande progetto di genomica ora?
“Fin dall’inizio, imposta la compressione per ottenere il minimo ingombro. Trova un modo per archiviare le tue varianti nel database più economico possibile. Per i tuoi file di grandi dimensioni di letture in sequenza, desideri impostare l’archiviazione di archiviazione il prima possibile. Potresti voler accedere a quei dati in un secondo momento, quindi mantienili, ma assicurati che siano in un’opzione di archiviazione meno costosa”, afferma.
Ma questa è una grande sfida per gli scienziati che non sono con grandi aziende che hanno risolto tutto.

co-fondatore e CSO, Watershed Informatics
“In questo campo stanno emergendo una serie di problemi”, afferma Mark Kalinich, co-fondatore e CSO di Watershed Informatics. “Ci sono due grandi ostacoli [that] impediscono di trasformare i dati in informazioni dettagliate, quelli lo sono [1] infrastruttura computazionale inaccessibile e [2] gli strumenti odierni sono frammentati e fragili”.
Con ciò, spiega, intende dire che gli scienziati dei laboratori umidi che generano molti dati dal sequenziamento devono capire come trasformarli in qualcosa di interpretabile. Le aziende devono non solo determinare come archiviare tutti questi dati, ma anche come interpretarli.
“Molti di questi strumenti di bioinformatica sono vecchi, potrebbero essere incompatibili”, afferma Kalinich. “Le dimensioni e la varietà di dati in questo campo sono cresciute in modo esponenziale”, aggiunge. “Hai un bisogno che non è abbinato a un’esplosione di capacità”.
L’infrastruttura odierna, anche se include il cloud, afferma Kalinich, sebbene altamente flessibile, non è così accessibile. “Puoi fare tutto nel cloud come potresti fare l’intera diga di Hoover in cemento”, dice. “Il cloud può fornire spazio di archiviazione, ma il problema rimanente è il calcolo necessario per caricarlo e la bioinformatica appropriata necessaria per renderlo produttivo”.
La sfida della condivisione dei dati
È stato un argomento delicato fino ad ora, a causa di problemi di privacy, ma la condivisione dei dati sta finalmente venendo alla ribalta.
Il Regno Unito ha aperto la strada. UK Biobank è uno studio di coorte prospettico di 500.000 partecipanti di età compresa tra 40 e 69 anni nel periodo 2006–2010. Lo studio è stato istituito per “consentire la ricerca sullo stile di vita, sull’ambiente e sui determinanti genomici delle malattie mortali e invalidanti della mezza età e della vecchiaia”.
I dati raccolti al momento del reclutamento includevano lo stile di vita auto-riferito e le informazioni mediche (integrate successivamente da informazioni antecedenti dalle cartelle cliniche), un’ampia gamma di misure fisiche (p. es., pressione sanguigna, antropometria, spirometria) e campioni biologici (sangue, urina e saliva) . Tutti i dati possono essere visualizzati sul Data Showcase online di UK Biobank, comprese le statistiche riassuntive per ogni campo di dati disponibile per la ricerca.

fondatore e CEO, deCODE
“La biobanca britannica è un’impresa molto insolita. È il regalo più grande mai fatto alla scienza biologica. Hanno reso i dati disponibili al mondo intero con cui lavorare, il che è bellissimo. Si è rivelato un po’ più difficile da fare per gli americani”, afferma Stefánsson.
Tutti noi, nel frattempo, abbiamo rilasciato quasi 100.000 sequenze WGS questo marzo. Circa il 50% dei dati proviene da individui che si identificano con gruppi razziali o etnici storicamente sottorappresentati nella ricerca. Il progetto ha anche rilasciato dati su 20.000 persone che hanno avuto SARS-CoV-2.
Questo progetto include molti dati esterni provenienti da sondaggi. Alla fine del 2021, All of Us ha lanciato il Social Determinants of Health Survey (SDOH) per raccogliere informazioni su vari fattori sociali e ambientali della vita quotidiana delle persone. Questi fattori includono la sicurezza del quartiere, il cibo e la sicurezza dell’alloggio e le esperienze di discriminazione e stress.
Il sondaggio COVID-19 Participant Experience (COPE) ha posto domande sull’impatto del COVID-19 sulla salute mentale, sul benessere e sulla vita quotidiana dei partecipanti. Il sondaggio è stato distribuito sei volte tra maggio 2020 e febbraio 2021 per aiutare i ricercatori a capire in che modo il COVID-19 ha influenzato i partecipanti nel tempo.

chief data officer, All of Us Research Program
“La sfida più grande è stata capire cosa archiviare e cosa condividere”, afferma Andrea Ramirez, chief data officer del programma All of Us. “Uno dei nostri obiettivi è rendere i dati ampiamente disponibili, rendendo la metodologia trasparente, ma assicurando che le identità dei partecipanti siano mantenute indistinguibili”.
Ovviamente, la condivisione comporta molti problemi di integrazione dei dati. “L’integrazione multimodale dei dati richiede di sapere se i dati sono abbinati [i.e., measured in the same way] o impareggiabile”, dice Kim.
Ramirez gli fa eco. “Portiamo dati esterni”, dice. “Ma gli standard non sono sempre gli stessi. Abbiamo i nostri controlli di qualità interni, ma serviamo una serie così diversificata di ricercatori e gli standard di qualità non sono sempre identici”.
L’obiettivo finale: l’applicazione clinica
Poi c’è la questione dello spostamento della genomica nella sfera clinica, che è il punto di tutto questo. Anche il Regno Unito ha guidato su questo fronte. Dal 2020, Genomics England esegue il sequenziamento dell’intero genoma di tutti i pazienti con cancro pediatrico, sarcomi e leucemia acuta in cura nel Servizio sanitario nazionale (NHS) del Regno Unito. Ora stanno iniziando a sequenziare pazienti con carcinoma mammario triplo negativo, gliomi e tumori ovarici.
Il progetto copre i pazienti del Servizio sanitario nazionale di medicina genomica (NHS GMS). Può essere offerto loro il sequenziamento dell’intero genoma come parte della loro assistenza clinica e gli viene chiesto se desiderano donare quei dati e/o un campione biologico per la ricerca.

capo degli ecosistemi e funzionario del partenariato, Genomics England
Genomics England afferma di avere il più grande set di dati di genomica clinica al mondo sul cancro. “Sequenziamo sia la linea germinale che il tumore e lo facciamo con una copertura profonda, quindi non smettiamo di sequenziare fino a quando non abbiamo coperto tutti i geni”, afferma Parker Moss, capo degli ecosistemi e responsabile della partnership di Genomics England.
La metà di ciascun campione di tumore viene messo in paraffina, quindi tagliato a fette che vengono digitalizzate. L’immagine digitale della biopsia del tumore, i dati della sequenza genomica e qualsiasi altro dato di imaging, come la radiologia, vengono utilizzati in combinazione per valutare la prospettiva del paziente e determinare il trattamento ottimale.
I dati genomici vengono analizzati utilizzando l’elaborazione del linguaggio naturale (NLP) specializzata. Moss dice: “Lo comprimiamo in un file binario, quindi vettorizziamo l’immagine. Possiamo quindi esprimere l’immagine come una matrice, 1000 x 1000 pixel”.
I pazienti i cui dati vengono inseriti in questa piattaforma di ricerca provengono da 80 diversi ospedali. Quindi, per digitalizzare queste immagini occorre prima ottenere le diapositive fisiche dagli ospedali e inviarle alla National Pathology Imaging Cooperative (NPIC) di Leeds, partner di Genomics England in questo lavoro. Il progetto, dice Moss, ha più di 60 petabyte di dati principalmente genomici, ma contiene una proporzione crescente di dati di immagini.
Sebbene ci siano centri clinici in tutto il mondo che offrono tali servizi, Genomics England si distingue nel sistematizzare il processo. Si spera che una maggiore condivisione dei dati, nuovi strumenti e nuovi progetti renderanno i servizi per i pazienti come questi veramente in tutto il mondo.
Malorye Branca è una scrittrice scientifica freelance con sede ad Acton, MA.