Troppi dati fanno male

Le Scienze, 5 dicembre 2015

Troppi dati fanno male

Siamo sommersi dai dati. Tra smartphone, tablet, computer e altri dispositivi collegati tra loro su scala globale, è esperienza quotidiana quella di sentirsi sopraffatti da informazioni di qualunque tipo. Ed è un’esperienza quotidiana anche per un numero sempre più grande di scienziati, al punto che il mondo della ricerca è ormai investito da un data deluge, ovvero un’enorme quantità di dati prodotta grazie all’evoluzione delle tecnologie con cui analizzare fenomeni, che sta creando nuove possibilità per la scienza, insieme a questioni prima impensabili. Ma come è nato questo diluvio di dati, e che effetti ha sulla ricerca? Abbiamo il corrispettivo di un’arca di Noè che possa salvarci dal mare straripante di byte?
Già negli anni settanta, in particolare in fisica delle particelle e in astronomia, gli strumenti potevano produrre informazioni digitali in maniera estesa, generando grandi opportunità che dovevano essere sfruttate, a patto però di scoprire soluzioni alle necessità legate a gruppi sempre più numerosi e internazionali. Evoluzione tecnologica ed estensione dei gruppi di lavoro hanno portato alla ricerca attuale, caratterizzata da progetti internazionali e multidisciplinari, che richiedono migliaia di operatori, reti telematiche con cui distribuire rapidamente le informazioni in ogni parte del globo e grandi capacità di calcolo per elaborarle. Per esempio, nel 2013 gli scienziati che hanno lavorato al CERN di Ginevra sono stati oltre 13.000 e i dati prodoni in quel centro di ricerca internazionale sono stati usati in decine di paesi diversi da migliaia di ricercatori.
In ambito scientifico la crescita delle masse di dati è in accelerazione sia perché i mezzi di ricerca sono sempre più potenti sia perché gli esperimenti richiedono un livello di analisi sempre più elevato. Giova ricordare che i computer archiviano i dati usando una codifica in bit (il cui valore può essere «0» o «1») e che un singolo byte (l’insieme di 8 bit) permette la descrizione di valori tra 0 e 255 (cioè 2⁸), con cui codificare caratteri alfanumerici, e 200 caratteri sono considerati come una quantità significativa in termini di frase linguistica. Per esempio, la frase che avete appena letto è composta esattamente da 294 caratteri, spazi esclusi!
Big data per la scienza
Se nell’informatica commerciale, quella usata da privati e aziende, il termine big data è riferito alla quantità di dati misurabili in terabyte (1 terabyte equivale a 1000 gigabyte o a 10¹² byte), nel mondo della ricerca questi sono ormai considerati volumi trascurabili. Oggi nella scienza l’unità di misura di riferimento è il petabyte (un petabyte equivale a 1000 terabyte, in altre parole il contenuto di circa 210.000 DVD o 10¹⁵ byte, se preferite la notazione matematica), in valori di decine e centinaia: il solo Square Kilometre Array, la rete di radiotelescopi collocati in Australia e Sudafrica, che attualmente genera 2 terabyte al secondo (pari a 1 petabyte ogni 8 minuti e 20 secondi), quando sarà a regime nel 2024 produrrà un petabyte di dati al secondo, almeno nelle intenzioni dei progettisti.
Dando un rapido sguardo alle stime di CISCO System, una delle aziende leader nella tecnologia delle reti informatiche, si può notare che il traffico di dati scientifici è solo uno dei fattori che hanno portato quest’anno il traffico su Internet a quantità misurabili in zettabyte (10²¹, cioè milioni di petabyte), di cui oltre metà è costituito da filmati. Se siete avidi consumatori di musica in formato digitale, 1 zettabyte fa per voi, garantendovi 2 miliardi di anni di ascolto, mentre se il vostro hobby è la lettura potreste concentrarvi sul Guerra e pace di Lev Tolstoj e rileggerlo 323 trilioni (323 X 10¹²) di volte.
Tornando alla scienza, attualmente la velocità di archiviazione dei dati non è sufficiente per immagazzinare flussi così cospicui. Come è possibile quindi gestire tutte queste informazioni? Un buon esempio è sempre il CERN. Nel Large Hadron Collider (LHC), già prima della recente pausa dal 2013 all’aprile 2015 per un aggiornamento, 600 milioni di collisioni di particelle al secondo producevano un flusso di dati (chiamato data streaming) quantificabile in un petabyte al secondo. Poiché attualmente è impossibile salvare dati con altrettanta rapidità, sono stati sviluppati sistemi elettronici di preselezione che, adeguatamente programmati, lasciano passare solo i dati di un evento su 10.000, mentre un ulteriore filtro riduce il volume dei dati fino all’1 per cento di quello che ha superato il primo vaglio.
Con questa procedura, solo 1/100.000 del data streaming è immagazzinato, ricomposto ed elaborato per poi formare una massa di dati di circa 30 petabyte all’anno. L’elaborazione è affidata alla Worldwide LHC Computer Grid (WLCG), una rete di elaboratori per il calcolo scientifico che comprende oltre 170 computer center distribuiti in 40 paesi. Per capire quanto può crescere questa massa di informazioni, basti pensare che le modifiche operate su LHC, e che il 21 maggio scorso hanno permesso di produrre scontri tra particelle a un’energia record di 13 teraelettronvolt (1,3 X 10¹² elettronvolt; l’elettronvolt è l’unità di misura dell’energia in fisica delle particelle), hanno portato l’acceleratore a produrre masse di dati cinque volte superiori rispetto al periodo precedente l’aggiornamento, raggiungendo i 5 petabyte al secondo.
Queste masse di informazioni digitali non sono proprie solo della fisica. In un articolo pubblicato su «Nature» nel 2013 Chris A. Mattmann, senior computer scientist al Jet Propulsion Laboratory di NASA e California Institute of Technology, ha sottolineato che i dati riferiti al clima e gestiti per il Quinto rapporto di valutazione dell’Intergovenmental Panel on Climate Change, che sarebbe poi stato pubblicato nel 2014, equivalgono a circa 2,5 petabyte. L’ordine di misura è simile quando si tratta di descrivere il DNA, dato che strumenti sempre più potenti (i sequenziatori hanno moltiplicato le loro prestazioni di cinque volte tra il 2008 e il 2013) permettono di affrontare la «lettura» di genomi sempre più estesi, considerando che quello umano è composto di 3 miliardi di nucleotidi a fronte dei 23 miliardi del genoma di un comune pino dei nostri boschi. Di recente, proprio chi si occupa di ricerca genomica ha sollevato questo problema facendo riferimento a uno studio predittivo pubblicato su «PLoS Biology» da Zachary D. Stephens, dell’Università dell’Illinois a Urbana-Champaign, in base al quale entro il 2025 la quantità di dati legati alla lettura del DNA diventerà più grande di quella nel frattempo archiviata su piattaforme come YouTube o Twitter, raggiungendo valori misurabili in decine di exabyte (1 exabyte equivale a 1000 petabyte). A questi livelli, anche la capacità di elaborazione dei computer appare ridotta e si dovrà dunque ricorrere a tecnologie nuove sia per l’immagazzinamento delle informazioni sia per la loro analisi.
Ma i problemi, e che problemi, non finiscono qui. Insiemi così estesi di dati includono informazioni di tipo differente e ogni progetto di ricerca ha necessità di usare solo informazioni utili ai propri obiettivi. Quindi ciascuno di questi insiemi va suddiviso e reso disponibile ad altri gruppi ed elaboratori. Tutto ciò implica che alla line di queste fasi di predisposizione, invio e lavorazione dei dati in ingresso, i risultati debbano poi essere a loro volta riassociati, in modo da costituire un quadro di riferimento omogeneo da cui trarre considerazioni su andamento ed esiti dell’esperimento. In altre parole, bisogna garantire che i dati possano essere usati più volte, perciò strutturati in forme accettate in modo convenzionale, affidabili nella loro veridicità e integrità, preservagli nel tempo e la cui origine sia descritta in maniera da verificare le condizioni sperimentali e replicarle altrove o confrontarle con altre.
Questioni di standard
Per far fronte a queste esigenze (gestione del data stream, ricostruzione, condivisione, conservazione, storicizzazione, completezza ai fini di controllo e replica sperimentale, usi successivi) sono nati gruppi di lavoro che hanno fissato standard metodologici, che definiscono processi e modalità con cui preservare dati, e informatici, che identificano i formati con cui archiviare i differenti tipi di contenuto, riconosciuti su scala mondiale. Oggi questi standard sono in massima parte già codificati dall’International Organization for Standardization, ente non governativo a cui fanno riferimento 163 paesi.
Riguardo l’impacchettamento delle informazioni, le strutture dei file in cui sono archiviate devono contenere, oltre ai dati delle osservazioni, un numero variabile di cosiddetti metadati (dei quali una parte riporta le condizioni sperimentali in cui sono state ottenute le informazioni) e una descrizione della struttura del file, in modo da renderlo interpretabile anche da chi non conosce anticipatamente lo standard.
I metadati non sono un’invenzione informatica e costituiscono da sempre un substrato fondamentale alle dichiarazioni di tipo scientifico. Come ricordato da Alyssa Goodman e Alberto Pepe, entrambi della Harvard University, e colleghi in un articolo pubblicato su «PLoS Computational Biology» ad aprile 2014, basta leggere il Sidereus Nuncius di Galileo Galilei per vedere come lo scienziato italiano riportasse non solo i dati raccolti nelle sue osservazioni astronomiche, ma anche le condizioni in cui erano stati ottenuti (data, ora, condizioni meteo, caratteristiche del cannocchiale e così via), proprio informazioni che oggi chiamiamo metadati e che sono un elemento fondamentale della struttura degli standard del settore.
Sebbene questo modo di procedere garantisca una certa efficacia, nelle politiche di conservazione dei dati sul lungo periodo, non si trascura nemmeno di rendere disponibili alle successive generazioni anche il programma usato, indispensabile per organizzare il flusso di dati in uscita proveniente dagli strumenti. Gli elaboratori con cui sono processate queste moli di dati sono in gran parte di tipo High Performance Computing (HPC), che hanno modalità di funzionamento e potenze di calcolo ben diverse da quelle dei computer normalmente usati nelle aziende, e richiedono personale specializzato e appositi programmi.
Si è insomma definito come organizzare la grande e multiforme popolazione presente sulla nostra arca immaginaria, sapendo che nuovi ospiti stanno già arrivando.
Non solo aree sperimentali
In effetti in passato è già accaduto che tecnologie derivate da conoscenze sviluppatesi in fisica, chimica e biologia abbiano permesso agli scienziati di esaminare oggetti e fenomeni in modi impossibili da immaginare in precedenza. Questo è avvenuto anche in aree in cui la capacità sensoriale umana era stata fino a quel momento il principale mezzo di indagine e la sua sensibilità il limite della ricerca. Insomma, questo positivo diluvio si è esteso da tempo ben oltre il confine delle scienze sperimentali.
Nell’area umanistica, per esempio, il cambiamento è evidente. Si pensi a come poteva essere analizzato un manoscritto antico fino a pochi anni fa. Analisi dei materiali, caratteristiche fisiche, inchiostri, grafie, stratificazioni di colore e scrittura, come ogni altro aspetto, venivano studiati dagli specialisti attraverso metodi comparativi, sostanzialmente riconducibili alla propria esperienza sul campo. Le prime campagne di digitalizzazione sono nate proprio per permettere a un numero sempre più grande di studiosi di accedere a documenti fragili dal punto di vista fisico: con scanner sempre più sofisticati sono state ottenute riproduzioni elettroniche che sono almeno confrontabili con una consultazione diretta.
Da quel primo livello di digitalizzazione, oggi si è giunti ad analisi con frequenze e lunghezze d’onda che vanno al di là dello spettro visibile. Con questa strategia è possibile raccogliere informazioni in nessun modo accessibili ai limitati sensi umani. E non ci si è fermati qui, riuscendo con altri strumenti basati sulla fluorescenza a leggere quanto era stato precedentemente scritto e poi abraso su pergamene e altri supporti, quando per economicità si effettuava la rasatura del livello già inciso dalla scrittura, così da potervi redigere sopra un nuovo testo.
Superate anche le tecniche di radiografia convenzionale, si è giunti oggi alla possibilità di leggere addirittura testi come i rotoli di papiro carbonizzatisi a Ercolano durante l’eruzione del Vesuvio avvenuta nel 79 d.C. Questo risultato stupefacente, pubblicato su «Nature Communications» all’inizio di quest’anno, è stato ottenuto grazie alla tecnica messa a punto da Vito Mocella dell’Istituto per la microelettronica e microsistemi (IMM) del Consiglio nazionale delle ricerche (CNR) di Napoli, in collaborazione con Emmanuel Brun e Claudio Ferrero, entrambi della European Synchrotron Radiation Facility (ESRF) di Grenoble, e con Daniel Delattre, dell’Institut de Recherche et d’Histoire des Textes (IRHT) del CNRS di Parigi.
Le opportunità di ricerca messe a disposizione da queste tecnologie digitali, come confrontare dati provenienti da molte sorgenti, stanno portando gli studi umanistici e quelli relativi alle scienze sociali ad analisi più approfondite. Addirittura l’uso dell’HPC, fino a poco tempo fa limitato all’area delle scienze sperimentali, va ora estendendosi anche a questi ambiti. Così, per esempio, lo scorso anno il governo britannico ha stanziato 4,6 milioni di sterline (circa 6,5 milioni di euro) per favorire l’uso dei computer ad alte prestazioni nell’area definita Arts and Humanities.
Esempi di questo genere evidenziano in che modo il data deluge non solo ha permesso di portare in profondità la ricerca in generale, ma ne ha anche cambiato metodi e obiettivi. Il diluvio di dati ha favorito il processo che ha portato all’attuale multidisciplinarietà, tanto che nel breve arco di qualche decennio, forse un paio di generazioni di scienziati, si è giunti a quello che oggi è chiamato Virtual Research Environment (VRE): «Un ambiente di supporto alla ricerca innovativo, dinamico e onnipresente, in cui scienziati di ogni dove possono accedere trasversalmente tramite il proprio browser a dati, software e risorse gestiti da sistemi differenti e fisicamente presenti in organizzazioni tra loro autonome», secondo la definizione data da Leonardo Candela, ricercatore all’Istituto di scienza e tecnologie dell’informazione «Alessandro Faedo» del CNR di Pisa, in un lavoro del 2011 per GRDI2020, iniziativa europea mirata all’analisi di potenziali infrastrutture telematiche destinate a un’area di ricerca comune.
Queste grandi opportunità che il VRE rende accessibili attraverso la realizzazione di «spazi comuni» generano nuovi comportamenti che devono essere condivisi dalla comunità scientifica e riguardano molti aspetti collaborativi.
Per esempio, ancora non si è convenuto pienamente su come riconoscere la «paternità» dei dati, né come debba essere citata nei lavori degli scienziati che si avvalgono di quelle informazioni, o come creare ranking di affidabilità delle fonti, se e in che forma debba esserci anche un riconoscimento economico. Tanto più quando le informazioni riguardano oggetti che fanno parte del patrimonio di una specifica persona o ente, come ha ricordato Christine L. Borgman, dell’Università della California a Los Angeles, in un articolo pubblicato nel 2012 su «Journal of the American Society for Information Science and Technology».
Sullo sfondo emerge il problema della sicurezza: concepire i dati come risorse economiche conduce a una loro valorizzazione sempre più precisa e tutte le modalità open di accesso e usi successivi non significano implicitamente gratuità né che i proprietari di quelle informazioni intendano distribuirle a chiunque. È dunque prevedibile che il crescere del valore dei dati porterà a investire cifre sempre crescenti in tecnologie che assicurino la tutela di quello che è un vero patrimonio.
Il costo dell’arca
Proprio la necessità di rispondere a tante e differenti nuove questioni ha spinto l’Unione Europea a definire un percorso che assicuri alla scienza del nostro continente le condizioni per poter sfruttare queste nuove architetture della ricerca. Così nel 2010 l’High Level Expert Group on Scientific Data, creato dalla Commissione Europea, ha presentato il documento denominato Riding the wave: How Europe can gain from the rising tide of scientific data. Introdotto da David Giaretta, direttore dell’Alliance for Permanent Access e tra i massimi esperti di «digital preservation», il documento evidenzia i vantaggi che può trarre l’Europa dalla realizzazione entro il 2030 di un’infrastruttura che permetta sia la condivisione dei dati tra i gruppi di ricerca sia il trasferimento ai nostri posteri della cultura prodotta nel Vecchio Continente nel corso dei millenni.
Riding the wave è una relazione molto concreta, che chiarisce quali risultati l’Unione Europea può attendersi da un’infrastruttura del genere, assimilabile alla VRE, ma mostra anche quali siano le tante sfide da vincere: dall’affidabilità delle informazioni ai loro costi, dal reperimento dei finanziamenti alle modalità di sfruttamento economico di questa nuova risorsa. Il documento, tra l’altro, sottolinea pure che la quantità dei dati in ambito europeo sta conoscendo un’impennata. Per esempio, i dati registrati dall’Agenzia spaziale europea relativi alle osservazioni del nostro pianeta passeranno dagli otto petabyte attuali ai 20 petabyte previsti tra cinque anni.
Già prima della pubblicazione di Riding the wave, l’Unione Europea ha finanziato diversi progetti in questo ambito. Anche Horizon 2020, il più recente programma quadro per la ricerca europea, tiene conto sia delle esperienze sul campo sia delle indicazioni contenute nel rapporto dell’High Level Expert Group on Scientific Data. In parallelo con la crescita dei dati, sono cresciuti anche i fondi per la ricerca, fino a diventare miliardi di euro per anno, come previsto appunto da Horizon 2020, il maggior piano di finanziamento della ricerca che il nostro continente abbia conosciuto e attraverso cui sono stati stanziati 80 miliardi di euro per il periodo 2014-2020.
Preso atto di questi piani, quanto costerebbe un’arca che ci permetta di portare in salvo i millenni di cultura della nostra Europa? Il conto è stato presentato dall’organizzazione no profit britannica The Collections Trust, in un rapporto del 2010 destinato all’Unione Europea. Solo pensando alla preservazione digitale del patrimonio culturale dell’Unione (inteso come insieme dei beni appartenenti a musei, biblioteche e archivi in termini di libri, manoscritti, foto e materiali audiovisivi) è stata stimata una spesa complessiva vicina ai 105 miliardi di euro.
Tanti? Pochi? Come sempre dipende dal riferimento. Lo studio appena citato valuta in 750 milioni di euro il costo medio per realizzare 100 chilometri di strada statale in un paese dell’Unione Europea: con gli stessi fondi e in relazione al patrimonio appena descritto, si potrebbe digitalizzare tutto il materiale audio, o il 16 per cento del patrimonio librario (stimato in circa 77 milioni di opere), o il 40 per cento delle fotografie (circa 140 milioni di pezzi sui 350 milioni considerabili).
In cerca di data scientist
Lo sforzo però non è solo tecnico, progettuale e finanziario, ma anche di cultura professionale. Ci sono persone competenti, alle quali cioè affidare la conduzione dell’arca, intesa come gestione fisica del patrimonio e suo impiego ai fini della ricerca? Oggi, in Europa e non solo, mancano all’appello i data scientist, cioè specialisti che possono affrontare la gestione dei dati (produzione, organizzazione, distribuzione, reperimento e uso) mirata a evidenziare correlazioni e realizzare modelli predittivi. Non è un problema da poco, poiché l’efficacia del loro lavoro è tanto maggiore quanto più la conoscenza della materia prima (le informazioni) è accompagnata da competenze nel settore scientifico di riferimento. L’estensione dell’High Performance Computing alle scienze sociali e agli studi umanistici rende ancora più complesso questo connubio di saperi e richiede un tipo di scolarità non ancora diffuso.
Nel mondo della ricerca, sia pubblica sia privata, il data scientist è sicuramente il ruolo più connesso con la crescita dei dati da analizzare e con le nuove modalità che permettono di sfruttarli. Un rapporto del 2011 della multinazionale di consulenza McKinsey & Co. ha previsto che nel 2018 nei soli Stati Uniti la carenza di questi specialisti sarà tra le 140.000 e le 190.000 unità, e mancheranno almeno 1,5 milioni di manager in grado di comprendere quello che i dati dicono e di scegliere di conseguenza.
Vista la questione in altro modo, si può dire che gli stessi data scientist attuali non hanno accumulato un’esperienza che vada oltre i cinque anni, se non in rari casi. Insomma, una grande opportunità per chi ancora deve scegliere dove focalizzare le proprie energie per essere richiesto dal mercato del lavoro.
Nuovi orizzonti
C’è tuttavia una questione ancora più profonda che emerge da questo diluvio di dati. È una questione che riguarda le fondamenta dell’attività quotidiana di ogni scienziato, ovvero il metodo scientifico. Forse le nuove tecniche che producono masse sempre più grandi di informazioni porteranno a cambiamenti nel modo di fare ricerca? Già da tempo in qualche caso l’elaborazione di dati non può più essere effettuata dagli esseri umani in maniera efficiente, motivo per cui questo compito è stato assegnato a macchine di calcolo sempre più potenti. Ma quello che si può intravedere oggi è un orizzonte diverso da quello che il metodo scientifico ha conosciuto fino a oggi.
Un approccio originale e provocatorio al tema è stato proposto nel 2008 su «Wired» da Chris Anderson. L’allora direttore della rivista statunitense faceva notare che, grazie all’immensa quantità di informazioni disponibili e alla parallela crescita delle capacità di calcolo, oggi i computer possono far emergere le correlazioni tra eventi (che, va ricordato, sono cosa diversa dalla relazione causa-effetto), tanto che per la ricerca «ora c’è una strada migliore. I petabyte ci consentono di dire: “La correlazione è sufficiente”. Possiamo smettere di cercare modelli. Possiamo analizzare i dati senza alcuna ipotesi a proposito di che cosa possano mostrare. Possiamo dare in pasto numeri ai più grandi computer che il mondo abbia mai avuto e lasciare che gli algoritmi scientifici trovino schemi di correlazione dove la scienza non può».
Quell’articolo ha aperto un dibattito che si è protratto per anni e, ancora una volta, sono stati il trascorrere del tempo e l’esperienza nel frattempo maturata a fare chiarezza. Attraverso il metodo scientifico, l’essere umano si è posto domande, ha fatto ipotesi e ha creato modelli che ha confrontato con la realtà attraverso esperimenti, e le informazioni che derivavano da quegli esperimenti confermavano o meno le ipotesi. Senza rinunciare a questa impostazione, si è però constatato che il binomio data deluge e High Performance Computing può far emergere concordanze matematiche e relazioni statistiche che la mente umana da sola non può visualizzare e così suggerire non solo «dove» cercare, ma anche «che cosa» cercare.
Grazie alla capacità umana di creare modelli di analisi dei dati originali e precisi, i computer travalicano il ruolo di «bracciantato digitale», in grado di dare quantità enormi di risultati con tempi e costi sostenibili per i ricercatori. Le potenti macchine di calcolo diventano quindi precisi organizzatori di quello che non sappiamo, abili nell’evidenziare connessioni tra fenomeni altrimenti fuori della nostra portata, suggerendo nuovi quesiti agli scienziati.
Il diluvio di dati ha portato la scienza a intraprendere un nuovo e lungo percorso, lungo il quale già è stata fatta molta strada. Quella che rimane necessità di scelte che non solo riguardano etica della ricerca e conoscenze professionali, ma hanno un impatto anche su approcci, regolamenti, convenzioni e abitudini che dovranno essere globali o non saranno: una sfida nuova per una nuova scienza.

VALTER FRACCARO