Dieci milioni di articoli

Vorrei spendere qualche parole per ripensare un po’ a quanto sta cambiando l’approccio di lettura di  un articolo (un articolo scientifico, per la precisione). Fedele al motto scrivi di ciò che conosci, farò riferimento, ovviamente, alla mia esperienza di ricercatore astronomo. E’ pur sempre un osservatorio molto interessante sul mondo della tecnologia, tra le altre cose.

Per un bel periodo di tempo, se ci penso, ho continuato a riferirmi alla pagina per elaborare le informazioni Ecco, dopo un po’ che leggevo l’articolo sullo schermo del computer, dovevo per forza premere il tasto stampa. Ai miei occhi il vero articolo, per molti anni, è stato esclusivamente quello stampato. 

Già il passaggio dalla rivista scientifica cartacea a quella digitale è stata una piccola rivoluzione. Ricordo ancora bene  le peripezie che si innescavano quando volevo (o dovevo) andarmi a leggere un articolo, magari desunto da una referenza posta in calce ad un altro articolo. Ora lo farei stando al computer, senza altro movimento che quello delle dita. Due click (o poco più) e avrei il PDF aperto sullo schermo. 

Allora, no.

Si trattava “in quel tempo” – tecnologicamente assai remoto – innanzitutto, di muoversi. Intanto, di recarsi nella libreria dell’istituto. Cercare tra i veri libri. Lì poteva allora dispiegarsi una elaborata caccia, condotta tramite degli appositi indici posti in fondo ai volumi delle riviste, rilegate. Attraverso un complesso sistema di rimandi e di codici si poteva riuscire a risalire alla pagina e al fascicolo dell’articolo che si cercava. Ed era un risultato. Indi, si procedeva alla consultazione in sito, o all’eventuale fotocopia. Non era però infrequente il caso in cui si scopriva – solitamente con un vivo disappunto – che no, purtroppo l’articolo non era disponibile nella libreria locale. Allora il passo successivo era quello di coinvolgere un altro essere umano… segnatamente il bibliotecario, il quale – grazie alla sua disponibilità e attraverso la sua rete di contatti – avrebbe (a) verificato la reperibilità del volume ricercato, e (b) provveduto a far recapitare le fotocopie all’utente interessato. Nell’arco, ovviamente, di qualche giorno o forse più, a seconda della difficoltà del reperimento dell’articolo stesso.

Tutto piuttosto diverso da quanto avviene adesso. 

ADS logo

Cosa succede ora, infatti? Se mi serve un articolo, lo cerco su NASA Astrophysical Data System  (ADS) e in un attimo trovo quello che mi serve. Se mi ricordo la referenza in maniera incompleta metto i dati che conosco, magari un intervallo di anni, il nome di uno degli autori e il sistema mi fornisce istantaneamente la lista di tutti gli articoli che soddisfano la mia  richiesta (la maschera di ricerca è veramente elaborata). Se voglio leggere l’articolo in forma completa quasi sempre posso farlo, seguendo l’opportuno link. Se voglio scaricarlo sul mio computer, idem.

Insomma. Tutto semplice, tutto immediato.

E’ scomparsa completamente la parte della caccia: in altre parole,non è più necessaria alcuna abilità (se non quella di riempire opportunamente i campi di ricerca dell’interfaccia di ADS).  Insomma, potremmo dire che l’efficienza e la praticità hanno vinto anche su quella residua parte di mistero, che poteva ancora essere presente in una procedura complicata e in qualche modo artigianale, che comunque che richiedeva una sua opportuna dose di apprendimento. 

Ovviamente non è solo la perdita del romanticismo, il punto. Se abbiamo perso qualcosa con questa moderna immediatezza, abbiamo enormemente guadagnato in altri ambiti. Solo per restare ad ADS, è impressionante riflettere sul fatto che praticamente mette a nostra disposizione (con qualche limitazione per il materiale sotto copyright) circa dieci milioni di articoli, provenienti da tutte le maggiori riviste internazionali di astronomia (e non solo). Nessuna libreria fisica potrebbe sperare tanto. 

Un po’ emoziona la facilità con la quale si possono raggiungere articoli storici, come quello della scoperta della radiazione cosmica di fondo, tanto per dirne una…

Indulgendo in una facile generalizzazione, possiamo dire che ormai lo strumento di elezione per trovare e leggere gli articoli è il web. Sono finiti gli anni degli stanzini pieni di collezioni delle riviste, dove ti potevi aggirare sperdendoti tra le annate di Astrophysical Journal di cinquant’anni fa. Toccando, in pratica, la storia dell’astronomia.

Ora è tutto virtuale, è tutto digitalizzato. I vantaggi sono molti, certamente. Ma un po’ di poesia, ecco, forse è svanita…

Verso un atlante visuale della ricerca astronomica

Lo sappiamo, la quantità di dati astronomici presenti negli archivi, grazie anche ai metodi di indagine più moderni e agli strumenti più sofisticati, sta raggiungendo dei livelli incredibili, in termini di copertura del cielo e della qualità e quantità di dati raccolti. La gran parte di questi dati è a disposizione della comunità scientifica senza vincoli o restrizioni, ed è ormai frequente che ulteriori analisi di dati di archivio portino ad eccellenti nuovi lavori, quando non a scoperte davvero importanti.

Ecco che la fruizione sempre più intelligente delle mole di dati diventa fondamentale, per il continuo progresso della scienza, e per massimizzare l’utilità delle informazioni già raccolte (questo è l’obiettivo del data mining, su cui avremo modo di tornare). Al proposito si registra ancora una certa frammentazione dei dati disponibili. Da una parte abbiamo risorse online come Astrophysics Data System  (ADS, in breve) della NASA – ormai strumento di lavoro insostituibile per ogni astronomo-  per quanto riguarda i dati bibliografici, ovvero le pubblicazioni. Dall’altra, una buona quantità di archivi e database, che raccolgono i dati astronomici veri e propri.

Il sito NASA ADS è diventato un punto di riferimento imprescindibile per chi studia lo spazio ….

ADS è veramente una miniera di sapere impressionante: contiene circa nove milioni di riferimenti bibliografici e quattro milioni e mezzo di pagine scansionate. Per giunta, più di un milione di articoli sono presenti col il loro testo completo. Ogni astronomo professionista non può più lavorare senza.

ADS però non contiene in sè dati veri e propri. Questi sono catalogati in altri archivi come il SIMBAD Astronomical Database. Ora, il fatto è  che queste entità normalmente non si parlano, non sono in realazione tra loro. Allo stato attuale, salvo poche eccezioni, sono come  “scatoloni” a se stanti.

Ed ecco però che arriva l’idea geniale (ed ambiziosa) della creazione di un ADS All-Sky Survey, contenuta in un articolo apparso pochi giorni fa su astro-ph, a firma di Alberto PepeAlyssa Goodman e August Muench. Pensate come sarebbe bello se ogni articolo in ADS avesse una “targhetta” (un tag) riguardante la zona di cielo di cui si occupa, o gli oggetti che studia. Tramite tale targhetta (chiamiamola astrotag come gli autori dell’articolo) sarebbe facile esplorare visivamente delle zone di cielo (al proposito, il software non manca) e vedere in ogni porzione della volta celeste gli studi che ne sono stati fatti. Oppure esplorare un oggetto e vedere la lista degli articoli e dei dati.

Immaginate le ricerche che potrebbero essere condotte, avendo a disposizione un programma che vi consente di esplorare la volta celeste con tanto di riferimenti alle pubblicazioni relative, punto per punto. Senza complicate e spesso inconcludenti ricerche di archivio.

Il fatto è che molti articoli su ADS non hanno queste targhette già appiccicate. L’articolo però ci fornisce una strada, perché mostra come questo può essere fatto in larga parte con procedure automatiche. Queste procedure prendono in esame i dati dell’articolo, esaminano le figure in esso contenute, e tramite l’uso di risorse già disponibili come astrometry.net se la cavano in gran parte dei casi.

Insomma l’idea è tutto sommato semplice (non così la sua realizzazione): etichettare tutti gli articoli di ADS, in modo da poterli mettere in relazione con i dati veri e propri. Tutto questo promette una svolta epocale nella fruizione degli archivi di dati astronomici.

Per parte mia seguirò con interesse lo sviluppo del progetto. Se ne vedranno di belle, in cielo. Anche con l’aiuto dei computer.