The Physics arXiv Blog, Linkiesta 30/9/2013, 30 settembre 2013
GLI ARCHEOLOGI DI INTERNET E LE PAGINE WEB PERDUTE
Internet sta scomparendo. E con lui una grande parte della nostra storia documentata. Questa era la conclusione di uno studio dello scorso anno, che calcolava l’andamento con il quale link condivisi sulle piattaforme dei social media stavano scomparendo. La conclusione era che questi dati si perdevano con un andamento dell’undici percento entro un anno e del ventisette percento in due.
Ora, i ricercatori che si stanno occupando di questo studio rivelano che non è tutto perduto. Hany SalahEldeen e Michael Nelson della Old Dominion University di Norfolk, in Virginia, hanno trovato un modo per ricostruire il materiale cancellato e sostengono che stia funzionando abbastanza bene.
Per prima cosa, alcuni antefatti. Questi ricercatori hanno iniziato il loro lavoro studiando le migliaia di tweet, post su blog, e altre risorse che erano state pubblicate durante i disordini, durati 18 giorni, della rivoluzione in Egitto nel 2011. Queste risorse sono state importanti, spiegano, perché hanno fornito la testimonianza importante di un evento storico.
Hanno anche scoperto che alcuni di questi post e altri sul web stavano scomparendo, così hanno iniziato a misurare il tasso con cui questo avveniva. Da ciò i numeri riportati sopra.
Il nuovo lavoro è il loro tentativo di ricostruire questi post mancanti e le risorse, almeno in parte, dagli indizi che si sono lasciati dietro nel web. SalahEldeen e Nelson hanno iniziato provando a confermare i risultati precedenti, che hanno portato una sorpresa. «Si è verificato un interessante fenomeno, per cui parecchie delle risorse che erano in precedenza dichiarate mancanti, sono divenute nuovamente disponibili».
Questo è possibile se la scomparsa originale era il risultato di un dominio interrotto o archiviato che in seguito era stato ripristinato, o un account utente che era stato sospeso e più avanti riattivato.
SalahEldeen e Nelson si sono chiesti come trovare questo materiale "risorto" anche quando non è più nella sua originale cyber-zona. Fanno notare che molte delle risorse condivise lasciano tracce sul web, come per esempio re-tweet, hashtag, commenti e così via.
L’idea che SalahEldeen e Nelson hanno avuto è stata di provare a ricostruire una risorsa mancante cercando le tracce lasciate nel web. Per questo, hanno usato Topsy, il motore di ricerca che su Twitter ha permesso loro di entrare nell’indirizzo della risorsa mancante e restituire i tweet a cui si riferiva. Questo è la "firma tweet" delle risorse.
Successivamente hanno estratto i cinque termini più frequenti in questa firma e li hanno usati per una query di ricerca su Google. Il risultato è una lista di possibili sostituzioni per le risorse perse.
Un’importante domanda, naturalmente, è quanto le possibili sostituzioni corrispondano alla risorsa originale. Per verificare ciò Salah Eldeen e Nelson hanno eseguito la stessa procedura per le risorse che non erano scomparse e hanno confrontato le possibili sostituzioni con gli originali. Sostengono che per il 40 percento delle volte la sostituzione aveva avuto un 70 percento di risultati testuali simili alla risorsa originale. Non è perfetto, naturalmente, ma meglio di niente. E forse nel tempo sarà possibile fare meglio.
Ciò che è interessante è che questo processo è un tipo di archeologia di internet, che ricostruisce una pagina web storica attraverso il contesto nel quale esisteva; è una disciplina nuova e affascinante.
Nel mondo reale, gli archeologi e gli antropologi sono diventati altamente specializzati nel ricostruire in questo modo la storia naturale. Le conclusioni che possono essere tratte dalla scoperta e dall’analisi di un singolo dente, per esempio, sono davvero sorprendenti.
Non c’è ragione perché gli archeologi di internet non possano diventare così capaci.