Claudio Bartocci La Stampa, 01/05/2004, 1 maggio 2004
Il Web non è una ragnatela ma una scomoda cravatta a farfalla, La Stampa, 01/05/2004 Abbiamo bisogno di trovare un hotel a Istanbul? Dobbiamo raccogliere una bibliografia su un certo argomento? Siamo a caccia di dati, notizie, informazioni di qualsiasi genere? Ormai sempre più spesso, la nostra prima mossa sarà quella accendere il computer, collegarlo alla rete e immettere la nostra richiesta nell’apposita finestrella di motori di ricerca quali Google, Altavista, Yahoo!, Fast
Il Web non è una ragnatela ma una scomoda cravatta a farfalla, La Stampa, 01/05/2004 Abbiamo bisogno di trovare un hotel a Istanbul? Dobbiamo raccogliere una bibliografia su un certo argomento? Siamo a caccia di dati, notizie, informazioni di qualsiasi genere? Ormai sempre più spesso, la nostra prima mossa sarà quella accendere il computer, collegarlo alla rete e immettere la nostra richiesta nell’apposita finestrella di motori di ricerca quali Google, Altavista, Yahoo!, Fast. Saremo sommersi, nella maggior parte dei casi, da centinaia, se non migliaia di risposte: migliaia di pagine Web in cui forse - ma solo forse - scoveremo il risultato che stiamo cercando. Il più delle volte saremo invece costretti a raffinare la nostra richiesta: dovremo specificare un quartiere di Istanbul, definire con precisione l’argomento che ci interessa, rendere meno ambigui o generici i nostri desiderata. Magari, acquistando una buona guida turistica o facendo una visita alla più vicina biblioteca avremmo risparmiato tempo e trovato informazioni più attendibili e circostanziate. Ma queste considerazioni raramente scalfiscono la nostra cieca fiducia nei motori di ricerca, per quanto fastidiosamente pletorici possano essere. Li riteniamo virtualmente onniscienti, in grado di reperire qualsiasi goccia di informazione nello sterminato oceano del Web. Non è così. In realtà, tutti i motori di ricerca indicizzano soltanto una frazione piuttosto ridotta dei documenti della rete (una frazione che nel 1999 Steve Lawrence e Lee Giles, del Nec Research Institute di Princeton, stimavano non superiore a un terzo e che oggi i ricercatori valutano pari a circa un mezzo). Non sono i 9 miliardi di siti Web per una media di circa 441 pagine a sito (dati del 2002), né la rapidità con cui questi si moltiplicano giorno dopo giorno, a costituire un problema per i motori di ricerca, i quali percorrono in lungo e in largo il Web mediante appositi programmi detti robot o crawlers capaci di censire tutti i documenti che incontrano sulla loro strada. Il problema insormontabile è la struttura stessa del Web. Per descrivere l’architettura globale del Web lo strumento più efficace è la teoria delle reti complesse (complex networks), un’area di ricerca che ha recentemente conosciuto una rapida espansione. Le reti complesse sono strutture astratte costituite da «nodi» e «connessioni» (link) organizzate in configurazioni, statiche o dinamiche, che obbediscono a regole specifiche. Oltre al Web gli esempi certo non mancano: la rete elettrica, telefonica o stradale di una grande nazione, la rete neurale del cervello umano o quella costituita dalle catene alimentari di un ecosistema, Internet, la rete formata dalle reazioni biochimiche nel metabolismo di una cellula, le reti di relazioni sessuali, di parole della lingua inglese correlate dalla loro contiguità nel discorso. Le idee chiave di questo nuovo ambito scientifico, il cui dominio si contendono matematici, fisici e informatici, sono brillantemente illustrate, con dovizia di esempi, da Albert-Lászlo Barabási nel volume Link. La scienza delle reti (Einaudi 2004, pp. 254, euro 23,00), che va in libreria la prossima settimana. Il Web è una rete: i nodi sono le pagine, le connessioni i link. Non molti anni fa - spesso lo dimentichiamo - esisteva una sola pagina, quella creata nel novembre del 1990, al Cern di Ginevra, da Tim Berners-Lee, il quale nel giro di pochi mesi inventò tutti gli strumenti tecnici ancor oggi fondamentali: gli URI (oggi chiamati URL, localizzatori di risorse uniformi), l’HTTP (per il trasporto di documenti di ipertesto) e l’HTML (linguaggio di marcatura per ipertesto). A questa pagina archetipica si aggiunsero in breve tempo quelle personali di alcuni fisici e informatici del Cern e successivamente, in una cascata incontenibile, le pagine di università, istituti di ricerca, enti governativi e istituzioni internazionali, le pagine di aziende, compagnie commerciali della più varia natura, giornali e riviste, organizzazioni politiche e sociali, le pagine personali di milioni di individui commerciali. Tutto ciò, beninteso, senza una regia né un progetto, ma caoticamente, fino a dare forma a quella immane ragnatela planetaria che è oggi il Web. Come tutti sanno, è possibile spostarsi su questa ragnatela seguendo i vari link, un clic dopo l’altro: ma, naturalmente, se è possibile andare da A a D attraverso B e C, non è detto - anzi, non succede quasi mai - che si riesca a tornare indietro, da D ad A, seguendo il percorso inverso. Se un cammino a ritroso esiste, questo sarà spesso una strada tortuosa che ci costringerà a visitare decine e decine di siti intermedi. Per questa ragione, si dice, in termini tecnici, che il Web è una rete diretta: differisce, cioè, dalla rete costituita dalle persone che hanno una relazione di parentela (se A è parente di B, anche B è parente di A), ma è simile alla rete delle citazioni negli articoli scientifici (se A cita B, non è detto che B citi A) oppure a quella determinata, in un ecosistema, dalla relazione «essere preda di». Il fatto di essere una rete diretta, unitamente alle peculiari modalità di accrescimento, ha importanti conseguenze per la topologia globale del Web, come hanno messo in risalto per la prima volta, nel 1999, Andre Broder di Altavista e i suoi collaboratori della Ibm e della Compaq. Il Web non è una rete omogenea - non assomiglia affatto a una ragnatela, piuttosto ricorda un bizzarra cravatta a farfalla, divisa grosso modo in quattro grandi continenti, ciascuno con caratteristiche proprie. Il primo di questi continenti, detto il nucleo centrale, comprende circa un quarto di tutte le pagine Web esistenti e ospita tutti i maggiori siti (inclusi quelli dei motori di ricerca). All’interno del nucleo centrale è sempre possibile navigare da un documento all’altro, anche se, in genere, la rotta non sarà facile da trovare. Il secondo e il terzo continente, denominati rispettivamente IN e OUT, hanno circa la stessa estensione del nucleo centrale, ma esplorarli è assai più difficile. Dalla pagine della regione IN è possibile arrivare al nucleo centrale, ma non esistono cammini per tornare indietro. Viceversa, tutti i siti della regione OUT (molto spesso siti di enti, società, ecc.) sono facilmente raggiungibili dal nucleo centrale, ma non c’è modo di percorrere il cammino inverso. Alcuni stretti corridoi - è pur vero - collegano direttamente i continenti IN e OUT, ma riusciremo a individuare questi passaggi nella nostra incerta navigazione? Il quarto continente, infine, è composto da isole, del tutto disconnesse dal resto del Web, e da esili propaggini, che costituiscono veri e propri vicoli ciechi. La particolare geografia del Web limita considerevolmente le possibilità di navigazione. Se partite, ad esempio, da un nodo del nucleo centrale riuscirete a raggiungere tutte le pagine di questo continente, ma, per quanto continuiate a cliccare col mouse, circa la metà dei siti Web vi rimarrà inaccessibile. Analogamente, i potenti crawlers sguinzagliati a caccia di siti dai grandi motori di ricerca riescono a cartografare abbastanza fedelmente il nucleo centrale e il continente OUT, ma non il continente IN e le isole. per questa ragione che quasi tutti i motori di ricerca ci offrono l’opzione di segnalare l’indirizzo del nostro sito: una volta che glielo abbiamo indicato, possono infatti usarlo come base di partenza per esplorare intere regioni del Web che altrimenti rimarrebbero terra incognita. Quali che siano i miglioramenti futuri, i motori di ricerca riusciranno sempre a mappare soltanto una porzione limitata di tutte le pagine Web esistenti. Altre importanti proprietà globali del Web sono state messe in luce grazie alla teoria delle reti. Nel 1999 Barabási e suoi collaboratori Réka Albert e Hawoong Jeong dimostrarono che, nonostante le dimensioni gigantesche e la struttura frammentata, il Web è un «piccolo mondo», nell’accezione tecnica che questa espressione ha assunto dopo gli studi di Duncan Watts e Steven Strogatz. L’esempio più famoso al riguardo è quello dei «sei gradi di separazione»: per mettere in relazione attraverso una catena di conoscenze personali intermedie due individui qualsiasi, scelti a caso l’intera popolazione degli Stati Uniti, saranno sufficienti, salvo eccezioni, circa sei passaggi. Nello stesso modo, due pagine Web qualsiasi (sempre che esista un cammino che le colleghi) sono separate, in media, da non più di diciannove link intermedi. Un’altra importante scoperta dovuta a Barabási e Albert è il fatto che la probabilità che un dato nodo abbia un certo numero di link obbedisce a una ben precisa legge matematica (legge di potenza). Per spiegare questo fenomeno i due ricercatori hanno proposto un semplice ma convincente modello della crescita del Web secondo il quale le pagine più popolari sono quelle che hanno anche la maggiore probabilità di aumentare la propria popolarità. Nella nostra società ormai dominata da Internet la possibilità di arrivare a comprendere la struttura globale del Web e la sua evoluzione futura ha ovviamente una capitale importanza strategica. Permetterà di programmare motori di ricerca più potenti e browsers più efficienti e veloci e, forse, aprirà scenari di competizione politica ed economica che oggi riusciamo appena a immaginare. La teoria delle reti sembra avere tutte le carte in regola per svolgere un ruolo di primo piano in questa avventura. Claudio Bartocci