Questo sito utilizza cookies tecnici (propri e di terze parti) come anche cookie di profilazione (di terze parti) sia per proprie necessità funzionali, sia per inviarti messaggi pubblicitari in linea con tue preferenze. Per saperne di più o per negare il consenso all'uso dei cookie di profilazione clicca qui. Scorrendo questa pagina, cliccando su un link o proseguendo la navigazione in altra maniera, acconsenti all'uso dei cookie Ok, accetto

 2012  dicembre 07 Venerdì calendario

GOOGLE CHE COSA SUCCEDE QUANDO DIGITI UNA PAROLA E ASPETTI IL RISULTATO


MILANO. Provate a chiedere a Google di Nietzsche. Cosa intendeva con «bisogna avere il caos dentro di sé per generare una stella danzante»? Digitate in inglese e tra i primi risultati otterrete una pagina di Yahoo! Answers in cui tale lowpro7days spiega: «Nietzsche ama la danza. Crede che danzare sia la più genuina forma di espressione dell’anima e che il filosofo non dovrebbe amare niente più che la danza. Sta dicendo che senza passione e libertà non potremmo mai farci venire in mente grandi idee o invenzioni». Ripetete il tutto in italiano e la più apprezzata spiegazione, firmata auryn, risulta la seguente: «nn so cs intendesse nietzsche.... cmq ti dò una mia interpretazione: allora, a me piace molto fare gli scarabocchi (ne approfitto!!! http:/ /dyrkpwscarabocchi.spaces.live.com), su una parte di me, nn sn semplici linee.... x me significano molto, mi piace molto farli, e anke alla gente (più o meno....:-)) piacciono.... l’unico problema è ke mi vengono solo quando sono triste, arrabiato, depresso ecc. ecc. e in generale male. forse è questo ke intendeva sto nietzsche: solo quando stiamo maluccio, si quando abbiamo il caos dentro di noi riusciamo a produrre qualkosa di bello (anke se secondo me nn è sempre vero)».
C’è una qualche differenza. Ma se siete tentati di trarne la conclusione che in media gli anglofoni siano più intelligenti degli eredi dell’idioma di Dante siete fuori strada. La spiegazione è più semplice e introduce alla regola base del funzionamento del primo motore di ricerca al mondo. Le informazioni in inglese sono molto più numerose di quelle nella nostra lingua. L’algoritmo ha quindi più materia prima da analizzare e dalla quale ricavare significato. E la legge dei grandi numeri fa sì che la migliore risposta tra trecento possibilità sia decisamente più affidabile di quella che deriva dal setaccio di dieci, ovvero il rapporto approssimativo tra pagine in inglese e in italiano. Perché, quando si parla di banche dati, la quantità diventa qualità. Quindi, tornando al filosofo tedesco, quanto più grande è il caos informativo che un search engine, ha dentro, tanto più è probabile che genererà una risposta sensata.
Se c’è un uomo che lo sa meglio di tutti, quello è Amit Singhal. Nel 2001, a tre anni dall’invenzione che ha cambiato la fisionomia di internet, i due padri di Google Larry Page e Sergey Brin l’hanno voluto alla loro destra. Nato in Uttar Pradesh, cresciuto sulle falde dell’Himalaya e dottorato all’americanissima Cornell sotto Gerard Salton, uno dei padri dell’information retrieval (la scienza del reperimento delle informazioni), l’ingegnere indiano doveva riscrivere il codice che ogni istante setaccia, analizza e ordina miliardi di pagine. Che è come se la Ferrari chiamasse qualcuno a riprogettarne i motori. Da allora è stato premiato con l’ammissione nel National Academy of Engineering, l’equivalente del comitato Nobel per l’ingegneria, nominato fellow della Association for Computing Machinery e siede nel sinedrio del Googleplex, il quartier generale di Mountain View, California. Di passaggio a Milano, per un grand tour europeo nei possedimenti di quello che è ormai diventato un impero da oltre 32 mila dipendenti, ha incontrato il Venerdì per un racconto ad alta definizione di come funziona il sito che è diventato sinonimo di ricerca al punto che nel 2006 il dizionario Merriam-Webster l’ha registrato come verbo. Un passaggio tipografico, questo dalla maiuscola alla minuscola, che racchiude il senso di un successo senza precedenti.
DATACENTER
Quando voi digitate una o più parole, chiave della vostra ricerca, nella schermata bianca di Google e premete invio, la richiesta viene indirizzata dal vostro pc al server - ovvero a un gruppo di potenti computer - che si trova più vicino. Singhal non dice né quanti sono né in quali datacenter si trovano. Chi in rete ha provato a indovinare il numero, una sorta di sacro graal dell’informatica, a partire dal consumo elettrico, ha parlato di circa 900 mila server. Steven Levy, l’unico giornalista sin qui ammesso a visitare un datacenter a Lenoir, nel mezzo del niente della North Carolina, ammette che non è vitale conoscere la quantità delle macchine perché un singolo server del 2012 equivale, quanto a potenza di calcolo, a circa venti della generazione precedente. Vi basti dunque sapere che, con ogni probabilità, si tratta della rete di comunicazione privata più efficiente del mondo. Che riesce a indicizzare circa venti miliardi di pagine web al giorno. Gestire oltre tre miliardi di richieste quotidiane. Archiviare la mail di 425 milioni di utenti Gmail, oltre a servire miliardi di video su YouTube e tanti altri servizi ancora. Ancora Singhal: «È stato calcolato che in media una richiesta compie un viaggio lungo le fibre ottiche di 2400 chilometri. Un’andata e ritorno che non deve durare più di un quarto di secondo. Non vogliamo far sprecare neanche un minuto di vita ai nostri utenti. E dal momento che non siamo ancora riusciti a superare le leggi della fisica, più vicina è la macchina, più rapida è la risposta».
RAGNI, INDICI E CLASSIFICHE
In verità, prima ancora che voi scriviate sulla tastiera ciò che volete sapere, buona parte del lavoro preliminare alla ricerca è già avvenuto a vostra insaputa. Se il web è metaforicamente una ragnatela, i crawler o spider sono quei programmi che ripercorrono il cammino dei ragni che l’hanno tessuta. «Setacciano sistematicamente il web, almeno nella parte non protetta da password o realizzata in codici inaccessibili tipo Flash, e copiano il contenuto delle pagine sui nostri server sparsi in tutto il mondo. Quindi entrano in funzione altri programmi, gli indexer, che estrapolano le parole chiave dalle pagine e costruiscono un indice che, come succede nei libri, ne facilita la consultazione informatica. A questo punto scatta la parte più delicata, il ranking, ovvero si devono mettere in ordine i risultati. Prima, semplificando, si contava quante volte la parola chiave ricorreva in una pagina. Poi Google ha introdotto il PageRank, che desume i risultati più pertinenti da quanti (e quali) siti affini linkano a una determinata pagina. La logica è: se tanti esperti consigliano un sito, vuol dire che è il migliore. Ma questa dei link non è che una delle tante euristiche, ipotesi interpretative, tra i circa duecento "segnali" che adoperiamo per trovare la risposta più giusta alle domande degli utenti. Ad esempio, una pagina che contiene la parola chiave nel titolo probabilmente la tiene in maggiore considerazione, e quindi è più pertinente, di una che ce l’ha in una nota. Oppure se la parola chiave è a sua volta un link, vuol dire che è importante. Ancora: la pagina più recente ha la meglio su quella più antica. O quella geograficamente più vicina all’indirizzo telematico di chi cerca si presume più interessante per lui di quella lontana. E così via. Tanti indizi contestuali, come li chiamiamo, che incrociamo per fornire la risposta esatta».

ALGORITMO
Della forza bruta informatica, dell’infrastruttura «idraulica» del sistema, con i suoi tubi di fibre ottiche che fanno fluire i dati, si è detto. Poi però entra in gioco la precisione, su cui Google ha costruito la sua fama. E quella la fornisce l’algoritmo, ovvero la ricetta matematica che porta alla risoluzione di un problema attraverso una serie di operazioni. Abbiamo già visto che tiene conto di molte variabili. Per rimanere in ambito digitale, immaginate una foto scattata con le prime macchinette: pochi pixel, ovvero punti di colore, uguale scatti a bassa risoluzione, mentre con gli attuali 12 mega le tessere sono di più e il mosaico dell’immagine risulta ad alta definizione. Lo stesso vale per gli indizi contestuali riguardo all’esattezza della risposta. «L’algoritmo è il cuore di Google. Lo modifichiamo costantemente, circa 500 volte all’anno. Per evitare che qualcuno che è riuscito a capirne il funzionamento provi a piegarlo a proprio vantaggio, favorendo certi siti a scapito di altri. Come quelli che scrivono tante volte le parole chiave nello stesso colore dello sfondo, invisibili all’occhio umano ma non al crawler, che potrebbe illudersi che quella pagina sia particolarmente utile. E poi, a prescindere dalla necessità di bloccare i tentativi di chi vorrebbe dirottarlo a propri fini, vogliamo continuare a migliorarlo».

DISAMBIGUARE
Il compito del software è di arrivare, per via matematica, a un’intelligenza di tipo semantico. Non un salto da poco. È la parte di cui Singhal va più fiero. «Come fa la macchina a intuire se la persona che digita apple intende il frutto o la produttrice di computer? Ovvero, come dicono i linguisti, a disambiguare? Ad esempio, se la stessa persona, dall’indirizzo IP che contraddistingue il suo computer, ha già cercato marmellata o anticrittogamici, il motore può ipotizzare che voglia notizie sul frutto. Ma non è sempre così facile. Prendete due termini quasi identici come apartment service e serviced apartments. Considerandoli banalmente due stringhe di testo, la differenza ammonta a una d e a un diverso ordine. Quanto al senso però sono due bestie totalmente diverse: una si riferisce genericamente ad agenzie immobiliari e l’altra più specificamente ad appartamenti ammobiliati». Lavorare su queste sfumature, far sì che la macchina capisca ciò che per un umano sarebbe banale, tipo distinguere tra New York e New York Times, è la sua specialità. Dal punto di vista della linguistica computazionale si tratta di affrontare nel modo giusto i bigrammi, ovvero più parole che giustapposte acquistano un unico significato. «Ogni giorno ricevo decine di rapporti su ricerche che danno risultati insoddisfacenti. E il nostro lavoro è quello di modificare le istruzioni del codice in modo da ridurre questo numero».
COLLAUDATORI E COMITATO DI SAGGI
Le continue modifiche al codice vanno poi testate. Con un controllo di qualità su vari livelli. «Ci sono agenzie che reclutano per conto nostro migliaia di utilizzatori ai quali, dietro pagamento (di recente hanno fatto discutere i magrissimi compensi che Facebook versa a chi rimuove "a mano" immagini disdicevoli dal social network, ma Singhal giura che i loro sono retribuiti più che degnamente), facciamo vedere fianco a fianco i risultati generati dal nuovo e vecchio codice per capire se era meglio prima o dopo. In un anno eseguiamo 50 mila di questi esperimenti. Poi abbiamo i collaudatori interni, nostri dipendenti, in numero molto inferiore. Il terzo livello è un campione casuale di utenti reali a cui vengono serviti i "nuovi" risultati. Se tra loro la percentuale di chi clicca sui primi della lista è più alta che tra quelli che vedono i vecchi risultati, vuol dire che la modifica ha funzionato bene. D’altronde il nostro sogno sarebbe mettere la risposta giusta sempre al primo posto, senza costringervi a cliccare sul secondo, terzo, decimo e cosi via. L’ultimo stadio, decisivo, è quello di un ristretto comitato di saggi. Ingegneri, linguisti, persone come me che lavorano sul cuore del motore. Ci incontriamo almeno una volta alla settimana, analizziamo le indicazioni emerse dai vari livelli, facciamo un dibattito di una decina di minuti, generalmente molto intenso, e stabiliamo quale soluzione sia più giusta. Sino alla modifica successiva».
IL GRAFO DELLA
L’ultima grossa novità introdotta da Google si chiama Knowledge Graph. Un tentativo di superare definitivamente le associazioni tra singole parole andando verso quelle tra concetti. «Un computer tipicamente considera tutto come stringhe di codice. Per lui Italia sono 5 lettere, non il Bel Paese che tutti conosciamo. La nostra idea quindi è di identificare in maniera univoca, per cominciare, 500 mila entità reali. Così a Roma sarà assegnata una targa, pensate a una specie di codice a barre, che a sua volta conterrà vari sottoinsiemi tra cui il Colosseo e Remolo e Remo, mentre non conterrà l’eventuale pizzeria Roma. Grazie a questa nuova classificazione, stiamo costruendo una sotto-rete internet meglio organizzata, al punto che oggi, se un utente digita una di queste entità, gli salta fuori, a destra dei classici risultati, un riquadro che gli fornisce una scheda sintetica sula cosa che sta cercando». Se aveste la tentazione di liquidarlo come qualcosa che Wikipedia fa da sempre, riflettete meglio. Lì le informazioni le strutturano esseri umani, qui il software in automatico. O, per dirlo con le parole del New Yorker, tra un decennio questo grafo della conoscenza potrebbe passare alla storia «come lo spartiacque tra macchine che dragavano impressionanti quantità di dati, senza alcuna idea su cosa significassero, e macchine che cominciarono a pensare, almeno un po’, come persone».

PRIMA FACEVA RIDERE E ORA TRADUCE BENE?
Il traguardo finale sarà conversare con il motore come faremmo con un nostro amico, ponendogli le domande in «linguaggio naturale». Ogni previsione sui tempi è impossibile perché le accelerazioni tecnologiche tendono a essere più esponenziali che lineari. Basti pensare al servizio di traduzione. Nel 2006, quando fu lanciato, i risultati erano buoni giusto perché Umberto Eco li usasse come carne da macello per la sua Bustina di Minerva. Adesso sono impressionanti e chiunque può farsi un’idea del significato complessivo di una pagina in arabo o in cinese altrimenti inintelligibile. Per certe lingue poi, tipo le traduzioni dal tedesco all’inglese, il tasso di accuratezza è stupefacente. Per comunanza di ceppo o altre somiglianze strutturali?, chiedo ingenuamente. «No, piuttosto perché in tedesco o in spagnolo ci sono molti più dati che in italiano. Quindi voi scontate il limite della quantità, non della grammatica. Ricordatevi infatti che è una traduzione automatica fatta per associazioni statistiche. Più frasi esistono nelle due lingue da tradurre, più sono i clic di persone che hanno apprezzato una traduzione anziché un’altra e più il motore affinerà le sue capacità».
FUTURO PROSSIMO
Alla fine parlare di Google è come parlare dell’upgrade tecnologico di ciò che i presocratici chiamavano nous, l’intelletto cosmico. Per Anassagora era in grado di mettere ordine nel caos originario, differenziando gli elementi. Dall’intensità che Singhal emana quando parla del suo compito è chiaro che non la prende meno seriamente. Accenna a direttrici di ricerca future: «Vogliamo potenziare la ricerca vocale: voi pronunciate una domanda e noi vi facciamo leggere la risposta da un sintetizzatore vocale. Chi lo vorrà potrà cercare, con un colpo solo, in ogni luogo elettronico, compresa la propria casella di posta elettronica. Così se digitate miei voli e avete autorizzato a frugare anche Gmail, salterà fuori il messaggio in cui la compagnia aerea vi confermava orari e terminal delle partenze». Sogno dei forzati dell’efficienza, incubo per chi teme per la privacy. L’azienda sa tutto di noi e, per un uso ritenuto non abbastanza rispettoso di queste informazioni, ha già pagato una multa da 22 milioni di dollari negli Stati Uniti, ed è stata messa in guardia dall’Unione europea. Ora poi deve affrontare una grana grossa: 96 milioni di euro che il fisco italiano l’accusa di aver eluso.
Il punto che resterà identico domani come oggi, giura il suo papà, è l’impermeabilità dell’algoritmo all’intervento umano: «Che si tratti di servire risultati per gli utenti italiani o per gli americani, oppure di stabilire quali immagini siano "accettabili" per gli uni o per gli altri, o anche di compiere un’infinità di altre scelte di tipo culturale, a prendere le decisioni sarà la macchina in piena autonomia, tenendo conto dei segnali di cui abbiamo parlato all’inizio di questa chiacchierata. L’intervento umano è ammissibile solo in rari casi, dopo che la macchina ha fallito, per rimuovere contenuti offensivi o altrimenti illegali. Con questo spero di aver risposto, una volta per tutte, alle leggende metropolitane che continuano a circolare circa il fatto che favoriremmo nei risultati chi paga. Una cosa è la ricerca, un’altra è la pubblicità. C’è una muraglia cinese altissima tra le due divisioni aziendali. Il giorno che dovesse abbassarsi sarebbe la fine. Perché la gente da noi vuole un’unica cosa: che gli troviamo il proverbiale ago di cui hanno bisogno in quel gran pagliaio della conoscenza che è la rete».