Il Sole 24 Ore, 5 maggio 2019
Online il «Grande dizionario della lingua italiana»
Oltre vent’anni fa, mentre ero alle prese con la mia tesi di laurea, ho trascorso lunghi pomeriggi nella Biblioteca Nazionale di Roma sfogliando il Grande dizionario della lingua italiana. Lo ricordo come un incubo. Dovevo fare una serie infinita di controlli per verificare la vitalità nel corso dei secoli del lessico dei testi che stavo studiando: centinaia di parole da ritrovare su volumi che pesavano chili, con pagine fittissime in formato atlantico da leggere alla luce precaria dei neon. Non c’era altro modo, d’altronde. Quello era l’unico strumento esistente per ricostruire in modo attendibile la storia delle parole. Oggi, anche se non è più l’unico strumento per ricerche del genere, il GDLI – come viene solitamente citato – rimane il più completo e importante dizionario italiano: quello nel quale sono raccolte, potenzialmente, tutte le parole passate nella nostra lingua. L’equivalente del Trésor de la langue française e dell’Oxford English Dictionary, per intenderci. La notizia è che a partire dal 9 maggio, l’Accademia della Crusca lo metterà in rete, a disposizione di tutti. Gratis.
Per comprendere l’importanza dell’operazione possiamo partire banalmente dai numeri. Il GDLI si compone di ventuno volumi, più un supplemento, pubblicati tra il 1961 e il 2004 dalla UTET, prima sotto la direzione di Salvatore Battaglia – ideatore dell’impresa – poi di Giorgio Bàrberi Squarotti. Si tratta di oltre trentamila pagine in cui si registra l’intera storia del lessico italiano: milioni di voci e di significati documentati ogni volta attraverso esempi d’autore cronologicamente organizzati, di norma uno per secolo. Ciò permette di seguire la vita di una parola o di un singolo significato dalla prima attestazione fino all’ultima, anche se di secoli fa.
Questa documentazione costituisce forse il tesoro più importante che il nuovo progetto di digitalizzazione permetterà di attraversare. Di colpo diventerà raggiungibile, con una semplice ricerca per parola, l’immenso patrimonio di estratti di ogni genere utilizzato dai lessicografi per costruire il vocabolario. Ciò che finora era leggibile solo come documentazione della singola voce che si andava cercando (posto che nessuno sano di mente legga veramente un vocabolario in modo progressivo) diventerà facilmente individuabile. Un esempio: la parola tangentopoli prima di comparire nel posto che le compete, alla lettera T, si trova già in una citazione allegata alla voce sdoganamento, tratta da un articolo di Pier Luigi Battista uscito sulla Stampa nel 1994 (alla voce tangentopoli la prima occorrenza è del 1992).
Nei volumi del GDLI si riflette anche il modo in cui è cambiato, nel tempo, il nostro modo di descrivere l’italiano. Nel 1961, quando il dizionario venne avviato, era appena uscita la prima Storia della lingua italiana, quella di Bruno Migliorini (1960); poco dopo uscirà la Storia linguistica dell’Italia unita di Tullio De Mauro (1963). Due libri fondativi ma di taglio molto diverso: il primo attento in primo luogo ai fatti linguistici e ai testi; il secondo alla storia sociale e culturale del Paese. Al centro tra questi due poli, il GDLI scelse di descrivere l’italiano attingendo prima di tutto alla letteratura, in linea con la nostra tradizione lessicografica maggiore, dalla Crusca al Tommaseo-Bellini. E infatti nei primi volumi sono soprattutto gli scrittori a fornire materiale. Non solo quelli della tradizione ma anche i contemporanei: alla voce abbaglio – vol. I – compare ad esempio una citazione da Italo Calvino, che al tempo aveva trentotto anni. Da un certo momento in poi però – di pari passo con la perdita di prestigio della letteratura come modello di lingua – le fonti si arricchiscono: entrano sempre più spesso trattati scientifici, scritti giuridici e filosofici, periodici e giornali. Questo permette anche un recupero di ciò che si era lasciato per strada. Sotto parallelo – volume XII (1984) – viene registrata la celebre espressione attribuita ad Aldo Moro, convergenze parallele, per mezzo di un articolo di Eugenio Scalfari uscito sull’Espresso nel 1960 (nulla invece sotto convergenza, nel III volume del 1964). Ma gli esempi sarebbero molti.
Trasferire una simile quantità di dati in ambiente digitale non è semplice. Sono passati due anni da quando la Crusca ha avviato il progetto di digitalizzazione in accordo con la UTET. Un tempo brevissimo, se si considera la complessità dell’impegno. La scelta fatta è stata l’unica che permettesse di avere risultati in tempi brevi: acquisire attraverso un lettore ottico (OCR) il contenuto di tutti i volumi, indicizzarlo e renderlo interrogabile. Questo vuol dire che il lettore che accederà al portale della Crusca potrà – per ora – sfogliare le pagine di ogni volume in formato PDF, fare ricerche per parola o per sequenze di parole. Poco a paragone con ciò che permette di fare un dizionario interamente informatizzato, ma molto se si tiene conto della mole del dizionario cartaceo di partenza. Trasformare il GDLIin formato pienamente digitale – come sono attualmente l’Oxford English Dictionary o il Trésor de la langue française – avrebbe richiesto anni e anni di lavoro. In questo modo, invece, sarà possibile migliorare progressivamente le modalità di interrogazione (a partire dalla distinzione tra entrate e presenza delle parole nelle citazioni sino alla correzione dei bugs di lettura ottica: lettere greche, maiuscole e minuscole, ecc.) permettendo agli utenti di usare il dizionario. È stata una decisione saggia: meglio offrire da subito uno strumento da migliorare – un prototipo, come viene definito dalla stessa Accademia – piuttosto che chiudersi nel perfezionismo. Una prova ulteriore del dinamismo e della modernità di questa istituzione che, con più di quattrocento anni alle spalle, continua ad avere cura della lingua italiana nel modo migliore.