Linguaggio: quello che i dati possono dare

L’entusiasmo per le grandi quantità di dati oggi disponibili (‘big data’) dilaga anche nella linguistica, che è sempre più computazionale e statistica. La cosa non deve sorprendere: già nell’Ottocento i neogrammatici tedeschi, con positivistico furore, buttavano alle ortiche le categorie linguistiche della tradizione (in odore di metafisica) dandosi a sistematiche comparazioni tra i dati delle diverse lingue storiche, dalle quali traevano leggi universali. Verso la metà del secolo successivo, Harris (maestro di Chomsky) formulava le proprietà e le relazioni linguistiche come un sistema matematico, e ricercava verità linguistiche applicando formule alle evidenze fornite dai testi. Alla guida dell’ideale macchinario analitico aveva messo una robusta ipotesi, detta distribuzionale, enunciata in quegli anni da Firth: possiamo conoscere la parola osservando i contesti in cui appare; le parole che compaiono negli stessi contesti hanno significati correlati. Questa ipotesi è musica alle moderne orecchie computazionali: cosa c’è di meglio per chi ha oggi a disposizione tutta la capacità di calcolo e tutti i testi dell’umanità? Se la matematica applicata ai dati può davvero dirci tutto sul linguaggio, quali segreti esso potrà ancora nasconderci oggi che possiamo elaborare tutto il dicibile?

L’ipotesi distribuzionale afferma, essenzialmente, che esiste una relazione tra le combinazioni delle parole, così come le mettiamo in fila nei concreti discorsi, e il loro significato, cioè il modo in cui esse si relazionano a cose e situazioni che sono, presumibilmente, fuori dal linguaggio. Si tratta di un’ipotesi ragionevole?

Sicuramente lo sarebbe se il linguaggio fosse una pittura del mondo, un’attività simile a quella che facciamo quando raffiguriamo il paesaggio che vediamo dalla finestra di camera nostra. Ad un tratto del pennello corrisponde un tratto di ciò che vediamo. E benché la materia che disponiamo sulla tela sia diversa da quella che c’è fuori dalla finestra, la figura è intellegibile a tutti, perché tutti possono riconoscere la corrispondenza fra ciascuna traccia e ciascuna parte del paesaggio. Se il linguaggio fosse così, chiunque, anche ignaro della lingua, leggesse  ‘la mela è sul tavolo’ e ‘la pera è sul tavolo’ potrebbe intuire qualcosa della semantica di mele e pere, così come, davanti alle medesime cose dipinte, potrebbe vedere che si tratta di cose simili.

Ma nessuno può seriamente illudersi che le cose del linguaggio siano così semplici. Provate a convincere le mie figlie che la scuola è uno spasso, perché si dice ‘vado a scuola’ e ‘vado a spasso’. Se il linguaggio fosse una pittura, certamente non sarebbe figurativa. E non somiglierebbe neanche al cubismo, dove, nonostante tutto, si capisce sempre di che si tratta. Potrebbe invece somigliare alla pittura informale novecentesca, che richiede a chi la guarda un lavoro di interpretazione a volte vano, in quanto lo scopo del pennello (se di pennello si tratta) non è necessariamente quello di raffigurare qualcosa. Nel linguaggio, oltre alla realtà, gioca un grosso ruolo anche la libertà, non solo quella di creare espressioni e modi di dire, ma anche quella, uguale e contraria, di intendere a piacimento, questo è il problema.

I linguisti computazionali non sono sciocchi e queste cose in genere le sanno. Perciò si ingegnano a prendere in considerazione unità linguistiche più complesse della semplice parola, strutture composte, nessi grammaticali, e si danno a far calcoli sempre più sofisticati su dati di sempre maggior volume. La speranza è che, comunque, nonostante il capriccio e l’arbitrio della lingua, qualcosa del significato mediamente evocato dalle parole resti preso nella rete dei calcoli. Il tempo ci dirà se si tratta di speranze ben riposte, ma è già possibile vedere, ad esempio, che con una nozione puramente statistica del significato si può riuscire in alcuni casi a valutare con qualche accuratezza quanta similarità semantica ci sia tra due frasi della lingua, senza passare (notate bene) per ciò che le frasi vogliono in effetti dire.

C’è comunque da riflettere sul grande fascino che esercita nell’immaginario attuale l’idea di buscare il levante della semantica mettendo prora al ponente della statistica. Immaginario che viene esaltato dalla grande quantità di dati oggi a disposizione. Questa fascinazione potrebbe recare con sé la classica idea di un legame diretto tra parole e cose. Molti filosofi (anche antichi) hanno invece avvertito che la semantica nasce da processi sociali dove opera l’umana creatività e, in definitiva, la scelta, e se un rapporto tra parola e cosa esiste, questo è sempre un rapporto provvisorio e tangenziale, mai diretto e definitivo.

Nel comprendere quello che i ‘big data’ linguistici possono darci, e accettare il fatto che non possano darci tutto, si vede bene quanto sia importante che la cultura tecnologica e la cultura umanistica non vengano scioccamente contrapposte, come oggi qualcuno si attarda a fare, ma debbano essere profondamente integrate.