(Nòva, 1 Nov 2020)
L’Intelligenza Artificiale (IA) nasce nel 1950 quando Alan Turing immagina una macchina capace di parlare con gli esseri umani attraverso un terminale con tale fluidità da essere confusa con essi. L’IA sarà realizzata, dice Turing, quando questa macchina verrà costruita.
A distanza di settant’anni, cioè, tecnologicamente, un’era o forse più, siamo invasi da chatbot che ci assistono (o tentano di farlo) nei compiti di ricerca di informazione o nell’uso delle piattaforme online su cui, inesorabilmente, si trasferiscono le nostre interazioni con aziende e amministrazioni. Ma nessuno confonde questi chatbot con qualche essere umano. Anzi, i loro produttori hanno da tempo capito che è meglio non ambire ad alcuna mimesi e si appellano piuttosto alla benevolenza degli spazientiti utenti verso quei poveri algoritmi che cercano di rendersi utili. Eppure, la ricerca nel campo dei modelli computazionali del linguaggio è stata, specie negli ultimi decenni, febbrile.
Si può dire che l’automazione della facoltà umana del linguaggio sia sempre stata e sia ancora la frontiera più avanzata dell’IA. Questo non può e non deve sorprendere. Tutte le tecnologie intelligenti hanno qualcosa a che fare con la cognitività della nostra specie: si pensi ad esempio alla guida autonoma, dove è importante riuscire a classificare le forme visibili dal veicolo in modo simile a quanto fa normalmente chi è al volante. Ma il linguaggio è il modo stesso in cui rappresentiamo nella coscienza gli oggetti, sia quelli che i sensi ci consegnano, come le montagne e i gatti, sia quelli che costruiamo nella vita sociale, come i contratti e i divorzi. Forse è esagerato dire, con Heidegger, che “siamo parlati dal linguaggio”, ma di sicuro nessuno sottovaluta il fatto che sia proprio il parlare ciò che ci distingue più nettamente dalle altre specie animali e ci consente di realizzare, nel bene e nel male, la nostra umanità.
Dunque: a che punto siamo con i modelli computazionali del linguaggio, e cosa possiamo attenderci nel prossimo futuro? L’annus horribilis che sta per concludersi ci ha consegnato una macchina capace di elaborare testi in risposta a domande o spunti, in un modo davvero impressionante. Si tratta di GPT-3 (Generative Pre-trained Transfomer, v3), una rete neurale con 170 miliardi di connessioni, addestrata con petabyte di testo reperito sul Web in varie lingue, qualche megawatt di elettricità e diversi milioni di dollari sborsati da Microsoft, che ne detiene l’esclusiva. Come molte tecnologie linguistiche neurali sviluppate di recente (tra gli altri, notevolmente, da Google), GPT-3 sfrutta quello che nella terminologia specialistica si chiama apprendimento non supervisionato: il sistema impara dalla lettura di testi che gli vengono sottoposti così come sono, senza nessun intervento umano. Quello che ne risulta sono modelli linguistici in cui ciascuna parola si trova associata ai contesti in cui viene usata, senza però alcun bit che spieghi perché viene usata in quel contesto. Generare una frase (ad esempio una risposta) sulla base di un modello siffatto, significa produrre le sequenze di parole più assonanti e attendibili rispetto allo spunto fornito (ad esempio una domanda) in relazione ai petabyte di testo usati per l’addestramento. Petabyte che per inciso – confessano gli ingegneri di GPT-3 – nessuno ha avuto il tempo di passare al setaccio per assicurare che non contenessero pregiudizi, incitamenti all’odio ed altre amenità.
David Ferrucci, artefice nel 2011 di quel miracolo targato IBM che fu la vittoria di Watson al gioco a quiz Jeopardy! chiama i sistemi di questo tipo “super-pappagalli”, perché parlano senza capire ciò che dicono. Non che il suo Watson capisse molto di più, ma a quel tempo ancora si cercava di tenere insieme l’empiria dei testi e la razionalità di dizionari e ontologie. Oggi, il combinato disposto delle architetture neurali, della potenza di calcolo e della disponibilità di dati incoraggia invece la tentazione di sbarazzarsi del segno linguistico. I progettisti di reti neurali che si accostano al linguaggio, vedono questo come uno spazio combinatorio di stringhe alfabetiche. Tali elementi non sono simbolici (sýmbolon, che porta insieme), in quanto per le macchine essi non significano nulla più che numeri. L’unica cosa che conta sono le relazioni sintattiche (sýntaksis, disposizione) che tali numeri esibiscono nelle sequenze in cui occorrono, cioè nei testi. L’insieme di queste combinazioni formano un immenso spazio algebrico. L’idea è che in questo spazio siano matematicamente riconoscibili le tracce dei significati, e circola anche l’ipotesi che tali impronte statistiche rendano conto del contenuto delle parole meglio di quanto possano fare i dizionari. Perfino la nozione wittgensteiniana di “gioco linguistico” è stata mobilitata a supporto di questa algebrica visione, con supremo disprezzo del fatto che i giochi di cui parlava il filosofo austriaco non avvengono nei testi ma nella vita. Per la semiologia classica, il segno linguistico è l’unità di un significante (una stringa) e un significato (un concetto), e questa unità non è garantita dalla sintassi, ma da quel complesso meccanismo di interazioni tra soggetti che chiamiamo società umane.
Dunque i super-pappagalli artificiali non servono a nulla? Tutt’altro: Microsoft, Google e tutti gli altri non ci metterebbero sopra i loro milioni. I modelli linguistici derivati direttamente dai testi, pur non entrando nel merito della significazione, sono efficacissimi ad esempio nel valutare la similarità semantica tra le frasi, cosa che sta dando vita a una nuova generazione di motori di ricerca. La capacità generativa esibita dai super-pappagalli, questa performance senza competence, potrà essere utilizzata in tutti i contesti in cui non entra in gioco la funzione veritativa del linguaggio che, giova ricordarlo, non è l’unica sua funzione. Parliamo ad esempio di intrattenimento. Qui è interessante notare come GPT-3 consenta di dosare l’”entropia” delle frasi generate, cioè la loro prevedibilità, la sorpresa che possono suscitare in chi le legge. Questo ci riporta ai tempi in cui la teoria matematica dell’informazione fu presa a fondamento di certa estetica, come Umberto Eco illustrò nel suo Opera aperta (1962), anche allo scopo di generare prodotti artistici, ad esempio brani musicali. La storia del pensiero computazionale è ormai così lunga da avere i suoi ricorsi.