Modelli inutili

Tutti i modelli sono sbagliati, ma alcuni sono utili (G. E. Pelham Box). Il modello di funzionamento dei Large Language Model (LLM) presentato recentemente in A Categorical Analysis of Large Language Models and Why LLMs Circumvent the Symbol Grounding Problem (Luciano Floridi, Yiyang Jia e Fernando Tohmé) potrebbe essere uno di quelli semplicemente sbagliati.

Nel paper si afferma che i chatbot basati su Large Language Model sono costitutivamente inclini a enunciare proposizioni (frasi che possono essere vere o false) che un Umano respingerebbe senza indugi. Parliamo delle famose “allucinazioni”. Questo comportamento sarebbe riconducibile alla loro incapacità di fare “grounding”, cioè basare le proposizioni su un Mondo al quale, in quanto automi, non hanno accesso.

Il modello adotta, con le dovute sofisticazioni, il framework della logica epistemica (Hintikka, 1962). Troviamo l’insieme W dei “mondi possibili” (stati di cose) e quello P(W) delle proposizioni che li riguardano. La semantica è quella della logica: “la neve è bianca” se e solo se, a giudizio dell’Umano, la neve – guarda là – è proprio bianca. Per quanto questo corrispondentismo possa apparire ridicolmente inadatto al linguaggio naturale (e i logici lo sanno benissimo), non è questo problema. I modelli, necessariamente, fanno astrazione da qualcosa, altrimenti sarebbero essi stessi il Mondo. Che Qualcuno nel Mondo possa avere la Verità in tasca è un’idea stravagante, ma, se è necessario assumerla in un modello utile a qualcosa, possiamo benissimo farlo, mettendo un attimo da parte le miserie doxastiche dell’umanità, cioè il fatto che ciascuno tiene in tasca la verità sua.

Il problema, a mio avviso, è quello di suggerire che l’automa sia incline a generare proposizioni allucinatorie come “la neve è nera” in conseguenza della mancanza di accesso al Mondo (il “grounding” appunto).

Traduco:

[…] la tesi centrale è che gli LLM non hanno accesso immediato a W [il Mondo] e quindi (therefore) non risolvono il problema del grounding dei simboli. Piuttosto, lo aggirano (circumvent) sfruttando contenuti umani già fondati [interpretati].

Nel modello di Floridi et al., la mancanza di grounding non è presentata come una causa contingente, ma come una condizione strutturale che renderebbe inevitabili i fallimenti degli LLM. Se accettassimo di interpretare questa come causa efficiente, in termini proposizionali, convenendo di indicare con G il grounding e con A la possibilità di allucinazioni, potremmo formularla così:

            non-G → A
            (la mancanza di grounding implica la possibilità di allucinazioni)

Da questa asserzione, per modus tollens, segue immediatamente:

           non-A ⊢ G
           (l’impossibilità di allucinazioni implica il grounding)

Se il nesso fosse davvero causale, basterebbe dunque costruire un chatbot non allucinato per concludere che esso ha accesso al Mondo. È evidente però che non è questa la tesi che Floridi et al. intendono sostenere. Al contrario, l’intero loro argomento poggia sul presupposto che agli automi tale accesso sia inerentemente precluso. In particolare, oltre ad un corpo e a un buon vocabolario, ciò che mancherebbe agli automi è il grounding normativo-sociale. Il linguaggio vive nello spazio delle ragioni (Sellars, 1956): usare una parola significa assumere impegni, esporsi a correzioni, offrire giustificazioni. Il “vero significato” richiede dunque una forma di responsabilità, e questa appartiene a una dimensione umana che le macchine, per costruzione, non possono abitare.

Se la mancanza di accesso al Mondo non è la causa diretta delle allucinazioni, allora queste non possono fungere da prova dell’assenza di semantica: possono essere considerate effetti strutturali collaterali, ma non diagnostici. Nel paper tuttavia si propone esattamente una spiegazione causale: l’LLM è un sistema di statistical pattern completion che, per il carattere stocastico dell’inferenza, può produrre sequenze linguisticamente plausibili ma fattualmente false. Poiché manca di grounding, la macchina non dispone di un criterio interno per distinguere tra plausibilità statistica e verità; per questo le allucinazioni risultano strutturali e non puramente accidentali. Si tratta, apertis verbis, del noto argomento del “pappagallo stocastico” (Bender et al. 2021).

Anche se il completamento statistico fosse affiancato da procedure deterministiche, come ad esempio l’accesso a basi di conoscenza certificate o a contenuti strutturati, e le allucinazioni fossero drasticamente ridotte, il sistema non entrerebbe comunque, secondo gli autori, nello spazio delle umane ragioni – almeno così mi sembra di capire. Tuttavia, in uno scenario del genere, il modello teorico dovrebbe essere, a mio avviso, riconsiderato. Bisognerebbe spiegare, infatti, perché quelle procedure non offrirebbero garanzie epistemiche equivalenti a quelle ottenibili dagli umani. Oppure dire chiaramente che la questione non è epistemologica, ma riguarda la trascendenza.

Ora, l’integrazione sistematica di fonti verificate, strumenti di ricerca, basi di dati e moduli simbolici è precisamente lo scenario verso cui stanno evolvendo i sistemi attuali. Questo ridimensiona sensibilmente la natura stocastica del loro eloquio. Gli autori ne sono consapevoli, ma liquidano la questione come un dettaglio secondario:


Traduco:

Abbiamo osservato che i sistemi effettivamente distribuiti, inclusi quelli di AI agentica, possono utilizzare strumenti (ad es. ricerca, esecuzione di codice, basi di dati) o modalità aggiuntive (visione, audio), ampliando così il contenuto disponibile in un dato momento di inferenza. […] Questo, di per sé, non risolve il problema del symbol grounding; si limita ad ampliare il contenuto consultato.

Qui però abbiamo un problema tecnico piuttosto serio. Non è corretto sostenere che il ricorso a basi di conoscenza esterne, anche espresse in forma ontologica come nel caso dei Knowledge Graph, costituisca un semplice ampliamento del contenuto già presente nel modello. Si tratta piuttosto di rappresentazioni condivise a priori tra esseri umani e sistemi artificiali, appartenenti non solo alla tradizione dell’AI simbolica, ma più in generale a quella delle basi di dati e dei sistemi informativi. A differenza dei parametri neurali, queste rappresentazioni sono pubbliche, ispezionabili, modificabili, semanticamente definite e stipulate.

Ad esempio, immaginiamo un LLM strumentato con servizi meteo accessibili attraverso il web – proprio quelli che consultiamo ogni mattina con fiducia. Alla domanda:

       Piove a Parigi?

un LLM siffatto non cercherebbe di produrre su base statistica un “sì” o un “no”. Piuttosto, genererebbe l’invocazione dei servizi (tool nel gergo tecnico) con parametri che possiamo immaginare come:

      LOC=PARIGI, TIME=TODAY

I tool, verosimilmente, risponderebbero con tabelline orarie delle previsioni del tempo a Parigi, che fornite come contesto (incidentalmente, qualcuno lo chiama “ground truth”) porterebbe il chatbot a produrre una risposta. Ecco cosa dice ora GPT 5.2:

No: al momento non sta piovendo a Parigi e le previsioni non danno pioggia consistente nelle prossime ore — prevalgono cielo nuvoloso o variabile senza precipitazioni significative. Le probabilità di pioggia sono basse o molto deboli nella maggior parte della giornata e della serata. (AccuWeather)

In sintesi:

  • cielo nuvoloso con schiarite, pioggia assente o molto debole oggi; (AccuWeather)

  • alcune previsioni segnalano possibili deboli rovesci notturni, ma nulla di rilevante al momento; (3BMeteo | Previsioni Meteo)

  • probabilità di precipitazioni rimane bassa (intorno al 20–25 %). (AccuWeather)

Quindi se sei o stai guardando il meteo di Parigi: puoi uscire senza ombrello (per ora).

Notate il nome dei tre tool effettivamente usati. Cosa c’è di deteriore rispetto a quello che avrei saputo accedendo direttamente alle tre app e integrando a mente i risultati? Sarei piuttosto propenso a dire che, pur fuori dallo spazio delle ragioni, il chatbot mi abbia reso un buon servizio, epistemicamente parlando. Moltiplicate questo esempio per tutti i tool informativi che vi vengono in mente, dagli orari ferroviari alle ricette di cucina, e avrete un’idea abbastanza precisa di quello che questi sistemi sono diventati. La conoscenza viene per lo più attinta non direttamente dai modelli, ma da fonti documentali o basi di dati: le cose che usiamo da sempre. Sempre più spesso, i modelli linguistici si limitano a fare ciò che il loro nome suggerisce: contribuire conoscenze linguistiche in processi di information processing molto articolati, le cui euristiche – pur celate nei meandri di giganteschi servizi software – sono comunque razionali. I pappagalli stocastici sono volati via. Al loro posto sono arrivati i corvi epistemici.

Tutti i modelli sono sbagliati, e quello in questione non lo è di meno. Ma a me sembra – con tutto il rispetto e l’ammirazione per il grande lavoro e la calligrafia formale – che sia anche di scarsa utilità. In conclusione gli autori dicono: usateli pure ‘sti chatbot (tanto lo fate comunque) ma statevi accorti. Più o meno quello che già si sapeva.