La scalata della semantica

Nell'intervista già commentata da Marco Varone la VP di Google Marissa Mayer afferma, in estrema sintesi, che il search engine più popolare continuerà a basarsi su metodi statistici, che funzionano ignorando il significato delle parole, perché la semantica non 'scala'.  Che vuol dire? E' in effetti così?

Scalare, nel lessico informatico, significa, per un sistema, essere capaci di funzionare su grandi volumi di dati, perché al crescere dei volumi si può far fronte con una crescita sostenibile delle risorse computazionali. La tecnologia relazionale, ad esempio, deve il suo successo al fatto che se raddoppia il volume della base di dati, si dovrà al più raddoppiare lo spazio su disco, ma non raddoppiare la potenza del processore, il quale anzi quasi non si accorgerà dell'accaduto.

Veniamo al punto: la semantica è scalabile? La domanda è mal posta. La semantica è una funzione che associa l'oggetto di un sistema linguistico a qualche altro oggetto in qualche altro sistema possibilmente non linguistico. Se questa associazione sia scalabile o meno dipende da com'è fatto il linguaggio, com'è fatto l'oggetto linguistico e da quanta accuratezza chiediamo alla funzione. Sicché la domanda dovrebbe essere: quale semantica è scalabile? Per linguaggi molto espressivi e oggetti linguistici complessi, sì, in effetti la semantica non scala affatto. E per questo non ci sono tecnologie più o meno buone, ci sono solo rinunce più o meno ragionevoli.


  • Luca Nobile |

    Guido so bene che il “semantic web” si riferiva alla semantica denotativa, ma appunto questa potrebbe essere una ragione del suo sostanziale fallimento. La semantica connotativa non potrebbe certo avere le stesse applicazioni, ma potrebbe averne altre parzialmente sovrapponibili. Non penserei pero’ alla connotazione come giudizio soggettivo individuale (buono, bello) ma come qualificazione condivisa dalla comunità dei parlanti. Questo penso sia codato nella fonologia ed estraibile.

  • Guido |

    Luca, ti confermo che la semantica a cui si riferisce la comunità del ‘semantic web’ è proprio quella denotativa, e che la comunità ha iniziato solo di recente ad occuparsi di scalabilità. La connotazione, se è l’assegnazione dell’elemento informativo ad una o più categorie atomiche (buono, bello, dettagliato, etc) sarebbe in effetti scalabile, ma non potrebbe avere le stesse applicazioni.

  • Luca Nobile |

    Ciao. In effetti, se per semantica si intende denotazione di ogni referente allora non mi pare scalabile. Pero’, se invece la si immagina come connotazione differenziale operata dal sistema linguistico, allora mi sembra che lo sia. Voglio dire: attraverso il motore di ricerca l’utente non potrà “centrare” il significato referenziale di ogni parola, ma potrebbe navigare tra i risultati differenziandone le sfumature (“voglio qualcosa di più dettagliato”, “di meno dettagliato”, “di più positivo”, “di più negativo”, etc.). Un po’ come nella ricerca immagini puoi cercare quelle sul giallo oppure sul rosso. In questo secondo caso, gli studi che ho condotto suggeriscono che la cosa potrebbe essere fattibile a partire dalla semplice fonologia, cioè analizzando opportunamente il tessuto linguistico delle pagine. Quindi in modo scalare, senza aggiunta di informazione e senza costi marginali.

  • Guido |

    Enrico, a me non verrebbe da dire che la ‘risposta certa’ introduce complessità, ma piuttosto che la ‘risposta incerta’ la sottrae. Ed è sicuro che rinunciando alla completezza (non voglio neanche pensare a una perdita di precisione) si può abbattere la complessità. Ma forse tu hai in mente qualcosa di più specifico che sarebbe molto interessante approfondire …

  • Enrico Franconi |

    Ma anche nel contesto di query answering ci possono essere diversi aspetti da considerare, e che cambiano radicalmente la complessità. La semantica del query answering con la “risposta certa” è un modo troppo general-generico e conseguentemente introduce complessità. Posso immaginare modi alternativi più puntuali in cui l’impatto sulla complessità/scalabilità è marginale.

  Post Precedente
Post Successivo