Grammatica categoriale - Categorial grammar

La grammatica categoriale è una famiglia di formalismi nella sintassi del linguaggio naturale che condividono l'assunto centrale che i costituenti sintattici si combinano come funzioni e argomenti . La grammatica categoriale pone una stretta relazione tra la sintassi e la composizione semantica , poiché tratta tipicamente le categorie sintattiche come corrispondenti a tipi semantici. Le grammatiche categoriali furono sviluppate negli anni '30 da Kazimierz Ajdukiewicz , Yehoshua Bar-Hillel e Joachim Lambek . Ha visto un'ondata di interesse negli anni '70 in seguito al lavoro di Richard Montague , la cui grammatica Montague assunse una visione simile della sintassi. Continua ad essere un paradigma importante, in particolare all'interno della semantica formale .

Nozioni di base

Una grammatica categoriale è composta da due parti: un lessico, che assegna un insieme di tipi (chiamati anche categorie) a ciascun simbolo di base, e alcune regole di inferenza di tipo , che determinano come il tipo di una stringa di simboli segue dai tipi del costituente simboli. Ha il vantaggio che le regole di inferenza del tipo possono essere fissate una volta per tutte, in modo che la specificazione di una particolare grammatica linguistica sia interamente determinata dal lessico.

Una grammatica categoriale condivide alcune caratteristiche con il lambda calcolo semplicemente digitato . Mentre il lambda calcolo ha un solo tipo di funzione , una grammatica categoriale ha tipicamente due tipi di funzione, un tipo che viene applicato a sinistra e uno a destra. Ad esempio, una semplice grammatica categoriale potrebbe avere due tipi di funzione e . Il primo, , è il tipo di una frase che risulta in una frase di tipo quando seguita (a destra) da una frase di tipo . Il secondo, , è il tipo di una frase che risulta in una frase di tipo quando è preceduta (a sinistra) da una frase di tipo .

La notazione si basa sull'algebra. Una frazione moltiplicata per (cioè concatenata con) il suo denominatore produce il suo numeratore. Poiché la concatenazione non è commutativa , fa differenza se il denominatore si verifica a sinistra oa destra. La concatenazione deve essere dalla stessa parte del denominatore affinché si annulli.

Il primo e più semplice tipo di grammatica categoriale è chiamato grammatica categoriale di base, o talvolta grammatica AB (da Ajdukiewicz e Bar-Hillel ). Dato un insieme di tipi primitivi , sia l'insieme dei tipi costruiti da tipi primitivi. Nel caso di base, questo è il minimo impostato in modo tale che e if then . Pensa a queste come espressioni puramente formali generate liberamente dai tipi primitivi; eventuali semantiche verranno aggiunte in seguito. Alcuni autori assumono un insieme fisso infinito di tipi primitivi usati da tutte le grammatiche, ma rendendo i tipi primitivi parte della grammatica, l'intera costruzione viene mantenuta finita.

Una grammatica categoriale di base è una tupla in cui è un insieme finito di simboli, è un insieme finito di tipi primitivi e .

La relazione è il lessico, che mette in relazione i tipi con i simboli . Poiché il lessico è finito, può essere specificato elencando un insieme di coppie come .

Una tale grammatica per l'inglese potrebbe avere tre tipi di base , assegnando il tipo ai sostantivi di conteggio , il tipo alle frasi nominali complete e il tipo alle frasi . Quindi un aggettivo potrebbe avere il tipo , perché se è seguito da un sostantivo allora l'intera frase è un sostantivo. Allo stesso modo, un determinante ha il tipo , perché forma una frase nominale completa quando è seguito da un nome. I verbi intransitivi hanno il tipo e i verbi transitivi il tipo . Quindi una stringa di parole è una frase se ha un tipo generale .

Ad esempio, prendi la stringa "il ragazzaccio ha fatto quel casino". Ora "the" e "that" sono determinanti, "boy" e "mess" sono sostantivi, "bad" è un aggettivo e "made" è un verbo transitivo, quindi il lessico è { , , , , , }.

e la sequenza dei tipi nella stringa è

ora trova le funzioni e gli argomenti appropriati e riducili secondo le due regole di inferenza e :






Il fatto che il risultato sia significa che la stringa è una frase, mentre la sequenza delle riduzioni mostra che può essere analizzata come ((the (bad boy)) (made (that mess))).

Le grammatiche categoriali di questa forma (che hanno solo regole di applicazione delle funzioni) sono equivalenti in capacità generativa alle grammatiche context-free e sono quindi spesso considerate inadeguate per le teorie della sintassi del linguaggio naturale. A differenza dei CFG, le grammatiche categoriali sono lessicalizzate , nel senso che viene impiegato solo un piccolo numero di regole (per lo più indipendenti dalla lingua), e tutti gli altri fenomeni sintattici derivano dalle voci lessicali di parole specifiche.

Un altro aspetto interessante delle grammatiche categoriali è che spesso è facile assegnare loro una semantica compositiva, assegnando prima tipi di interpretazione a tutte le categorie di base, e poi associando tutte le categorie derivate a tipi di funzione appropriati . L'interpretazione di qualsiasi costituente è quindi semplicemente il valore di una funzione in un argomento. Con alcune modifiche per gestire l' intensionalità e la quantificazione , questo approccio può essere utilizzato per coprire un'ampia varietà di fenomeni semantici.

calcolo Lambek

Una grammatica Lambek è un'elaborazione di questa idea che ha un operatore di concatenazione per i tipi e diverse altre regole di inferenza. Mati Pentus ha mostrato che questi hanno ancora la capacità generativa di grammatiche context-free.

Per il calcolo di Lambek, esiste un operatore di concatenazione di tipi , così that e if then .

Il calcolo di Lambek è costituito da diverse regole di deduzione, che specificano come possono essere derivate le asserzioni di inclusione di tipo. Nelle regole seguenti, le lettere maiuscole romane stanno per tipi, le lettere maiuscole greche stanno per sequenze di tipi. Si può leggere un sequente della forma : una stringa è di tipo se consiste nella concatenazione di stringhe di ciascuno dei tipi in . Se un tipo viene interpretato come un insieme di stringhe, allora può essere interpretato come , ovvero "include come sottoinsieme". Una linea orizzontale significa che l'inclusione sopra la linea implica quella sotto la linea.

Il processo è iniziato dalla regola Axiom, che non ha antecedenti e dice solo che ogni tipo include se stesso.

La regola Cut dice che le inclusioni possono essere composte.

Le altre regole sono a coppie, una coppia per ogni tipo di operatore di costruzione, ciascuna coppia costituita da una regola per l'operatore nel bersaglio, una nella sorgente, della freccia. Il nome di una regola è costituito dall'operatore e da una freccia, con l'operatore a lato della freccia su cui si trova nella conclusione.

Obbiettivo Fonte

Ad esempio, ecco una derivazione di "type raising", che dice che . I nomi delle regole e le sostituzioni utilizzate sono a destra.

Relazione con grammatiche context-free

Ricorda che una grammatica context-free è una 4-tupla dove

  1. è un insieme finito di non terminali o variabili .
  2. è un insieme finito di simboli terminali .
  3. è un insieme finito di regole di produzione , cioè una relazione finita .
  4. è la variabile di partenza.

Dal punto di vista delle grammatiche categoriali, una grammatica context-free può essere vista come un calcolo con un insieme di assiomi speciali per ogni lingua, ma senza operatori di costruzione di tipo e senza regole di inferenza tranne Cut.

Nello specifico, data una grammatica context-free come sopra, definire una grammatica categoriale dove , e . Sia un assioma per ogni simbolo , un assioma per ogni regola di produzione , una voce di lessico per ogni simbolo terminale e Cut per l'unica regola. Questa grammatica categoriale genera lo stesso linguaggio del dato CFG.

Naturalmente, questa non è una grammatica categoriale di base, poiché ha assiomi speciali che dipendono dalla lingua; cioè non è lessicalizzato. Inoltre, non fa alcun uso di tipi non primitivi.

Per mostrare che qualsiasi linguaggio context-free può essere generato da una grammatica categoriale di base, ricordiamo che qualsiasi linguaggio context-free può essere generato da una grammatica context-free in forma normale di Greibach .

La grammatica è in forma normale di Greibach se ogni regola di produzione è della forma , dove le lettere maiuscole sono variabili, e , cioè il lato destro della produzione è un singolo simbolo terminale seguito da zero o più variabili (non terminali) .

Ora dato un CFG in forma normale di Greibach, definire una grammatica categoriale di base con un tipo primitivo per ogni variabile non terminale , e con una voce nel lessico , per ogni regola di produzione . È abbastanza facile vedere che questa grammatica categoriale di base genera lo stesso linguaggio del CFG originale. Nota che il lessico di questa grammatica generalmente assegnerà più tipi a ciascun simbolo.

La stessa costruzione funziona per le grammatiche Lambek, poiché sono un'estensione delle grammatiche categoriali di base. È necessario verificare che le regole di inferenza extra non cambino la lingua generata. Questo può essere fatto e mostra che ogni linguaggio context-free è generato da una grammatica Lambek.

Dimostrare il contrario, che ogni lingua generata da una grammatica Lambek è context-free, è molto più difficile. È stato un problema aperto per quasi trent'anni, dai primi anni '60 fino al 1991 circa, quando è stato dimostrato da Pentus.

L'idea di base è, data una grammatica Lambek, costruire una grammatica context-free con lo stesso insieme di simboli terminali, lo stesso simbolo di inizio, con variabili alcuni (non tutti) tipi e con una regola di produzione per ogni voce nel lessico, e regole di produzione per alcuni sequenziali che sono derivabili nel calcolo di Lambek.

Naturalmente, ci sono infiniti tipi e infiniti successioni derivabili, quindi per fare una grammatica finita è necessario porre un limite alla dimensione dei tipi e dei sequenti necessari. Il cuore della dimostrazione di Pentus è mostrare che esiste un tale limite finito.

Notazione

La notazione in questo campo non è standardizzata. Le notazioni utilizzate nella teoria del linguaggio formale, nella logica, nella teoria delle categorie e nella linguistica sono in conflitto tra loro. In logica, le frecce indicano il più generale dal più particolare, cioè la conclusione dalle ipotesi. In questo articolo viene seguita questa convenzione, ovvero il bersaglio della freccia è il tipo più generale (inclusivo).

In logica, le frecce di solito puntano da sinistra a destra. In questo articolo questa convenzione è invertita per coerenza con la notazione delle grammatiche context-free, dove il singolo simbolo non terminale è sempre a sinistra. Usiamo il simbolo in una regola di produzione come nella forma Backus–Naur . Alcuni autori usano una freccia, che sfortunatamente può puntare in entrambe le direzioni, a seconda che si pensi che la grammatica generi o riconosca la lingua.

Alcuni autori di grammatiche categoriali scrivono invece di . La convenzione qui utilizzata segue Lambek e l'algebra.

Note storiche

Le idee di base della grammatica categoriale risalgono al lavoro di Kazimierz Ajdukiewicz (nel 1935) e Yehoshua Bar-Hillel (nel 1953). Nel 1958, Joachim Lambek ha introdotto un calcolo sintattico che ha formalizzato i costruttori del tipo di funzione insieme a varie regole per la combinazione di funzioni. Questo calcolo è un precursore della logica lineare in quanto è una logica sottostrutturale . La grammatica di Montague utilizza un sistema sintattico ad hoc per l'inglese che si basa sui principi della grammatica categoriale. Sebbene il lavoro di Montague sia talvolta considerato sintatticamente poco interessante, ha contribuito a rafforzare l'interesse per la grammatica categoriale associandolo a un trattamento formale di grande successo della semantica del linguaggio naturale . Il lavoro più recente in grammatica categoriale si è concentrato sul miglioramento della copertura sintattica. Un formalismo che ha ricevuto una notevole attenzione negli ultimi anni è Steedman e Szabolcsi 's combinatoria categoriale grammatica , che si basa sulla logica combinatoria inventato da Moses Schönfinkel e Haskell Curry .

Ci sono un certo numero di formalismi correlati di questo tipo in linguistica, come la grammatica logica di tipo e la grammatica categoriale astratta .

Alcune definizioni

Derivazione
Una derivazione è un albero binario che codifica una dimostrazione.
albero di analisi
Un albero di analisi mostra una derivazione, che mostra la struttura sintattica di una frase.
Funtore e argomento
In un'applicazione di funzione destra (sinistra), il nodo di tipo A\B (B/A) è chiamato funtore e il nodo di tipo A è chiamato argomento.
Struttura funtore-argomento

Perfezionamenti della grammatica categoriale

Sono state proposte una serie di modifiche alla grammatica categoriale per migliorare la copertura sintattica. Alcuni dei più comuni sono elencati di seguito.

Caratteristiche e sottocategorie

La maggior parte dei sistemi di grammatica categoriale suddivide le categorie. Il modo più comune per farlo è etichettarli con caratteristiche , come persona , genere , numero e tempo . A volte solo le categorie atomiche vengono etichettate in questo modo. Nella grammatica di Montague, è tradizionale suddividere le categorie di funzioni utilizzando una convenzione con più barre, quindi A/B e A//B sarebbero due categorie distinte di funzioni con applicazione a sinistra, che hanno gli stessi argomenti ma possono essere distinte da altre funzioni prendendoli come argomenti.

Composizione della funzione

Le regole di composizione delle funzioni sono incluse in molte grammatiche categoriali. Un esempio di tale regola sarebbe quello che consentiva la concatenazione di un costituente di tipo A/B con uno di tipo B/C per produrre un nuovo costituente di tipo A/C . La semantica di una tale regola implicherebbe semplicemente la composizione delle funzioni coinvolte. La composizione della funzione è importante nei resoconti categoriali di congiunzione ed estrazione, specialmente in relazione a fenomeni come l' innalzamento del nodo destro . L'introduzione della composizione di funzioni in una grammatica categoriale porta a molti tipi di ambiguità derivazionali che sono vacue nel senso che non corrispondono ad ambiguità semantiche .

Congiunzione

Molte grammatiche categoriali includono una tipica regola di congiunzione, della forma generale X CONJ X → X , dove X è una categoria. La congiunzione può generalmente essere applicata a costituenti non standard risultanti dall'innalzamento del tipo o dalla composizione della funzione.

Discontinuità

La grammatica viene estesa per gestire fenomeni linguistici come idiomi discontinui, gap ed estrazione.

Guarda anche

Riferimenti

  • curry, Haskell B. ; Feys, Richard (1958), Logica combinatoria , 1 , North-Holland
  • Jacobson, Pauline (1999), "Verso una semantica senza variabili.", Linguistica e filosofia , 22 (2): 117-184, doi : 10.1023/A: 1005464228727 , S2CID  60578091
  • Lambek, Joachim (1958), "La matematica della struttura della frase", Amer. Matematica. Mensile , 65 (3): 154–170, CiteSeerX  10.1.1.538.885 , doi : 10.1080/00029890.1958.11989160
  • Pentus, Mati (1997), Lambek Calculus and Formal Grammars (PDF) , Amer. Matematica. Soc. trad.
  • Steedman, Mark (1987), "grammatiche combinatorie e lacune parassitarie", linguaggio naturale e teoria linguistica , 5 (3): 403-439, doi : 10.1007/bf00134555 , S2CID  170899264
  • Steedman, Mark (1996), Struttura e interpretazione della superficie , The MIT Press
  • Steedman, Mark (2000), Il processo sintattico , The MIT Press
  • Szabolcsi, Anna (1989). "Variabili associate nella sintassi (ce ne sono?)" (PDF) . a Bartsch; van Benthem; van Emde Boas (a cura di). Semantica ed espressione contestuale . Fori. pp. 294-318.
  • Szabolcsi, Anna (1992). "Grammatica combinata e proiezione dal lessico" (PDF) . in abbassamento; Szabolcsi (ed.). Questioni lessicali . Appunti delle lezioni CSLI . 24 . Stanford: Pubblicazioni CSLI. pp. 241–269.
  • Szabolcsi, Anna (2003), "Binding on the fly: anafora cross-francese nella semantica variabile", in Kruijff; Oehrle (a cura di), Resource Sensitivity in Binding and Anaphora , Studies in Linguistics and Philosophy, 80 , Kluwer, pp. 215-229, CiteSeerX  10.1.1.205.3142 , doi : 10.1007/978-94-010-0037-6_8 , ISBN 978-1-4020-1692-9
  • Morril, Glyn (1995), "Discontinuità nella grammatica categoriale", Linguistica e filosofia , 18 (2): 175-219, doi : 10.1007/bf00985216 , S2CID  62533943

Ulteriori letture

  • Michael Moortgat, Logica di tipo categoriale , capitolo 2 in J. van Benthem e A. ter Meulen (a cura di) Handbook of Logic and Language . Elsevier, 1997, ISBN  0-262-22053-9
  • Wojciech Buszkowski, Linguistica matematica e teoria della dimostrazione , capitolo 12 in J. van Benthem e A. ter Meulen (a cura di) Handbook of Logic and Language . Elsevier, 1997, ISBN  0-262-22053-9
  • Gerhard Jäger (2005). Anafora e grammatica logica dei tipi . Springer. ISBN 978-1-4020-3904-1.
  • Glyn Morrill (2010). Grammatica categoriale: sintassi logica, semantica ed elaborazione . La stampa dell'università di Oxford. ISBN 978-0-19-958986-9.
  • Richard Moot; Christian Retore (2012). La logica delle grammatiche categoriali: un resoconto deduttivo della sintassi e della semantica del linguaggio naturale . Springer Verlag. ISBN 978-3-642-31554-1.

link esterno