Computazionale lessicologia - Computational lexicology

Lessicologia computazionale è un ramo della linguistica computazionale , che si occupa con l'uso del computer per lo studio di lessico . E 'stata descritta in modo più restrittivo da alcuni studiosi (Amsler, 1980) come l'uso del computer nello studio di dizionari leggibili a macchina . Si distingue dalla lessicografia computazionale , che più propriamente sarebbe l'uso del computer nella costruzione di dizionari, anche se alcuni ricercatori hanno usato la lessicografia computazionale come sinonimo .

Storia

Lessicologia computazionale è emerso come una disciplina separata all'interno della linguistica computazionale con la comparsa di dizionari leggibili a macchina, a partire dalla creazione dei nastri leggibili a macchina del Merriam-Webster Settimo Collegiate Dictionary ed il nuovo Pocket Dictionary Merriam-Webster nel 1960 da John Olney et al. al sistema Development Corporation . Oggi, lessicologia computazionale è meglio conosciuto attraverso la creazione e le applicazioni di WordNet . Come l'elaborazione computazionale dei ricercatori è aumentata nel corso del tempo, l'uso di lessicologia computazionale è stata applicata ubiquitariamente in analisi del testo. Nel 1987, tra gli altri Byrd, Calzolari, Chodorow hanno sviluppato strumenti di calcolo per l'analisi del testo. In particolare, il modello è stato progettato per il coordinamento delle associazioni che coinvolgono i sensi di polisemiche parole.

Studio del lessico

lessicologia computazionale ha contribuito alla comprensione dei contenuti e le limitazioni di dizionari di stampa per scopi di calcolo (cioè chiarito che il lavoro precedente della lessicografia non era sufficiente per le esigenze della linguistica computazionale). Attraverso il lavoro di lexicologists computazionali quasi ogni porzione di una voce del dizionario di stampa è stato studiato che vanno da:

  1. ciò che costituisce un lemma - utilizzato per generare liste di correzione ortografia;
  2. ciò che varianti e inflessioni forme lemma - utilizzati per comprendere empiricamente morfologia;
  3. come il lemma è delimitata in sillabe;
  4. come il lemma è pronunciata - utilizzato in sistemi di generazione di discorso;
  5. le parti del discorso del lemma assume - usato per tagger POS ;
  6. qualsiasi soggetto o di utilizzo dei codici speciali assegnati al lemma - usato per identificare la materia oggetto testo del documento;
  7. definizioni del lemma e la loro sintassi - usato come un aiuto per disambiguazione di parola in contesto;
  8. l'etimologia del lemma e il suo uso per caratterizzare il vocabolario da lingue di origine - utilizzati per caratterizzare il vocabolario del testo per le sue lingue di origine;
  9. le frasi di esempio;
  10. The Run-ons (parole supplementari e le espressioni più parole che si formano dal lemma); e
  11. parole come sinonimi e contrari .

Molti linguisti computazionali erano disincantati con i dizionari di stampa come una risorsa per la linguistica computazionale perché non avevano sufficienti sintattica e semantica di informazioni per i programmi informatici. Il lavoro sulla lessicologia computazionale rapidamente portato a sforzi in due direzioni complementari.

Successori computazionale Lessicologia

In primo luogo, le attività di collaborazione tra linguisti computazionali e lessicografi ha portato a una comprensione del ruolo che ha svolto nella creazione di corpora dizionari. La maggior parte dei lexicologists computazionali spostati a costruire grandi corpora di raccogliere i dati di base che lessicografi avevano usato per creare dizionari. L'ACL / DCI (Data Collection Initiative) e l'LDC ( Consorzio dati linguistica ) è andato giù questo percorso. L'avvento di linguaggi di markup ha portato alla creazione di corpora tag che potrebbero essere più facilmente analizzati per creare sistemi linguistici computazionali. Parte del discorso etichettato corpora e semanticamente corpora con tag sono stati creati al fine di testare e sviluppare tagger POS e la parola tecnologia disambiguazione semantica.

La seconda direzione è verso la creazione di basi conoscenza lessicale (LKBs). Un lessicale Knowledge Base è stato ritenuto essere quello di un dizionario dovrebbe essere per scopi di linguistica computazionale, in particolare a fini semantico lessicali computazionali. Si era di avere le stesse informazioni in un dizionario di stampa, ma del tutto esplicitato per i significati delle parole e dei collegamenti adeguati tra i sensi. Molti hanno cominciato creando le risorse che volevano dizionari sono stati, se fossero stati creati per l'utilizzo in analisi computazionale. WordNet può essere considerato tale sviluppo, così come gli sforzi recenti a descrivere informazioni sintattiche e semantiche come il lavoro framenet di Fillmore. Al di fuori della linguistica computazionale, il lavoro Ontologia dell'intelligenza artificiale può essere vista come uno sforzo evolutivo per costruire una base di conoscenza lessicale per le applicazioni di intelligenza artificiale.

Standardizzazione

Ottimizzare la produzione, manutenzione e ampliamento di lessici computazionali è uno degli aspetti fondamentali che incidono NLP . Il problema principale è l' interoperabilità : vari lessici sono spesso incompatibili. La situazione più frequente è: come unire due lessici, o frammenti di lessici? Un problema secondario è che un lessico è solitamente specificamente adattato ad uno specifico programma NLP e ha difficoltà utilizzati all'interno di altri programmi o applicazioni NLP.

A questo proposito, i vari modelli di dati di lessici computazionali sono studiati da ISO / TC37 dal 2003 nell'ambito del progetto quadro lessicale markup che porta a uno standard ISO nel 2008.

Riferimenti

Amsler, Robert A. 1980. Ph.D. Tesi di laurea, "la struttura del Merriam-Webster Pocket Dictionary". L'Università del Texas a Austin.

link esterno