1. Introducao Nos ultimos anos tornou-se evidente que os recursos linguisticos e, em particular, os recursos lexicais sao a pedra de toque de qualquer sistema de processamento de linguagem natural. Na verdade, a crescente necessidade de aplicacoes da linguistica computacional fez ressaltar a carencia de dados linguisticos de dimensoes reais, e, em particular, de lexicos e gramaticas de grande cobertura. Assim, para responder as actuais solicitacoes e exigencias de qualidade, o tratamento automatico das linguas naturais obriga a uma descricao sistematica e completa das linguas a tratar, de modo a evitar ou, pelo menos, reduzir as falhas de processamento devidas a insuficiencia dos dados linguisticos. Se, em relacao ao tratamento do lexico, os dicionarios utilizados pelos sistemas de processamento nao forem adequados, quer do ponto de vista da sua cobertura lexical, quer do ponto de vista da formalizacao e sistematizacao da informacao linguistica, isso afectara nao so a analise lexical de um determinado texto, mas tambem todas as fases de processamento subsequentes. Se, por exemplo, uma palavra nao for reconhecida ou nao for correctamente identificada, a analise sintactica da frase ou da estrutura em que ela se encontre nao podera ser feita. O lexico surge assim como uma componente de crucial importância em qualquer sistema de processamento automatico de texto. Um outro aspecto igualmente importante do ponto de vista da qualidade do processamento e o da capacidade dos sistemas informaticos aplicarem em tempo real estes lexicos e gramaticas de grandes dimensoes a textos de varios milhoes de palavras. Neste capitulo, abordar-se-a a questao da forma, do conteudo e da cobertura dos dicionarios para utilizacao automatica, uma vez que ja existem sistemas informaticos com a robustez necessaria para, em tempo real, lidarem com lexicos de dimensoes igualmente reais e para os aplicarem eficazmente ao tratamento automatico de corpora de grandes dimensoes.
[1]
Elisabete Ranchhod.
Frozen adverbs - comparative forms como "c" in portuguese
,
1991
.
[2]
Gregory Grefenstette,et al.
Regular expressions for language engineering
,
1996,
Natural Language Engineering.
[3]
Bernard Mérialdo,et al.
Tagging English Text with a Probabilistic Model
,
1994,
CL.
[4]
Diana Santos,et al.
Ambientes de processamento de corpora em português: Comparação entre dois sistemas
,
1999
.
[5]
Jorge Baptista,et al.
A Computational Lexicon of Portuguese for Automatic Text Parsing
,
1999
.
[6]
Maurice Gross.
La construction de dictionnaires électroniques
,
1989
.
[7]
Beatrice Santorini,et al.
Building a Large Annotated Corpus of English: The Penn Treebank
,
1993,
CL.
[8]
M. Gross,et al.
Representation of Finite Utterances and the Automatic Parsing of Texts
,
1995
.