Resumo. Neste artigo iremos apresentar dois métodos para a expansão de conjuntos de co-hipónimos usando exclusivamente informação extraída a partir de uma colecção de texto em português de grandes dimensões. Os métodos baseiam-se na hipótese de que é possível explorar com sucesso a enorme redundância de informação existente em tais colecções recorrendo a algoritmos relativamente simples. Estes métodos operam de uma forma análoga ao conhecido sistema Google Sets, e num dos casos são alcançados tempos de execução muito reduzidos. Iremos enquandrar os dois métodos desenvolvidos numa estratégia mais ampla de construção de recursos léxico-semânticos para a língua portuguêsa e iremos posicioná-los relativamente a trabalhos realizados para outras línguas. Serão apresentados detalhadamente os algoritmos desenvolvidos, e para cada um deles serão apresentados e discutidos os resultados experimentais, comparando as suas limitações e vantagens. Abordaremos em seguida algumas questões relativas à avaliação deste género de métodos e destacaremos a necessidade de desenvolver recursos para esse efeito. Serão em seguida discutidas algumas limitações que derivam da indeterminação associada co-hiponímia e alguns dos problemas intrínsecos às abordagens que apresentamos. Terminaremos apresentando possibilidades de trabalho futuro.
[1]
Reinhard Rapp,et al.
The Computation of Word Associations: Comparing Syntagmatic and Paradigmatic Approaches
,
2002,
COLING.
[2]
Kenneth Ward Church,et al.
Using Statistics in Lexical Analysis
,
2003,
Lexical Acquisition: Exploiting On-Line Resources to Build a Lexicon.
[3]
Patrick Pantel,et al.
Automatically Labeling Semantic Classes
,
2004,
NAACL.
[4]
Peter D. Turney.
Mining the Web for Synonyms: PMI-IR versus LSA on TOEFL
,
2001,
ECML.
[5]
Dekang Lin,et al.
Automatic Retrieval and Clustering of Similar Words
,
1998,
ACL.
[6]
Luís Sarmento.
BACO - A large database of text and co-occurrences
,
2006,
LREC.
[7]
Christian Biemann,et al.
Automatic Acquisition of Paradigmatic Relations Using Iterated Co-occurrences
,
2004,
LREC.
[8]
Marti A. Hearst.
Automatic Acquisition of Hyponyms from Large Text Corpora
,
1992,
COLING.