论文信息 - A expansão de conjuntos de co-hipónimos a partir de colecções de grandes dimensões de texto em Português

A expansão de conjuntos de co-hipónimos a partir de colecções de grandes dimensões de texto em Português

Resumo. Neste artigo iremos apresentar dois métodos para a expansão de conjuntos de co-hipónimos usando exclusivamente informação extraída a partir de uma colecção de texto em português de grandes dimensões. Os métodos baseiam-se na hipótese de que é possível explorar com sucesso a enorme redundância de informação existente em tais colecções recorrendo a algoritmos relativamente simples. Estes métodos operam de uma forma análoga ao conhecido sistema Google Sets, e num dos casos são alcançados tempos de execução muito reduzidos. Iremos enquandrar os dois métodos desenvolvidos numa estratégia mais ampla de construção de recursos léxico-semânticos para a língua portuguêsa e iremos posicioná-los relativamente a trabalhos realizados para outras línguas. Serão apresentados detalhadamente os algoritmos desenvolvidos, e para cada um deles serão apresentados e discutidos os resultados experimentais, comparando as suas limitações e vantagens. Abordaremos em seguida algumas questões relativas à avaliação deste género de métodos e destacaremos a necessidade de desenvolver recursos para esse efeito. Serão em seguida discutidas algumas limitações que derivam da indeterminação associada co-hiponímia e alguns dos problemas intrínsecos às abordagens que apresentamos. Terminaremos apresentando possibilidades de trabalho futuro.

Luís Sarmento

[1] Reinhard Rapp,et al. The Computation of Word Associations: Comparing Syntagmatic and Paradigmatic Approaches , 2002, COLING.

[2] Kenneth Ward Church,et al. Using Statistics in Lexical Analysis , 2003, Lexical Acquisition: Exploiting On-Line Resources to Build a Lexicon.

[3] Patrick Pantel,et al. Automatically Labeling Semantic Classes , 2004, NAACL.

[4] Peter D. Turney. Mining the Web for Synonyms: PMI-IR versus LSA on TOEFL , 2001, ECML.

[5] Dekang Lin,et al. Automatic Retrieval and Clustering of Similar Words , 1998, ACL.

[6] Luís Sarmento. BACO - A large database of text and co-occurrences , 2006, LREC.

[7] Christian Biemann,et al. Automatic Acquisition of Paradigmatic Relations Using Iterated Co-occurrences , 2004, LREC.

[8] Marti A. Hearst. Automatic Acquisition of Hyponyms from Large Text Corpora , 1992, COLING.