Una aproximación al uso de word embeddings en una tarea de similitud de textos en español

En este trabajo mostramos como una representacion vectorial de palabras basada en word embeddings puede ayudar a mejorar los resultados en una tarea de similitud semantica de textos. Para ello hemos experimentado con dos metodos que se apoyan en la representacion vectorial de palabras para calcular el grado de similitud de dos textos, uno basado en la agregacion de vectores y otro basado en el calculo de alineamientos. El metodo de alineamiento se apoya en la similitud de vectores de palabras para determinar la vinculacion entre las mismas. El metodo de agregacion nos permite construir representaciones vectoriales de los textos a partir de los vectores individuales de palabras. Estas representaciones son comparadas mediante dos distancias clasicas como son la euclidea y la del coseno. Hemos evaluado nuestros sistemas con el corpus basado en Wikipedia distribuido en la competicion de similitud de textos en espanol de SemEval-2015. Nuestros experimentos muestran que el metodo basado en alineamiento se comporta mucho mejor, obteniendo resultados muy cercanos al mejor sistema de SemEval. El metodo basado en agregacion de vectores se comporta sensiblemente peor. No obstante, esta segunda aproximacion parece capturar aspectos de similitud no recogidos por la primera, ya que cuando se combinan las salidas de ambos sistemas se mejoran los resultados del metodo de alineamiento, superando incluso los resultados del mejor sistema de SemEval.

[1]  Iryna Gurevych,et al.  DKPro Similarity: An Open Source Framework for Text Similarity , 2013, ACL.

[2]  Sakethram Karumuri,et al.  UMDuluth-BlueTeam: SVCSTS - A Multilingual and Chunk Level Semantic Similarity System , 2015, *SEMEVAL.

[3]  Philip Resnik,et al.  Using Information Content to Evaluate Semantic Similarity in a Taxonomy , 1995, IJCAI.

[4]  Claire Cardie,et al.  SemEval-2015 Task 2: Semantic Textual Similarity, English, Spanish and Pilot on Interpretability , 2015, *SEMEVAL.

[5]  Petr Sojka,et al.  Software Framework for Topic Modelling with Large Corpora , 2010 .

[6]  Christopher D. Manning,et al.  Bilingual Word Embeddings for Phrase-Based Machine Translation , 2013, EMNLP.

[7]  Christian Hänig,et al.  ExB Themis: Extensive Feature Extraction from Word Alignments for Semantic Textual Similarity , 2015, *SEMEVAL.

[8]  Jason Weston,et al.  Natural Language Processing (Almost) from Scratch , 2011, J. Mach. Learn. Res..

[9]  Ergun Biçici,et al.  RTM-DCU: Predicting Semantic Similarity with Referential Translation Machines , 2015, *SEMEVAL.

[10]  Jeffrey Dean,et al.  Distributed Representations of Words and Phrases and their Compositionality , 2013, NIPS.

[11]  Quoc V. Le,et al.  Exploiting Similarities among Languages for Machine Translation , 2013, ArXiv.

[12]  Jeffrey Pennington,et al.  GloVe: Global Vectors for Word Representation , 2014, EMNLP.

[13]  Carlo Strapparava,et al.  Corpus-based and Knowledge-based Measures of Text Semantic Similarity , 2006, AAAI.

[14]  David W. Conrath,et al.  Semantic Similarity Based on Corpus Statistics and Lexical Taxonomy , 1997, ROCLING/IJCLCLP.

[15]  L. Dekang,et al.  Extracting collocations from text corpora , 1998 .

[16]  George A. Miller,et al.  WordNet: A Lexical Database for English , 1995, HLT.