Detección de plagio translingüe con grafos semánticos: experimentando con recursos en abierto

Hoy en dia el idioma ha dejado de ser una barrera para plagiar documentos disponibles en Internet. Tras enfoques probabilisticos ya clasicos que no alcanzan buenos resultados con documentos multilingues con parafrasis (Barron-Cedeno, 2012), aparecen trabajos que, utilizando grafos de conocimiento, aumentan la capacidad semantica del analisis de las oraciones y mejoran los resultados de deteccion de plagio. Ademas, actualmente hay recursos linguisticos, basados en el conocimiento, o de desarrollo de software que estan disponibles para la experimentacion, una vez decidido cual de ellos elegir, cuales estan realmente disponibles en abierto, que eficiencia aportan si se integran en la experimentacion planteada, o que tipo de caracteristicas debe tener el ordenador o el servidor necesario para la investigacion. Este trabajo plantea una investigacion experimental para la deteccion de plagio translingue siguiendo una linea de investigacion y utilizando recursos disponibles en abierto. Los resultados alcanzan el estado del arte, y esperamos que el planteamiento seguido, el analisis justificado y las dificultades tecnicas reportadas, acercara a los lectores la metodologia necesaria en este tipo de experimentaciones y permitira planificar sus trabajos futuros. El software desarrollado esta disponible en abierto.

[1]  Alberto Barrón-Cedeño,et al.  Plagiarism Meets Paraphrasing: Insights for the Next Generation in Automatic Plagiarism Detection , 2013, CL.

[2]  Brian Martin,et al.  Plagiarism: policy against cheating or policy for learning? , 2004 .

[3]  Benno Stein,et al.  Plagiarism Detection Without Reference Collections , 2006, GfKl.

[4]  Parth Gupta,et al.  Cross-Language Plagiarism Detection Using a Multilingual Semantic Network , 2013, ECIR.

[5]  Parth Gupta Cross-view Embeddings for Information Retrieval , 2017 .

[6]  Parth Gupta,et al.  Detección de plagio translingüe utilizando el diccionario estadístico de BabelNet , 2012, Computación y Sistemas.

[7]  Martin Gavalec,et al.  Preference comparison for plagiarism detection systems , 2016, 2016 IEEE International Conference on Fuzzy Systems (FUZZ-IEEE).

[8]  RossoPaolo,et al.  Cross-language plagiarism detection over continuous-space- and knowledge graph-based representations of language , 2016 .

[9]  Matthias Hagen,et al.  Overview of the 1st international competition on plagiarism detection , 2009 .

[10]  Arafat Awajan,et al.  Deep Learning Based Technique for Plagiarism Detection in Arabic Texts , 2017, 2017 International Conference on New Trends in Computing Sciences (ICTCS).

[11]  James Mayfield,et al.  Character N-Gram Tokenization for European Language Text Retrieval , 2004, Information Retrieval.

[12]  Benno Stein,et al.  An Evaluation Framework for Plagiarism Detection , 2010, COLING.

[13]  Rubén Comas,et al.  Academic Cyberplagiarism: Tracing the causes to reach solutions , 2008 .

[14]  Mahmoud Nadim Nahas Survey and Comparison between Plagiarism Detection Tools , 2017 .

[15]  Benno Stein,et al.  Overview of the Author Identification Task at PAN-2018: Cross-domain Authorship Attribution and Style Change Detection , 2018, CLEF.

[16]  Rasim M. Alguliyev,et al.  PDLK: Plagiarism detection using linguistic knowledge , 2015, Expert Syst. Appl..

[17]  Marc Franco Salvador A Cross-domain and Cross-language Knowledge-based Representation of Text and its Meaning , 2017 .

[18]  Paolo Rosso,et al.  A systematic study of knowledge graph analysis for cross-language plagiarism detection , 2016, Inf. Process. Manag..

[19]  Sarah Elaine Eaton,et al.  Plagiarism: Moving from punitive to pro-active approaches , 2017 .

[20]  Benno Stein,et al.  Cross-language plagiarism detection , 2011, Lang. Resour. Evaluation.