Detección de anomalías en grandes volúmenes de datos

espanolEl desarrollo de la era digital ha traido como consecuencia un incremento considerable de los volumenes de datos. A estos grandes volumenes de datos se les ha denominado big data ya que exceden la capacidad de procesamiento de sistemas de bases de datos convencionales. Diversos sectores consideran varias oportunidades y aplicaciones en la deteccion de anomalias en problemas de big data. Para realizar este tipo de analisis puede resultar muy util el empleo de tecnicas de mineria de datos porque permiten extraer patrones y relaciones desde grandes cantidades de datos. El procesamiento y analisis de estos volumenes de datos, necesitan de herramientas capaces de procesarlos como Apache Spark y Hadoop. Estas herramientas no cuentan con algoritmos especificos para la deteccion de anomalias. El objetivo del trabajo es presentar un nuevo algoritmo para la deteccion de anomalias basado en vecindad para de problemas big data. A partir de un estudio comparativo se selecciono el algoritmo KNNW por sus resultados, con el fin de disenar una variante big data. La implementacion del algoritmo big data se realizo en la herramienta Apache Spark, utilizando el paradigma de programacion paralela MapReduce. Posteriormente se realizaron diferentes experimentos para analizar el comportamiento del algoritmo con distintas configuraciones. Dentro de los experimentos se compararon los tiempos de ejecucion y calidad de los resultados entre la variante secuencial y la variante big data. La variante big data obtuvo mejores resultados con diferencia significativa. Logrando que la variante big data, KNNW-BigData, pueda procesar grandes volumenes de datos. EnglishThe development of the digital age has resulted in a considerable increase in data volumes. These large volumes of data have been called big data since they exceed the processing capacity of conventional database systems. Several sectors consider various opportunities and applications in the detection of anomalies in big data problems. This type of analysis can be very useful the use of data mining techniques because it allows extracting patterns and relationships from large amounts of data. The processing and analysis of these data volumes need tools capable of processing them as Apache Spark and Hadoop. These tools do not have specific algorithms for detecting anomalies. The general objective of the work is to develop a new algorithm for the detection of neighborhood-based anomalies in big data problems. From a comparative study, the KNNW algorithm was selected by its results, in order to design a big data variant. The implementation of the big data algorithm was done in the Apache Spark tool, using the parallel programming paradigm MapReduce. Subsequently different experiments were performed to analyze the behavior of the algorithm with different configurations. Within the experiments, the execution times and the quality of the results were compared between the sequential variant and the big data variant. Getting better results, the big data variant with significant difference. Getting the big data variant, KNNW-BigData, can process large volumes of data. Keywords: big data; data mining; detecting anomalies; MapReduce.