Integración de modelos de agrupamiento y reglas de asociación obtenidos de múltiples fuentes de datos

Resumen. Una alternativa posible para descubrir conocimiento sobre bases de datos distribuidas, usando tecnicas de Mineria de Datos, es rehusar los modelos de mineria de datos locales obtenidos en cada base de datos e integrarlos para obtener patrones globales. Este proceso debe realizarse sin acceder a los datos directamente. Este trabajo se centra en la propuesta de dos metodos para la integracion de modelos de Mineria de Datos: Modelos de Reglas de Asociacion y Agrupamiento, especificamente para reglas de asociacion obtenidas usando soporte y confianza como medidas de calidad y agrupamientos basados en centroides. Estos modelos fueron obtenidos al analizar multiples conjuntos de datos homogeneos. El estudio experimental muestra que se obtuvieron modelos globales de calidad en un tiempo razonable cuando se aumentan la cantidad de patrones locales a integrar. Palabras clave. Integracion, modelos de mineria de datos, reglas de asociacion, agrupamiento, Patrones.

[1]  V. Saravanan Knowledge integration in a Parallel and distributed environment with association rule mining using XML data. , 2008 .

[2]  Ian H. Witten,et al.  Data mining: practical machine learning tools and techniques with Java implementations , 2002, SGMD.

[3]  Alejandro Rosete,et al.  Integrating Data Mining Models from Distributed Data Sources , 2010, DCAI.

[4]  Carla E. Brodley,et al.  Solving cluster ensemble problems by bipartite graph partitioning , 2004, ICML.

[5]  Ramakrishnan Srikant,et al.  Fast Algorithms for Mining Association Rules in Large Databases , 1994, VLDB.

[6]  David E. Goldberg,et al.  Genetic Algorithm Difficulty and the Modality of Fitness Landscapes , 1994, FOGA.

[7]  Xindong Wu,et al.  Synthesizing High-Frequency Rules from Different Data Sources , 2003, IEEE Trans. Knowl. Data Eng..

[8]  Philip S. Yu,et al.  Combining multiple clusterings by soft correspondence , 2005, Fifth IEEE International Conference on Data Mining (ICDM'05).

[9]  Lawrence O. Hall,et al.  A scalable framework for cluster ensembles , 2009, Pattern Recognit..

[10]  Ian H. Witten,et al.  WEKA: a machine learning workbench , 1994, Proceedings of ANZIIS '94 - Australian New Zealnd Intelligent Information Systems Conference.

[11]  Joydeep Ghosh,et al.  Cluster Ensembles --- A Knowledge Reuse Framework for Combining Multiple Partitions , 2002, J. Mach. Learn. Res..

[12]  Deniz Yuret,et al.  Dynamic Hill Climbing: Overcoming the limitations of optimization techniques , 1993 .

[13]  Nandit Soparkar,et al.  Frequent Itemset Counting Across Multiple Tables , 2000, PAKDD.

[14]  Ian H. Witten,et al.  Data mining - practical machine learning tools and techniques, Second Edition , 2005, The Morgan Kaufmann series in data management systems.