Intégration Holistique des Graphes basée sur la Programmation Linéaire pour l'Entreposage des Open Data

Dans cet article, nous proposons une approche holistique pour l'integration des graphes d'Open Data. Ces graphes representent une classification hierarchique des concepts extraits des Open Data. Nous nous focalisons sur la conservation de hierarchies strictes lors de l'integration afin de pouvoir definir un schema multidimensionnel a partir de ces hierarchies et entreposer par la suite ces sources de donnees. Notre approche est basee sur un programme lineaire qui resout automatiquement la tâche de matching des graphes tout en maximisant globalement la somme des similarites entre les concepts. Ce programme est compose de contraintes sur la cardinalite du matching et de contraintes sur la structure des graphes. A notre connaissance, notre approche est la premiere a fournir une solution optimale globale pour le matching holistique des graphes avec un temps de resolution raisonnable. Nous comparons egalement la qualite des resultats de notre approche par rapport a d'autres approches de la litterature.

[1]  Zohra Bellahsene,et al.  Designing a Benchmark for the Assessment of Schema Matching Tools , 2014, Open J. Databases.

[2]  Weifeng Su,et al.  Holistic Schema Matching for Web Query Interfaces , 2006, EDBT.

[3]  Erhard Rahm,et al.  Similarity flooding: a versatile graph matching algorithm and its application to schema matching , 2002, Proceedings 18th International Conference on Data Engineering.

[4]  Zohra Bellahsene,et al.  BMatch: a Semantically Context-based Tool Enhanced by an Indexing Structure to Accelerate Schema Matching , 2007, BDA.

[5]  S. Nash,et al.  Linear and Nonlinear Programming , 1987 .

[6]  Frank Plastria,et al.  Formulating logical implications in combinatorial optimisation , 2002, Eur. J. Oper. Res..

[7]  Zohra Bellahsene,et al.  Performance Oriented Schema Matching , 2007, DEXA.

[8]  Erhard Rahm,et al.  A survey of approaches to automatic schema matching , 2001, The VLDB Journal.

[9]  Esteban Zimányi,et al.  Hierarchies in a multidimensional model: From conceptual modeling to logical representation , 2006, Data Knowl. Eng..

[10]  Erhard Rahm,et al.  Schema Matching and Mapping , 2013, Schema Matching and Mapping.

[11]  Dekang Lin,et al.  An Information-Theoretic Definition of Similarity , 1998, ICML.

[12]  P. Jaccard THE DISTRIBUTION OF THE FLORA IN THE ALPINE ZONE.1 , 1912 .

[13]  Erhard Rahm,et al.  Generic schema matching, ten years later , 2011, Proc. VLDB Endow..

[14]  Martha Palmer,et al.  Verb Semantics and Lexical Selection , 1994, ACL.

[15]  Olivier Teste,et al.  A Content-Driven ETL Processes for Open Data , 2014, ADBIS.

[16]  P. Patel-Schneider Towards Large-scale Schema And Ontology Matching , 2015 .

[17]  Olivier Teste,et al.  Vers l'intégration multidimensionnelle d'Open Data dans les entrepôts de données , 2013, EDA.

[18]  Erhard Rahm,et al.  Schema and ontology matching with COMA++ , 2005, SIGMOD '05.