Identity Management in Knowledge Graphs. (Gestion d'identité dans des graphes de connaissances)

En l'absence d'une autorite de nommage centrale sur le Web de donnees, il est frequent que differents graphes de connaissances utilisent des noms (IRIs) differents pour referer a la meme entite. Chaque fois que plusieurs noms sont utilises pour designer la meme entite, les faits owl:sameAs sont necessaires pour declarer des liens d’identite et ameliorer l’exploitation des donnees disponibles. De telles declarations d'identite ont une semantique logique stricte, indiquant que chaque propriete affirmee a un nom sera egalement deduite a l'autre et vice versa. Bien que ces inferences puissent etre extremement utiles pour ameliorer les systemes fondes sur les connaissances tels que les moteurs de recherche et les systemes de recommandation, l'utilisation incorrecte de l'identite peut avoir des effets negatifs importants dans un espace de connaissances global comme le Web de donnees. En effet, plusieurs etudes ont montre que owl:sameAs est parfois incorrectement utilise sur le Web des donnees. Cette these etudie le probleme de liens d’identite errones ou inappropries qui sont exprimes par des liens owl:sameAs et propose des solutions differentes mais complementaires. Premierement, elle presente une ressource contenant la plus grande collection de liens d’identite collectes du LOD Cloud, avec un service Web a partir duquel les donnees et leur cloture transitive peuvent etre interrogees. Une telle ressource a a la fois des impacts pratiques (elle aide les utilisateurs a trouver differents noms pour la meme entite), ainsi qu'une valeur analytique (elle revele des aspects importants de la connectivite du LOD Cloud). En outre, en s’appuyant sur cette collection de 558 millions liens d’identite, nous montrons comment des mesures de reseau telles que la structure de communaute du reseau owl:sameAs peuvent etre utilisees afin de detecter des liens d’identite eventuellement erronees. Pour cela, nous attribuons un degre d'erreur pour chaque lien owl:sameAs en fonction de la densite de la ou des communautes dans lesquelles elles se produisent et de leurs caracteristiques symetriques. L'un des avantages de cette approche est qu'elle ne repose sur aucune connaissance supplementaire. Finalement, afin de limiter l'utilisation excessive et incorrecte du owl:sameAs, nous definissons une nouvelle relation pour representer l'identite de deux instances d’une classe dans un contexte specifique (une sous-partie de l’ontologie). Cette relation d'identite s'accompagne d'une approche permettant de detecter automatiquement ces liens, avec la possibilite d'utiliser certaines contraintes expertes pour filtrer des contextes non pertinents. La detection et l’exploitation des liens d’identite contextuels detectes sont effectuees sur deux graphes de connaissances pour les sciences de la vie, construits en collaboration avec des experts du domaine de l’institut national de la recherche agronomique (INRA).