Dublettenerkennung unter Berücksichtigung von DatenabhängigkeitenDuplicate Detection Exploiting Data Relationships

Zusammenfassung Dublettenerkennung befasst sich mit dem Problem, verschiedene Datenbankrepräsentationen des gleichen Objekts zu identifizieren. Bisherige Algorithmen zur Dublettenerkennung ignorieren den Kontext, in dem sich die Daten befinden. Dabei enthält dieser oftmals weitere nützliche Daten, die das Ergebnis positiv beeinflussen können. In diesem Beitrag stellen wir Algorithmen zur Dublettenerkennung vor, die Beziehungen innerhalb der Daten ausnutzen.

[1]  Ahmed K. Elmagarmid,et al.  Duplicate Record Detection: A Survey , 2007, IEEE Transactions on Knowledge and Data Engineering.

[2]  Salvatore J. Stolfo,et al.  The merge/purge problem for large databases , 1995, SIGMOD '95.