论文信息 - Dublettenerkennung unter Berücksichtigung von DatenabhängigkeitenDuplicate Detection Exploiting Data Relationships

Dublettenerkennung unter Berücksichtigung von DatenabhängigkeitenDuplicate Detection Exploiting Data Relationships

Zusammenfassung Dublettenerkennung befasst sich mit dem Problem, verschiedene Datenbankrepräsentationen des gleichen Objekts zu identifizieren. Bisherige Algorithmen zur Dublettenerkennung ignorieren den Kontext, in dem sich die Daten befinden. Dabei enthält dieser oftmals weitere nützliche Daten, die das Ergebnis positiv beeinflussen können. In diesem Beitrag stellen wir Algorithmen zur Dublettenerkennung vor, die Beziehungen innerhalb der Daten ausnutzen.

Melanie Herschel

[1] Ahmed K. Elmagarmid,et al. Duplicate Record Detection: A Survey , 2007, IEEE Transactions on Knowledge and Data Engineering.

[2] Salvatore J. Stolfo,et al. The merge/purge problem for large databases , 1995, SIGMOD '95.