Data Deduplication is the task of identifying and eliminating duplicate records in a single database. It is a complex process that involves several steps, including: defining blocking key, similarity function and indexing method. There are several approaches for each of these steps. In this context, the objective of this work is to find the best combination for such algorithms aiming to improve the efficiency and effectiveness of the deduplication process as a whole. To this end, we present an experimental evaluation using real and artificial datasets. The results point to distinct combinations that present better results in specific situations. Resumo. Deduplicação de dados é a tarefa de identificar e eliminar registros duplicados em um única base de dados. É um processo complexo que envolve várias etapas, incluindo: definição de chave de bloco, função de similaridade e método de indexação. Existem diversas abordagens para cada uma dessas etapas. Então, o objetivo deste trabalho é encontrar a melhor combinação para tais algoritmos visando melhorar a eficiência e eficácia do processo como um todo. Para tal, apresentamos uma avaliação experimental utilizando bases de dados reais e artificiais. Os resultados apontam para combinações distintas que apresentam melhor resultados em situações especı́ficas. 1. Introdução Devido a enorme quantidade de dados coletados e armazenados ao longo dos anos pelas empresas, agências de governo e projetos de pesquisa, o estudo de técnicas que permitam a análise, processamento e mineração dos dados de forma eficiente têm sido atraı́do pela acadêmia e indústria. Uma tarefa que tem ganhado relevância em muitos domı́nios de aplicação é a tarefa de deduplicação de dados. Deduplicação de dados é uma abordagem para identificar e eliminar registros duplicados em bases de dados. Registros duplicados são instâncias de dados que representam a mesma entidade no mundo real. Esta tarefa é referenciada por diversas nomenclaturas na literatura, incluindo: I) Data Deduplication e Duplicate Detection, quando o processo ocorre em uma única fonte de dados; e II) Record Linkage, Entity Resolution, Data Matching e Object Identification, quando são utilizadas várias fontes de dados [Christen 2012a]. ∗Trabalho desenvolvido enquanto estudava na UFRPE 32nd SBBD – Full Papers – ISSN 2316-5170 October 2-5, 2017 – Uberlândia, MG, Brazil
[1]
Peter Christen,et al.
A Survey of Indexing Techniques for Scalable Record Linkage and Deduplication
,
2012,
IEEE Transactions on Knowledge and Data Engineering.
[2]
P. Ivax,et al.
A THEORY FOR RECORD LINKAGE
,
2004
.
[3]
Gonzalo Navarro,et al.
A guided tour to approximate string matching
,
2001,
CSUR.
[4]
Wen-tau Yih,et al.
Adaptive near-duplicate detection via similarity learning
,
2010,
SIGIR.
[5]
Eduardo N. Borges,et al.
Uma Abordagem Efetiva e Eficiente para Deduplicação de Metadados Bibliográficos de Objetos Digitais
,
2008,
SBBD.
[6]
Nilesh N. Dalvi,et al.
Crowdsourcing Algorithms for Entity Resolution
,
2014,
Proc. VLDB Endow..
[7]
Salvatore J. Stolfo,et al.
The merge/purge problem for large databases
,
1995,
SIGMOD '95.
[8]
David Guy Brizan,et al.
A. Survey of Entity Resolution and Record Linkage Methodologies
,
2015,
Communications of the IIMA.
[9]
Eduardo N. Borges,et al.
Contacts Deduplication in Mobile Devices Using Textual Similarity and Machine Learning
,
2016,
SBSI.
[10]
William E. Winkler,et al.
String Comparator Metrics and Enhanced Decision Rules in the Fellegi-Sunter Model of Record Linkage.
,
1990
.
[11]
Matthew A. Jaro,et al.
Advances in Record-Linkage Methodology as Applied to Matching the 1985 Census of Tampa, Florida
,
1989
.
[12]
Ekaterini Ioannou,et al.
On Generating Benchmark Data for Entity Matching
,
2012,
Journal on Data Semantics.
[13]
Ana Carolina Salgado,et al.
Uma Estratégia para Seleção de Atributos Relevantes no Processo de Resolução de Entidades
,
2016,
SBBD.
[14]
Peter Christen,et al.
Data Matching
,
2012,
Data-Centric Systems and Applications.