In data integration tasks, records from a single dataset or from diffe rent sources must be often compared to identify records that represent the same real world entity. The cost of this search process for finding duplicate records grows quadratically as the number of records available in the data sources in creases and, for this reason, direct approaches, as comparing all record pairs, must be avoided. In this context, blocking methods that are based on machine learning processes are used to find the best blocking function, based on the combination of low cost rules, which define how to perform the record blocking. This work presents a new blocking method based on machine learning. Diffe rent from other methods, this new approach is based on genetic programming, allowing the use of more flexible rules and a larger number of such rules for defining blocking functions, leading to a more effective process of identification of duplicate records. Experimental results with real and synthetic data show that the correctness of the genetic programming method may be over 95% when detecting duplicate records in an efficient manner. Resumo. Em tarefas de integração de dados, registros de mesma fonte ou de fontes diferentes precisam ser frequentemente comparados para identificar pa res de registros que correspondam à mesma entidade no mundo real. O custo desses processos de busca por registros duplicados cresce quadraticamente com o aumento do tamanho das fontes de dados e por isso as abordagens dire tas, analisando todos os pares de registros, devem ser evitadas. Nesse con texto, métodos de blocagem baseados em Aprendizagem de Máquina têm sido usados para encontrar a melhor função de blocagem, sendo essas funções de finidas por combinações de regras de baixo custo de processamento que de terminam como os registros devem ser agrupados. Esta trabalho apresenta um novo método de blocagem baseado em aprendizagem de máquina. Dife rente dos demais métodos, essa nova abordagem é baseada em programação genética, permitindo o uso de regras mais flexı́veis e um maior número de re gras para a definição de funções de blocagem, aumentando também a eficácia na identificação de registros duplicados. Resultados de experimentos com dados XXIV Simpósio Brasileiro de Banco de Dados
[1]
W. Winkler.
Overview of Record Linkage and Current Research Directions
,
2006
.
[2]
Marcos André Gonçalves,et al.
Learning to deduplicate
,
2006,
Proceedings of the 6th ACM/IEEE-CS Joint Conference on Digital Libraries (JCDL '06).
[3]
Andrew McCallum,et al.
Efficient clustering of high-dimensional data sets with application to reference matching
,
2000,
KDD '00.
[4]
Pradeep Ravikumar,et al.
A Comparison of String Distance Metrics for Name-Matching Tasks
,
2003,
IIWeb.
[5]
William W. Cohen,et al.
A Comparison of String Metrics for Matching Names and Records
,
2003
.
[6]
Lise Getoor,et al.
Iterative record linkage for cleaning and integration
,
2004,
DMKD '04.
[7]
William E. Winkler,et al.
Advanced Methods For Record Linkage
,
1994
.
[8]
Raymond J. Mooney,et al.
Adaptive Blocking: Learning to Scale Up Record Linkage
,
2006,
Sixth International Conference on Data Mining (ICDM'06).
[9]
Anuradha Bhamidipaty,et al.
Interactive deduplication using active learning
,
2002,
KDD.
[10]
Craig A. Knoblock,et al.
Learning Blocking Schemes for Record Linkage
,
2006,
AAAI.
[11]
John R. Koza,et al.
Genetic programming - on the programming of computers by means of natural selection
,
1993,
Complex adaptive systems.