Blocagem Adaptativa e Flexível para o Pareamento Aproximado de Registros

In data integration tasks, records from a single dataset or from diffe­ rent sources must be often compared to identify records that represent the same real world entity. The cost of this search process for finding duplicate records grows quadratically as the number of records available in the data sources in­ creases and, for this reason, direct approaches, as comparing all record pairs, must be avoided. In this context, blocking methods that are based on machine learning processes are used to find the best blocking function, based on the combination of low cost rules, which define how to perform the record blocking. This work presents a new blocking method based on machine learning. Diffe­ rent from other methods, this new approach is based on genetic programming, allowing the use of more flexible rules and a larger number of such rules for defining blocking functions, leading to a more effective process of identification of duplicate records. Experimental results with real and synthetic data show that the correctness of the genetic programming method may be over 95% when detecting duplicate records in an efficient manner. Resumo. Em tarefas de integração de dados, registros de mesma fonte ou de fontes diferentes precisam ser frequentemente comparados para identificar pa­ res de registros que correspondam à mesma entidade no mundo real. O custo desses processos de busca por registros duplicados cresce quadraticamente com o aumento do tamanho das fontes de dados e por isso as abordagens dire­ tas, analisando todos os pares de registros, devem ser evitadas. Nesse con­ texto, métodos de blocagem baseados em Aprendizagem de Máquina têm sido usados para encontrar a melhor função de blocagem, sendo essas funções de­ finidas por combinações de regras de baixo custo de processamento que de­ terminam como os registros devem ser agrupados. Esta trabalho apresenta um novo método de blocagem baseado em aprendizagem de máquina. Dife­ rente dos demais métodos, essa nova abordagem é baseada em programação genética, permitindo o uso de regras mais flexı́veis e um maior número de re­ gras para a definição de funções de blocagem, aumentando também a eficácia na identificação de registros duplicados. Resultados de experimentos com dados XXIV Simpósio Brasileiro de Banco de Dados