Uma Análise Experimental do Impacto da Seleção de Atributos em Processos de Resolução de Entidades

Entity Resolution is the task of identifying duplicate records in datasets by a multi-step process. A common aspect involving its steps is the attribute selection, and there is no experimental work evaluating the attribute selection impact over the complete ER process. Such an evaluation is important because the ER effectiveness varies according to the selected attributes. Therefore, we cover this gap by performing experiments over real and synthetic datasets from different domains. Finally, the results show attribute selection affects the ER effectiveness by up to 92%. 1. Introdução Resolução de Entidades (RE) é a tarefa de identificar instâncias duplicadas de entidades em conjuntos de dados. É um problema muito estudado com várias aplicações. Por exemplo, no contexto de Integração de Dados, a RE é aplicada para encontrar ofertas semelhantes de produtos em dados na Web [Barbosa et al. 2018]. Aplicações incluem Web Sites de comparação de preços que combinam dados oriundos de mais de 300 lojas, como o Buscapé1 e o Zoom2. Em domı́nios particulares, a RE é utilizada para encontrar instâncias duplicadas em dados médicos, financeiros, governamentais, entre outros [Konda et al. 2019]. A RE também é imprescindı́vel em áreas de Limpeza e Qualidade de Dados [Christen 2012]. O processo de RE é composto das etapas de indexação, agrupamento, comparação, classificação e avaliação [Christen 2012]. Um ponto em comum entre algumas etapas é a seleção de atributos, que encontra um subconjunto de atributos relevantes 1http://www.buscape.com.br 2https://www.zoom.com.br para uma tarefa. Na RE, os atributos são utilizados para indexar, agrupar e comparar os registros, e os desafios incluem: escolher o melhor atributo para definir as chaves de bloco; selecionar o conjunto de atributos correto para agrupar as instâncias; e definir o grupo de atributos ideal e a importância de um atributo para comparar um par de registros. Alguns trabalhos abordam tais desafios e propõem métodos de seleção de atributos relevantes para etapas especı́ficas da RE [Canalle et al. 2017, Silva et al. 2018]. No entanto, geralmente os atributos são escolhidos manualmente por um usuário especialista no domı́nio dos dados, o que requer tempo e aumenta o custo total do processo [Christen 2006, Christen 2012, Papadakis et al. 2015]. O problema da seleção de atributos tem recebido muita atenção, sobretudo nas áreas de Mineração de Dados e Aprendizagem de Máquina. Mas, na RE, há uma falta de estudos experimentais que avaliem o impacto da seleção de atributos em diferentes cenários e etapas do processo. Esta avaliação é necessária porque a eficácia da RE pode aumentar ou diminuir dependendo dos atributos adotados em cada uma das etapas. Por exemplo, na indexação, a eficácia do melhor atributo difere da do pior em 92% (resultados da Seção 5.1). Além disso, todos os algoritmos, métodos e funções aplicados no processo de RE dependem previamente da seleção de atributos (e.g., o algoritmo Standard Blocking que cria um conjunto de blocos utilizando os atributos disponı́veis [Christen 2012]). No mais, os experimentos também proveem direcionamentos relacionados à eficácia da combinação de diferentes estratégias e atributos em vários cenários, bem como à importância da seleção de atributos no processo em comparação com outros fatores. Sendo assim, o objetivo deste trabalho é analisar de forma experimental o impacto da seleção de atributos considerando o processo completo de RE. Para tal, um conjunto de experimentos são realizados utilizando dados reais e sintéticos de diferentes domı́nios e tipos de atributos. As avaliações experimentais são baseadas em quatro questões de pesquisa que cobrem todo o processo de RE (Seção 4). Os experimentos mostram que a seleção de atributos influencia a eficácia da RE em todas as etapas. As contribuições deste artigo são: (i) um projeto fatorial que avalia qual fator possui maior efeito no resultado da RE; (ii) uma análise da influência do atributo de indexação nos métodos de indexação Schema-Agnostic e Configurations-Based; (iii) uma avaliação do impacto da seleção de atributos nos algoritmos de agrupamento Standard Blocking e Sorted Neighborhood; (iv) uma análise do efeito da combinação de atributos na etapa de comparação; e (v) um conjunto de implementações e datasets disponı́veis publicamente.3 O restante deste trabalho está organizado da seguinte forma. A Seção 2 apresenta os trabalhos relacionados. O processo de RE é detalhado na Seção 3. A Seção 4 descreve a metodologia experimental. Os resultados e análises experimentais são exibidos na Seção 5 e, finalmente, as conclusões e os trabalhos futuros são apontados na Seção 6. 2. Trabalhos Relacionados Os estudos de RE são divididos conforme suas etapas. Assim, esta seção detalha trabalhos relevantes de cada uma das etapas e aponta as principais diferenças frente ao nosso estudo. Indexação. Existem pelo menos duas estratégias de indexação: Schema-Agnostic e Configuration-Based, as quais são comparadas em Papadakis et al. (2015). Os autores http://www.dcc.ufmg.br/ ̃mirella/projs/deduplica realizam uma avaliação experimental dessas técnicas combinadas com nove métodos de blocagem do estado da arte. Os autores concluem que a técnica Schema-Agnostic oferece maior robustez para definição das chaves porque é não-supervisionada e independente do domı́nio. Em seguida, Silva et al. (2017) avaliam as funções de indexação Soundex e Suffix combinadas com algoritmos tradicionais de RE em 11 datasets de vários domı́nios. Eles concluem que as funções Soundex e Suffix têm resultados semelhantes, sem diferença significativa em termos da F-Measure. Silva et al. (2018) propõem um método de seleção de atributos para a indexação que utiliza métricas como densidade, repetição e distintividade para classificar os atributos. Os autores realizam experimentos que demostram a eficácia do método proposto considerando vários domı́nios de dados e tipos de atributos. Agrupamento. Depois de indexados, os registros são agrupados utilizando um dos vários métodos existentes. Em Baxter et al. (2003) os métodos Bigram Indexing e Canopy Clustering são comparados com as abordagens Standard Blocking e Sorted Neighborhood, sendo Bigram Indexing o mais eficiente e de melhor acurácia. Após, Draisbach e Naumann (2009) comparam os métodos de agrupamento com os algoritmos de janela deslizante (e.g, Sorted Neighborhood). Os experimentos demostram que os algoritmos de janela são melhores que os métodos de agrupamento no quesito eficiência. Um estudo mais completo sobre agrupamento é realizado por Christen (2012), o qual apresenta um survey com avaliação experimental de 12 variações de seis técnicas de agrupamento existentes. No estudo, os métodos analisados são: Standard Blocking, Sorted Neighborhood, Suffix Array-Based Indexing, Canopy Clustering, Q-gram-Based Indexing e String-MapBased Indexing. Resultados mostram que a técnica Q-gram-Based Indexing é uma das mais lentas e não é adaptável para grandes conjuntos de dados, e as abordagens tradicionais são as mais rápidas (i.e., blocos e vizinhos). Por fim, Caldeira e Ferreira (2018) apresentam um método para blocagem e processamento dos blocos considerando a relevância dos termos (meta-blocagem). O método proposto supera técnicas do estado da arte em termos de eficácia e reduz o tempo de criação dos blocos pela metade. Comparação e Classificação. No fim do processo de RE, um par de registros é classificado. Assim, as etapas de comparação e classificação são complementares, pois depois que os atributos são comparados, a classificação é baseada em um limiar de similaridade entre os atributos. Várias funções foram propostas na literatura. Cohen et al. (2003), por exemplo, analisam as funções TFIDF, SoftTFIDF, Levenshtein, Scaled Levenstein, Jaro, Jaro-Winkler, Jaccard e NaiveAvgOverlap em dados de nomes pessoais. Os resultados mostram que o melhor método para comparação de nomes pessoais é uma versão escalada do algoritmo de Levenshtein. Em seguida, Christen (2006) compara 20 funções de similaridade incluindo: Soundex, Phonex, phonix, Jaro, Winkler e Edit Distance. Os experimentos utilizam quatro datasets contendo nomes pessoais. Segundo o autor, a melhor função de classificação não é clara. Entretanto, a técnica Simple Phonex tem desempenho melhor que as técnicas Complex Phonix e Double-Metaphone. Além disso, os algoritmos de Jaro e Jaro Winkler são eficazes em todos os conjuntos de dados utilizados. Considerando a seleção de atributos, Canalle et al. (2017) apresentam uma abordagem que seleciona atributos relevantes para a etapa de comparação, utilizando critérios como densidade, repetição e qualidade da fonte. Experimentos são executados em dados reais e sintéticos com diferentes cenários de dados duplicados. Os resultados demonstram que a estratégia proposta seleciona atributos eficazes para a comparação em todos os cenários. Tabela 1. Visão geral dos trabalhos relacionados frente ao nosso estudo. Trabalho Indexação Agrupamento Comparação Classificação Avaliação do Impacto do Atributo na Etapa Silva et al. (2018) X Sim Silva et al. (2017) X Não Papadakis et al. (2015) X Não Caldeira e Ferreira (2018) X Não Christen (2012) X Não Baxter et al. (2003) X Não Canalle et al. (2017) X Sim Christen (2006) X X Não Cohen et al. (2003) X X Não Nosso Estudo X X X X Sim Finalmente, a Tabela 1 apresenta um resumo dos trabalhos comparando-os com o nosso estudo. Em sua maioria, os estudos analisam apenas uma etapa da RE isoladamente. Por exemplo, Papadakis et al. (2015) investigam só as funções de indexação, enquanto nosso trabalho analisa em um mesmo ambiente experimental o processo completo da RE. Ademais, considerando a seleção de atributos, a maioria dos trabalhos citados não considera o impacto da seleção automática de atributos nos experimentos, pois os atributos são escolhidos manualmente por um especialista. Apesar de existirem trabalhos recentes, e.g., Silva et al. (2018) e Canalle et al. (2

[1]  Mirella M. Moro,et al.  Uma Avaliação de Eficiência e Eficácia da Combinação de Técnicas para Deduplicação de Dados , 2017, SBBD.

[2]  Raj Jain,et al.  The art of computer systems performance analysis - techniques for experimental design, measurement, simulation, and modeling , 1991, Wiley professional computing.

[3]  George Papastefanatos,et al.  Schema-agnostic vs Schema-based Configurations for Blocking Methods on Homogeneous Data , 2015, Proc. VLDB Endow..

[4]  Peter Christen,et al.  A Comparison of Fast Blocking Methods for Record Linkage , 2003, KDD 2003.

[5]  Ana Paula Couto da Silva,et al.  Automatic Identification of Best Attributes for Indexing in Data Deduplication , 2018, AMW.

[6]  Pradeep Ravikumar,et al.  A Comparison of String Distance Metrics for Name-Matching Tasks , 2003, IIWeb.

[7]  Peter Christen,et al.  A Comparison of Personal Name Matching: Techniques and Practical Issues , 2006, Sixth IEEE International Conference on Data Mining - Workshops (ICDMW'06).

[8]  Peter Christen,et al.  A Survey of Indexing Techniques for Scalable Record Linkage and Deduplication , 2012, IEEE Transactions on Knowledge and Data Engineering.

[9]  Ana Carolina Salgado,et al.  A Strategy for Selecting Relevant Attributes for Entity Resolution in Data Integration Systems , 2017, ICEIS.

[10]  Valter Crescenzi,et al.  Big Data Integration for Product Specifications , 2018, IEEE Data Eng. Bull..

[11]  AnHai Doan,et al.  Executing Entity Matching End to End: A Case Study , 2019, EDBT.

[12]  Anderson A. Ferreira,et al.  Melhorias no Processo de Blocagem para Resolução de Entidades Baseadas na Relevância dos Termos , 2018, SBBD.

[13]  Felix Naumann,et al.  A Comparison and Generalization of Blocking and Windowing Algorithms for Duplicate Detection , 2009 .