Definição e Avaliação de uma Abordagem para Extração e Catalogação de Conteúdo Obtido da Deep Web

This paper presents an approach for the extraction and labeling of data presented in Deep Web databases. Such a data are extracted from a set of HTML pages generated as the result of a query posed on the hidden database through a Web form. Data labeling (and persistence) aims at providing further structured queries over this hidden content. Preliminary experiments had demonstrated that the proposed approach is promising, if compared with baselines. Other contributions are a joint-process for simultaneous data extraction and labeling, an automatic approach with the support of a knowledge base, and a labeling process of extracted records with content selffilling support for attributes with missing values. Resumo. Este artigo apresenta uma solução para a extração e rotulação de dados contidos em bancos de dados na Deep Web. Esses dados são extraídos de um conjunto de páginas HTML gerado como resultado de uma consulta submetida ao banco de dados através de um formulário Web. A rotulação (e conseqüente persistência) destes dados viabiliza futuras consultas estruturadas sobre este conteúdo escondido. Uma avaliação preliminar demonstrou a eficácia da abordagem proposta em relação a baselines. Outros diferenciais deste trabalho são a realização simultânea de um processo de extração e de rotulação de dados, uma abordagem automática com suporte de uma base de conhecimento e um processo de rotulação de registros extraídos com suporte ao auto-preenchimento de atributos com valores ausentes.

[1]  Loredana Afanasiev,et al.  Harnessing the Deep Web: Present and Future , 2009, CIDR.

[2]  Robert L. Grossman,et al.  Mining data records in Web pages , 2003, KDD '03.

[3]  Susumu Horiguchi,et al.  Automated data extraction from the web with conditional models , 2005, Int. J. Bus. Intell. Data Min..

[4]  William E. Winkler,et al.  String Comparator Metrics and Enhanced Decision Rules in the Fellegi-Sunter Model of Record Linkage. , 1990 .

[5]  Craig A. Knoblock,et al.  Hierarchical Wrapper Induction for Semistructured Information Sources , 2004, Autonomous Agents and Multi-Agent Systems.

[6]  Massimo Ruffolo,et al.  SILA: a spatial instance learning approach for deep webpages , 2011, CIKM '11.

[7]  Edleno Silva de Moura,et al.  Joint unsupervised structure discovery and information extraction , 2011, SIGMOD '11.

[8]  Michael K. Bergman White Paper: The Deep Web: Surfacing Hidden Value , 2001 .

[9]  Juliana Freire,et al.  Creating and exploring web form repositories , 2010, SIGMOD Conference.

[10]  David A. Bell,et al.  An Evidential Approach to Query Interface Matching on the Deep Web , 2010, NTII.

[11]  S. Miksch,et al.  Information Extraction A Survey , 2005 .

[12]  David W. Embley,et al.  Ontology-based extraction and structuring of information from data-rich unstructured documents , 1998, CIKM '98.

[13]  Ronaldo dos Santos Mello,et al.  Deepec: An Approach For Deep Web Content Extraction And Cataloguing , 2013, ECIS.

[14]  I. V. Ramakrishnan,et al.  Exploiting Structured Reference Data for Unsupervised Text Segmentation with Conditional Random Fields , 2008, SDM.