BDBComp
Parceria:
SBC
Verificação automática da qualidade de dados extraídos da Web

Olga R. F. de OliveiraAltigran S. da Silva

Um problema crítico na extração de dados da Web é verificar a qualidade dos dados que foram extraídos. Neste artigo, apresentamos uma abordagem que permite realizar automaticamente a verificação da qualidade de dados extraídos da Web, com base no posicionamento desses dados na página de origem. Essa verificação é realizada através do cálculo de medidas de similaridade probabilísticas entre propriedades definidas para o posicionamento dos dados em um conjunto de exemplo e essas mesmas propriedades para a saída observada. O valor dessa similaridade é então utilizado para definir a qualidade dos dados extraídos. A efetividade da nossa abordagem é demonstrada por resultados experimentais com diferentes fontes reais da Web.

http://www.lbd.dcc.ufmg.br:8080/colecoes/sbbd/2003/paper005.pdf

Caso o link acima esteja inválido, faça uma busca pelo texto completo na Web: Buscar na Web

Biblioteca Digital Brasileira de Computação - Contato: bdbcomp@lbd.dcc.ufmg.br
     Mantida por:
LBD