Olga R. F. de Oliveira, Altigran S. da Silva.
Um problema crítico na extração de dados da Web é verificar a qualidade dos dados que foram extraídos. Neste artigo, apresentamos uma abordagem que permite realizar automaticamente a verificação da qualidade de dados extraídos da Web, com base no posicionamento desses dados na página de origem. Essa verificação é realizada através do cálculo de medidas de similaridade probabilísticas entre propriedades definidas para o posicionamento dos dados em um conjunto de exemplo e essas mesmas propriedades para a saída observada. O valor dessa similaridade é então utilizado para definir a qualidade dos dados extraídos. A efetividade da nossa abordagem é demonstrada por resultados experimentais com diferentes fontes reais da Web.
http://www.lbd.dcc.ufmg.br:8080/colecoes/sbbd/2003/paper005.pdf
Caso o link acima esteja inválido, faça uma busca pelo texto completo na Web: Buscar na Web