Sergio Miranda Freire, Rita de Cássia Braga Gonçalves, André Cipriani Bandarra, Miguel Gustavo Taranto Villela, Alexandre Meire, Maria Deolinda Borges Cabral, Rosimary Terezinha Almeida.
Este artigo visa a analisar a efetividade de oito comparadores de strings utilizados em processos de vinculação de registros. Um conjunto de pares verdadeiros de nomes foi identificado nas bases de dados brasileiras da Comunicação de Internação Hospitalar e do Sistema de Informação do Beneficiário. A partir deles, uma base de pares falsos foi gerada e então os diversos comparadores de strings foram utilizados em cada par de nomes. Para cada comparador, foi construída uma curva ROC, e a sua área e o tempo médio para realizar a comparação foram calculados. Os algoritmos tiveram desempenho global similar, mas resultados mais conclusivos irão exigir uma amostra maior e mais representativa dos nomes brasileiros.
http://www.lbd.dcc.ufmg.br/colecoes/wim/2009/027.pdf
Caso o link acima esteja inválido, faça uma busca pelo texto completo na Web: Buscar na Web