Juliana Lilian Duque, Pablo Freire Matos, Cristina Dutra de Aguiar Ciferri, Thiago Alexandre Salgueiro Pardo, Ricardo Rodrigues Ciferri.
Este artigo investiga o problema de extrair informações relevantes em documentos não estruturados no formato PDF escritos em inglês. Nós propomos um processo que usa aprendizado de máquina, regras e dicionário para identificar e extrair tratamentos em artigos do domínio biomédico. A busca inicial de sentenças que possuem complicações melhora a eficiência na identificação e extração de termos de tratamentos. Isso acontece porque tratamentos ocorrem principalmente na mesma sentença de complicação ou em sentenças próximas no mesmo parágrafo. Os experimentos mostraram uma precisão de 88% na classificação das sentenças e uma revocação de 70% na extração de tratamentos usando regras baseadas em Part-Of-Speech.
http://www.lbd.dcc.ufmg.br/colecoes/stil/2011/0014.pdf
Caso o link acima esteja inválido, faça uma busca pelo texto completo na Web: Buscar na Web