BDBComp
Parceria:
SBC
Metodologia de Pré­processamento Textual para Extração de Informação em Artigos Científicos do Domínio Biomédico

Pablo Freire MatosRicardo Rodrigues CiferriThiago Alexandre Salgueiro Pardo

O objetivo deste trabalho de pesquisa em nível de mestrado é extrair informação em artigos científicos completos sobre efeitos relacionados ao domínio da doença Anemia Falciforme (AF). Para isso, primeiramente é necessário converter os artigos inerentemente no formato não­estruturado (PDF) para o formato semi estruturado (XML), permitindo acesso aos níveis estruturais dos artigos por: página, parágrafo e sentença. Em seguida, a partir do acesso ao documento XML, será possível processar o texto a fim de identificar os efeitos (complicação e benefício) da AF originados a partir de um tratamento. Nesse contexto será proposta uma metodologia de pré­processamento textual, utilizando a combinação de três abordagens para extrair informação no domínio biomédico: abordagem baseada em aprendizado de máquina, utilizada para classificar as sentenças em complicação, benefício e outros (sentenças que não são complicação nem benefício), as quais são processadas do documento XML; abordagem baseada em dicionário, utilizada para identificar diretamente efeitos da AF nas sentenças classificadas; e abordagem baseada em regras, utilizada para identificar padrões de extração de efeitos com expressões regulares. Um desafio na extração de informação no contexto deste trabalho é lidar com um grande volume de dados. Assim, surge a oportunidade de utilizar a Mineração de Textos para processar arquivos em formato não estruturado, identificando padrões textuais que serão armazenados no formato estruturado em um banco de dados relacional, para ser posteriormente utilizado por algoritmos de Mineração de Dados.

http://www.lbd.dcc.ufmg.br:8080/colecoes/wtdbd/2009/002.pdf

Caso o link acima esteja inválido, faça uma busca pelo texto completo na Web: Buscar na Web

Biblioteca Digital Brasileira de Computação - Contato: bdbcomp@lbd.dcc.ufmg.br
     Mantida por:
LBD