Helena de Lima Braga, Gerson G. H. Cavalheiro.
Atualmente as mais diversas áreas exigem alto poder computacional. Exemplos destademanda são problemas em áreas como meteorologia, medicina, biociências e mesmomuitos problemas comerciais. Estas tarefas não podem ser realizadas utilizando-se oscomputadores tradicionais disponíveis nos dias de hoje por falta de podercomputacional dos mesmos. Esta situação tem motivado o crescimento acelerado demáquinas paralelas e de técnicas que viabilizem o processamento de alto desempenho[LEM 02]. Neste contexto tem sido cada vez mais comum a exploração de aglomeradosde computadores (clusters) e arquiteturas multiprocessadoras com memóriacompartilhada (Symmetric Multi-processors). No entanto, o entendimento destasarquiteturas não é trivial, tendo sido criado para isto uma série de ambientes deexecução e técnicas de programação para auxiliar o programador nesta tarefa [CAV 03].É de se observar que muitas aplicações mesmo dispondo de múltiplos processadorespodem permanecer processando durante horas, dias, ou até mesmo, semanas para queresultados possam ser obtidos. Diversos fatores podem vir a interromper oprocessamento repentinamente, como, por exemplo, falta de energia. É de grandeinteresse que o processamento realizado não seja perdido ao longo da execução doprograma. Para isso, faz-se necessário um mecanismo de tolerância a falhas nestesambientes de execução, para garantir que o recomeço da aplicação seja viabilizado coma menor perda possível de processamento.O objetivo deste artigo é propor um mecanismo de tolerância a falhas em um ambientemultithread utilizando técnicas de checkpoints [DIE 99, DIE 99b, PLA 95, WAN 95]. Oambiente a ser utilizado chama-se Anahy e será explicado com mais detalhes napróxima seção.
http://www.lbd.dcc.ufmg.br/colecoes/erad-rs/2004/0050.pdf
Caso o link acima esteja inválido, faça uma busca pelo texto completo na Web: Buscar na Web