OCFTL: uma biblioteca de tolerância a falhas para MPI independente de implementação
Tolerância a falhas (TF) é uma preocupação comum em ambientes de Computação de Alta Desempenho (CAD). Seria de se esperar que, quando se trata de Message Passing Interface (MPI) (uma ferramenta para CAD de suma importância), TF seria um problema resolvido. Contudo, o cenário para TF e MPI é complexo. Embora TF seja efetivamente uma realidade nesses ambientes, geralmente é “feita à mão”. As poucas exceções disponíveis vinculam os usuários MPI a implementações MPI específicas. Este trabalho propõe OCFTL, uma Biblioteca de TF que não é dependente de nenhuma implementação MPI específica para ser usada no OmpCluster. OCFTL é capaz de detectar falhas com apenas um atraso de 50 ms (com baixa sobrecarga de CPU). Também fornece detecção de falha em caso de falso positivo, reparo do comunicador MPI e pode isolar os usuários do comportamento não especificado de operações MPI na presença de falhas. Resultados experimentais indicam bom potencial para melhorar a confiabilidade do sistema e a execução de fluxos de trabalho científicos.