PPGCCM PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO FUNDAÇÃO UNIVERSIDADE FEDERAL DO ABC Phone: 11 4996-8337 http://propg.ufabc.edu.br/ppgccm

Banca de QUALIFICAÇÃO: PEDRO HENRIQUE DI FRANCIA ROSSO

Uma banca de QUALIFICAÇÃO de MESTRADO foi cadastrada pelo programa.
DISCENTE : PEDRO HENRIQUE DI FRANCIA ROSSO
DATA : 11/02/2021
HORA: 10:00
LOCAL: Online via Google Meet
TÍTULO:

OCFTL: an implementation-independent fault tolerance library for MPI


PÁGINAS: 65
GRANDE ÁREA: Ciências Exatas e da Terra
ÁREA: Ciência da Computação
SUBÁREA: Sistemas de Computação
RESUMO:

Fault tolerance (FT) is a common concern in HPC environments. One would expect that, when Message Passing Interface (MPI) is concerned (an HPC tool of paramount importance), FT would be a solved problem. It turns out that the scenario for FT and MPI is intricate. While FT is effectively a reality in these environments, it is usually done by hand. The few exceptions available tie MPI users to specific MPI implementations. This work proposes OCFTL, an Implementation Independent FT Library for MPI to be used in OmpCluster. OCFTL is capable of detecting failures with only a 50 ms delay (with low CPU overhead). It also provides false-positive failure detection, MPI communicator repair, and it can isolate users from unspecified behavior of MPI operations in the presence of failures. This work also discusses the relationship between FT and scheduling that are normally treated separately, proposing a model that integrates scheduling and FT by taking into account the characteristics of the tasks and target computing nodes. Preliminary experimental results indicate good potential to improve system reliability and execution makespan of scientific workflows.


MEMBROS DA BANCA:
Presidente - Interno ao Programa - 3008052 - EMILIO DE CAMARGO FRANCESQUINI
Membro Titular - Examinador(a) Interno ao Programa - 1676329 - RAPHAEL YOKOINGAWA DE CAMARGO
Membro Titular - Examinador(a) Externo à Instituição - DANIEL DE ANGELIS CORDEIRO - USP
Membro Suplente - Examinador(a) Interno ao Programa - 2376122 - THIAGO FERREIRA COVOES
Membro Suplente - Examinador(a) Externo à Instituição - ALFREDO GOLDMAN VEL LEJBMAN - USP
Notícia cadastrada em: 05/01/2021 20:52
SIGAA | UFABC - Núcleo de Tecnologia da Informação - ||||| | Copyright © 2006-2024 - UFRN - sigaa-2.ufabc.int.br.sigaa-2-prod