Quando acionar o plano de contingência?

Recentemente recebemos um pedido de atendimento emergencial: o servidor de arquivos Linux Samba do cliente fora de São Paulo apresentou um erro de hardware durante reboot por falta de energia.

Repassei as orientações por telefone sobre FSCK, seguindo relato do console do servidor. Após um tempo, ficou óbvio que não era mero problema de shutdown desordenado, mas sim profundos erros de hardware dos discos.

Segundo o cliente, o conteúdo do servidor de arquivos era crítico. Questionei sobre backup, e fui informado que o backup era diário e íntegro. Então sugeri que, dada a criticidade em voltar a ter os arquivos disponíveis, o caminho mais rápido era instalar um novo servidor em algum hardware provisório ou em VMWare.

Seguiu-se um longo silêncio na ligação telefônica, e finalmente meu interlocutor agradeceu a ajuda emergencial e disse que preferiria tentar consertar a situação.

Uma pergunta ficou no ar: será que o plano de contingência do cliente realmente identificou a falha catastrófico de hardware como possível cenário, e daí definiu os limites para o acionamento das medidas de contingência? Ou, colocado de outra forma: o plano está claro quanto a “quem deve acionar a contingência sob quais situações”?