Cloud Computing – Falhas e Recuperação de Desastres

Na região norte do estado da Virgínia, EUA, a Amazon Web Services mantém duas “zonas de disponibilidade” em dois datacenters. “Zonas de disponibilidade” são definidas como “localidades físicas distintas que são projetadas para ficarem isoladas uma das outras quando há falhas”. Em 29 de Junho passado, uma pesada tempestade atingiu esta região e derrubou a energia elétrica pública. Em um dos datacenters, o chaveamento automático para gerador de backup falhou por causa de uma sobretensão, o que causou quedas de inúmeras instâncias EC2 e bug inédito de software no “Elastic Load Balancer”, resultando em indisponibilidade de até 6 horas.

Além de problemas com eventos do tempo (estado atmosférico), “cloud computing” ainda é baseado em equipamentos físicos, e eles também falham. Por isso, provedores e usuários de “cloud computing” devem sempre ter planos de recuperação de desaster (DR).

Já é prática comum para grandes provedores de “cloud computing” distribuir recursos entre  datacenters físicos distintos e regiões geográficas distintas. Recentemente o conceito de “cloud balancing” começa a ganhar popularidade, pois permite que tráfego e carga de processamento seja distribuído e assumido por múltiplos datacenters distintos, trazendo como benefício a melhora na redundância e disponibilidade para seus usuários.

Mas usuários que dependem de “cloud computing” para fazer negócios devem sempre planejar a recuperação de desastres e a continuidade dos seus negócios. Contratar provedores de “cloud computing” independentes ou distribuir sua aplicação em várias regiões geográficas distintas são alternativas que devem ser consideradas seriamente, apesar dos seus maiores custos de operação adicionais.