Entendendo o conceito de Error Budget: como o Google lida com o downtime
Um dos tópicos que chama a atenção no livro "SRE - How Google Runs Production Systems” é o conceito de Error Budget, que, de forma resumida, é a maneira como os times do Google lidam com o downtime dos seus serviços. O downtime está relacionado ao tempo em que um serviço fica indisponível, seja por falha no serviço, na infra-estrutura ou pelo lançamento de uma nova versão. Antes de entender melhor o conceito, vamos entender o que está por trás dele. Mas aqui vai um “disclaimer”: este artigo não tem a intenção de ir fundo no tema, mesmo por que este é um tema complexo e existem toneladas de informação na internet. A intenção aqui é explicar o conceito de forma simples e lógica, algo que eu percebi que não é fácil encontrar sobre o assunto. “Abraçando o Risco” A disponibilidade de um serviço é tradicionalmente medida pelo tempo em que o sistema fica disponível em um determinado período. Tradicionalmente utilizamos valores como 99.9% (significa que o servi...
Comentários
Postar um comentário