Calculadora de Uptime
Calcule quanto tempo de inatividade seu SLA permite, ou descubra qual porcentagem de uptime voce precisa para um orcamento de inatividade especifico.
O que e uptime?
Uptime e a porcentagem de tempo em que um servico esta operacional e acessivel. E a metrica principal usada em Acordos de Nivel de Servico (SLAs) para definir compromissos de confiabilidade entre provedores de servicos e seus clientes.
Quando alguem diz que seu servico tem "99,9% de uptime," significa que em qualquer periodo de tempo, espera-se que o servico fique indisponivel por no maximo 0,1% desse tempo. Em um mes de 30 dias, isso equivale a cerca de 43 minutos de inatividade permitida.
O uptime e medido externamente, da perspectiva dos seus usuarios, nao da sua infraestrutura interna. Um servidor que acredita estar funcionando, mas nao consegue atender solicitacoes, esta efetivamente fora do ar.
Entendendo os niveis de SLA
Cada "nove" adicional de disponibilidade reduz seu tempo de inatividade permitido em 10x e geralmente requer um aumento significativo na complexidade e custo da infraestrutura.
| SLA | Por dia | Por semana | Por mes | Por ano |
|---|---|---|---|---|
| 99% | 14m 24s | 1h 40m 48s | 7h 18m 18s | 3d 15h 39m 29s |
| 99.5% | 7m 12s | 50m 24s | 3h 39m 8s | 1d 19h 49m 45s |
| 99.9% | 1m 26s | 10m 5s | 43m 50s | 8h 45m 57s |
| 99.95% | 43s | 5m 2s | 21m 55s | 4h 22m 58s |
| 99.99% | 8.6s | 1m 0s | 4m 23s | 52m 36s |
| 99.999% | 0.9s | 6s | 26s | 5m 15s |
Como melhorar o uptime
Use monitoramento externo
Health checks internos nao conseguem detectar falhas de rede ou problemas de DNS. Monitores externos verificam de fora da sua infraestrutura, da mesma forma que seus usuarios acessam seu servico. Verifique a cada 10-30 segundos de multiplas regioes.
Implemente redundancia
Execute pelo menos duas instancias atras de um balanceador de carga. Use bancos de dados gerenciados com failover automatico. Cada ponto unico de falha que voce remover te aproxima do proximo nove.
Automatize deployments
Deployments manuais sao propensos a erros e causam inatividade. Use deployments blue-green ou canary para implementar mudancas sem derrubar o servico. Automatize rollbacks para deployments que falharem.
Configure alertas e plantao
Deteccao rapida reduz a duracao da inatividade. Configure alertas com politicas de escalonamento para que o engenheiro certo seja notificado imediatamente, com escalonamento automatico se nao responder.
Faca postmortems
Cada incidente e uma oportunidade de aprendizado. Documente o que aconteceu, a causa raiz e as acoes para prevenir recorrencia. A melhor forma de melhorar o uptime e nao repetir as falhas.
Perguntas frequentes
Como e calculada a porcentagem de uptime?
Porcentagem de uptime = (Tempo total - Inatividade) / Tempo total x 100. Por exemplo, um mes de 30 dias tem 43.200 minutos. Se seu servico ficou fora do ar por 43 minutos, uptime = (43.200 - 43) / 43.200 x 100 = 99,9%.
Qual e a diferenca entre 99,9% e 99,99% de uptime?
99,9% de uptime permite cerca de 43 minutos de inatividade por mes, enquanto 99,99% permite apenas cerca de 4 minutos. O nove adicional reduz seu orcamento de inatividade em 10x, o que geralmente requer investimento em infraestrutura significativamente maior.
Manutencao planejada conta contra o uptime?
Depende de como seu SLA e definido. Alguns SLAs excluem janelas de manutencao programada dos calculos de uptime, enquanto outros contam toda inatividade independente da causa. Sempre verifique os termos do seu SLA para a definicao especifica.
Qual SLA devo oferecer aos meus clientes?
Comece medindo seu uptime real durante 3-6 meses. Seu SLA deve ser alcancavel com base em dados reais, nao aspiracional. A maioria dos servicos SaaS em producao se compromete com 99,9% (tres noves). So se comprometa com 99,99% ou mais se sua arquitetura realmente suportar.
Como monitoro meu uptime real?
Use um servico de monitoramento externo que verifique seus endpoints de fora da sua infraestrutura em intervalos regulares (a cada 10-60 segundos). Monitoramento interno pode perder falhas que afetam seus usuarios, entao verificacoes externas de multiplas regioes dao a visao mais precisa.
Conheca seu uptime. Proteja seu SLA.
PulseAPI monitora seus endpoints a cada 10 segundos e alerta voce no momento em que algo da errado. Paginas de status, gestao de incidentes e plantao, tudo em um so lugar.