Problemas de infraestrutura raramente aparecem de repente. Eles se acumulam silenciosamente até que um dia o sistema cai, o deploy quebra produção, ou o board pergunta por que a conta de cloud triplicou. Este checklist ajuda a identificar os sinais antes que virem crises.
O Checklist
Conte quantos sinais se aplicam à sua operação.
Operação e Estabilidade
1. Deploys são eventos de risco.
Cada deploy exige “janela de manutenção”, time de plantão e plano de rollback manual. Se o time tem medo de deploy na sexta-feira, o pipeline não é confiável.
2. Incidentes recorrentes do mesmo tipo.
O mesmo alerta dispara todo mês. A causa raiz nunca é tratada porque “não tem tempo”. O time está apagando o mesmo incêndio repetidamente.
3. Monitoramento por reclamação.
Vocês descobrem que algo caiu porque o cliente ligou, não porque o sistema alertou. Se não há observabilidade proativa, cada incidente é uma surpresa.
4. Recovery lento.
Quando algo quebra, leva horas ou dias para restabelecer. Não há runbooks documentados, e o conhecimento de recovery está na cabeça de uma ou duas pessoas.
5. Sem ambiente de staging confiável.
O time testa em produção (mesmo que não admita). Ou o staging existe mas é tão diferente de produção que os testes não são confiáveis.
6. Performance degrada sob carga.
Em horários de pico ou campanhas de marketing, o sistema fica lento ou cai. Não há auto-scaling nem capacidade de absorver variações de demanda.
7. Banco de dados no limite.
Queries lentas aumentam a cada mês. Indexação é feita reactivamente. Ninguém sabe explicar o crescimento do storage, mas a conta cresce.
8. Escalabilidade é vertical.
A solução para performance sempre é “aumentar o servidor”. Não há estratégia de escalabilidade horizontal nem cache efetivo.
Custo e Governança
9. Ninguém sabe explicar a conta de cloud.
A fatura cresce 15%+ ao mês e a explicação é sempre “crescimento natural”. Não há tagging, não há atribuição de custos por time ou projeto.
10. Recursos ociosos abundantes.
Instâncias de teste que rodam 24/7, bancos de dados de projetos encerrados, snapshots de anos atrás. Ninguém limpa porque “pode precisar”.
11. Sem política de backup verificada.
Backups existem (provavelmente), mas ninguém testou um restore completo nos últimos 6 meses. A política de retenção é “guardar tudo para sempre”.
Segurança e Compliance
12. Segredos no código.
Credenciais, API keys e tokens em repositórios de código, variáveis de ambiente não gerenciadas, ou pior — hardcoded em aplicações.
13. Patches atrasados.
Dependências com vulnerabilidades conhecidas que nunca são atualizadas. Sistemas operacionais sem patches de segurança há meses.
14. Sem controle de acesso granular.
Todo mundo tem acesso admin a tudo. Não há princípio de menor privilégio. Ex-funcionários ainda têm credenciais ativas.
Pessoas e Conhecimento
15. Bus factor = 1.
Uma pessoa sabe como o sistema funciona. Se ela sai de férias, o time congela. Se ela pede demissão, é uma crise existencial.
Interpretação
| Sinais |
Diagnóstico |
Ação |
| 0-3 |
Saudável |
Manutenção preventiva regular |
| 4-7 |
Atenção |
Planeje melhorias no próximo trimestre |
| 8-11 |
Risco |
Priorize — um incidente sério é questão de tempo |
| 12-15 |
Urgente |
Pare e resolva antes que resolva por você |
Se você marcou 8 ou mais, não entre em pânico — mas entre em ação:
Semana 1: Priorize os 3 sinais de maior risco imediato (segurança primeiro).
Mês 1: Implemente quick wins — monitoramento básico, políticas de backup, controle de acesso. São ações de baixo custo e alto impacto.
Trimestre 1: Monte o plano de modernização para os problemas estruturais. Documente o custo atual de cada problema para justificar o investimento.
Importante: Não tente resolver tudo de uma vez. Priorize por risco de negócio, não por complexidade técnica.
Prevenção
Os sinais acima são sintomas, não causas. As causas geralmente são:
- Ausência de investment contínuo em infraestrutura (só investem quando quebra)
- Crescimento sem planejamento (o que funcionava para 10 devs não funciona para 50)
- Rotatividade sem documentação (conhecimento sai com as pessoas)
- Pressão por features sem allocation para manutenção
A solução de longo prazo é cultural: tratar infraestrutura como investimento contínuo, não como custo a ser minimizado.
Compartilhe este checklist com seu time técnico. Compare as respostas. Se houver discordância significativa, isso por si só é um sinal de que a visibilidade sobre o estado real da infraestrutura precisa melhorar.