A cobertura de alerta de infraestrutura garante que seus servidores, contêiner e outros componentes de infraestrutura tenham alertas de monitoramento implementados para detectar problemas antes que eles afetem seu aplicativo e seus clientes.
Sobre esta regra do scorecard
Esta regra de cobertura de infraestrutura alerta faz parte do Nível 1 (Reativo) do modelo de maturidade do negócio tempo de operação. Ele verifica se os componentes de infraestrutura crítica têm alertas básicos configurados para notificá-lo quando ocorrerem problemas.
Por que isso é importante: problemas de infraestrutura geralmente resultam em problemas de aplicativo. Sem alertas de infraestrutura adequados, você só poderá descobrir problemas quando os clientes começarem a reclamar de serviços lentos ou indisponíveis.
Como funciona esta regra
Esta regra examina a sua entidade de infraestrutura e verifica se tem condição de alerta definida. Especificamente, ele procura alertas sobre:
- Entidades INFRA-HOST: Servidores físicos, máquina virtual e instância cloud
- Entidades INFRA-KUBERNETES-POD: Kubernetes pod e contêiner
A regra falha se qualquer entidade de infraestrutura monitorada não possuir pelo menos uma condição de alerta.
Compreendendo sua pontuação
- Aprovado (Verde): Todas as entidades de infraestrutura têm pelo menos uma condição de alerta definida
- Falhou (Vermelho): Uma ou mais entidades de infraestrutura carecem de cobertura de alerta
- destino: cobertura 100% alerta em todos os componentes críticos da infraestrutura
O que isto significa:
- Pontuação de aprovação: sua base de monitoramento de infraestrutura está pronta
- Pontuação de falha: alguns componentes de infraestrutura podem falhar sem alertar sua equipe
Como melhorar a cobertura da infraestrutura alerta
Se sua pontuação mostrar alertas de infraestrutura ausentes, siga estas etapas para estabelecer uma cobertura abrangente:
1. Identificar infraestrutura descoberta
- Revise a entidade com falha: identifique quais hosts ou pods específicos não possuem cobertura de alerta
- Priorize por criticidade: concentre-se primeiro nos sistemas de produção e na infraestrutura crítica do negócio
- Avalie as lacunas de monitoramento: determine se os alertas ausentes representam lacunas reais de monitoramento ou exclusões intencionais
2. Configurar alertas de infraestrutura essenciais
Para cada entidade de infraestrutura configure alertas para estas métricas críticas:
Alertas de monitoramento do host:
- Utilização da CPU: alerta quando o uso da CPU excede 80% por 5 minutos
- uso de memória: alerta quando a utilização de memória excede 85% por 5 minutos
- Espaço em disco: alerta quando o uso do disco exceder 90% ou o espaço disponível cair abaixo de 1 GB
- Disponibilidade do host: alerta quando o host para de relatar dados por 3 minutos
Alertas pod Kubernetes :
- frequência de reinicialização do pod: alerta quando o pod é reiniciado mais de 3 vezes em 10 minutos
- Limites de recursos do contêiner: alerta quando o contêiner se aproxima dos limites de CPU ou memória
- Disponibilidade do pod: alerta quando o pod não estiver em execução por mais de 2 minutos
- Pressão de recursos do nó: alerta quando os nós sofrem pressão de memória ou disco
3. Configure a condição do alerta de forma eficaz
Use limite apropriado:
- Comece com um limite conservador e ajuste com base no comportamento normal do seu ambiente
- Considere limites diferentes para desenvolvimento, preparação e ambiente de produção
- Considere os padrões de uso esperados (por exemplo, trabalhos de processamento em lote, picos de tráfego)
Defina janelas de avaliação adequadas:
- Use janelas mais longas (5 a 10 minutos) para métricas que flutuam naturalmente
- Use janelas mais curtas (1 a 3 minutos) para disponibilidade e condições críticas de falha
- Evite alertas excessivamente sensíveis que são acionados em picos temporários
4. Estabelecer roteamento e escalonamento de alertas
- Definir canal de notificação: Configurar email, Slack ou integração PagerDuty
- Atribuir equipes responsáveis: garantir que os alertas cheguem às equipes que podem responder
- Crie procedimentos de escalonamento: defina o que acontece se os alertas iniciais não forem reconhecidos
- Entrega de notificação de teste: verifique se os alertas realmente chegam aos destinatários pretendidos
Medindo a melhoria
Acompanhe essas métricas para verificar as melhorias na cobertura do seu alerta de infraestrutura:
- Porcentagem de cobertura: Monitoramento de IA para cobertura de alerta de 100% na infraestrutura de produção
- Eficácia do alerta: monitore com que frequência os alertas de infraestrutura ajudam a prevenir problemas no aplicativo
- Tempo de resposta: Meça a rapidez com que as equipes respondem aos alertas de infraestrutura
- Taxa de falso positivo: certifique-se de que os alertas estejam ajustados para evitar ruídos desnecessários
Cenários e soluções comuns
infraestrutura legada ou desativada:
- Problema: Hosts ou contêineres antigos ainda aparecem no monitoramento mas não precisam de alertas
- Solução: Remover entidades não utilizadas do monitoramento ou tag las como não produtivas para excluí-las dos requisitos de cobertura
Ambientes de desenvolvimento e testes:
- Problema: infraestrutura de desenvolvimento/teste desorganiza métrica de cobertura de alerta
- Solução: Use convenções de tags ou nomenclatura para separar ambientes e concentrar regras de cobertura em sistemas de produção
Infraestrutura especializada:
- Problema: Algumas infraestruturas requerem abordagens de monitoramento customizadas
- Solução: Criar modelos de alerta específicos do ambiente para diferentes tipos de infraestrutura (banco de dados, balanceadores de carga, etc.)
Recursos de dimensionamento automático na nuvem:
- Problema: A instância criada dinamicamente pode não herdar o alerta configuração
- Solução: Use modelos de infraestrutura ou automação para garantir que a nova instância obtenha cobertura de alerta adequada
Considerações avançadas
Personalizando regras de cobertura
Pode ser necessário ajustar a regra do scorecard se:
- Diferentes tipos de entidades: Sua infraestrutura inclui outros tipos de entidades (banco de dados, balanceadores de carga, etc.)
- Segregação ambiental: você quer se concentrar apenas na infraestrutura de produção
- Criticidade do negócio: Algumas infraestruturas são mais críticas que outras
integração com outras ferramentas de monitoramento
Se você usa várias ferramentas de monitoramento:
- Garanta que a cobertura do alerta não crie notificações duplicadas
- Coordenar com os sistemas de monitoramento existentes para evitar lacunas
- Considere usar o New Relic como um ponto de agregação central para alertas de infraestrutura
Considerações importantes
- Comece com sistemas críticos: concentre-se primeiro na infraestrutura de produção que impacta diretamente os clientes
- Equilibre a cobertura com o ruído: garanta que a cobertura abrangente não crie excesso de alertas
- Manutenção regular: Revise e atualize a condição do alerta à medida que sua infraestrutura evolui
- Prontidão da equipe: garanta que as equipes possam realmente responder aos alertas que você está criando
Próximos passos
- Ação imediata: Configure alertas básicos para qualquer infraestrutura que atualmente não tenha cobertura
- Monitoramento contínuo: revise esta regra do scorecard semanalmente para manter a cobertura conforme a infraestrutura muda
- Avance para o Nível 2: Uma vez estabelecido o alerta de infraestrutura, concentre-se em práticas de monitoramento proativo
Para obter orientação detalhada sobre configuração de monitoramento de infraestrutura, consulte nossa documentação de monitoramento de infraestrutura.