Nível 1 - Regra do scorecard de cobertura de alerta de infraestrutura

A cobertura de alerta de infraestrutura garante que seus servidores, contêiner e outros componentes de infraestrutura tenham alertas de monitoramento implementados para detectar problemas antes que eles afetem seu aplicativo e seus clientes.

Sobre esta regra do scorecard

Esta regra de cobertura de infraestrutura alerta faz parte do Nível 1 (Reativo) do modelo de maturidade do negócio tempo de operação. Ele verifica se os componentes de infraestrutura crítica têm alertas básicos configurados para notificá-lo quando ocorrerem problemas.

Por que isso é importante: problemas de infraestrutura geralmente resultam em problemas de aplicativo. Sem alertas de infraestrutura adequados, você só poderá descobrir problemas quando os clientes começarem a reclamar de serviços lentos ou indisponíveis.

Como funciona esta regra

Esta regra examina a sua entidade de infraestrutura e verifica se tem condição de alerta definida. Especificamente, ele procura alertas sobre:

Entidades INFRA-HOST: Servidores físicos, máquina virtual e instância cloud
Entidades INFRA-KUBERNETES-POD: Kubernetes pod e contêiner

A regra falha se qualquer entidade de infraestrutura monitorada não possuir pelo menos uma condição de alerta.

Compreendendo sua pontuação

Aprovado (Verde): Todas as entidades de infraestrutura têm pelo menos uma condição de alerta definida
Falhou (Vermelho): Uma ou mais entidades de infraestrutura carecem de cobertura de alerta
destino: cobertura 100% alerta em todos os componentes críticos da infraestrutura

O que isto significa:

Pontuação de aprovação: sua base de monitoramento de infraestrutura está pronta
Pontuação de falha: alguns componentes de infraestrutura podem falhar sem alertar sua equipe

Como melhorar a cobertura da infraestrutura alerta

Se sua pontuação mostrar alertas de infraestrutura ausentes, siga estas etapas para estabelecer uma cobertura abrangente:

1. Identificar infraestrutura descoberta

Revise a entidade com falha: identifique quais hosts ou pods específicos não possuem cobertura de alerta
Priorize por criticidade: concentre-se primeiro nos sistemas de produção e na infraestrutura crítica do negócio
Avalie as lacunas de monitoramento: determine se os alertas ausentes representam lacunas reais de monitoramento ou exclusões intencionais

2. Configurar alertas de infraestrutura essenciais

Para cada entidade de infraestrutura configure alertas para estas métricas críticas:

Alertas de monitoramento do host:

Utilização da CPU: alerta quando o uso da CPU excede 80% por 5 minutos
uso de memória: alerta quando a utilização de memória excede 85% por 5 minutos
Espaço em disco: alerta quando o uso do disco exceder 90% ou o espaço disponível cair abaixo de 1 GB
Disponibilidade do host: alerta quando o host para de relatar dados por 3 minutos

Alertas pod Kubernetes :

frequência de reinicialização do pod: alerta quando o pod é reiniciado mais de 3 vezes em 10 minutos
Limites de recursos do contêiner: alerta quando o contêiner se aproxima dos limites de CPU ou memória
Disponibilidade do pod: alerta quando o pod não estiver em execução por mais de 2 minutos
Pressão de recursos do nó: alerta quando os nós sofrem pressão de memória ou disco

3. Configure a condição do alerta de forma eficaz

Use limite apropriado:

Comece com um limite conservador e ajuste com base no comportamento normal do seu ambiente
Considere limites diferentes para desenvolvimento, preparação e ambiente de produção
Considere os padrões de uso esperados (por exemplo, trabalhos de processamento em lote, picos de tráfego)

Defina janelas de avaliação adequadas:

Use janelas mais longas (5 a 10 minutos) para métricas que flutuam naturalmente
Use janelas mais curtas (1 a 3 minutos) para disponibilidade e condições críticas de falha
Evite alertas excessivamente sensíveis que são acionados em picos temporários

4. Estabelecer roteamento e escalonamento de alertas

Definir canal de notificação: Configurar email, Slack ou integração PagerDuty
Atribuir equipes responsáveis: garantir que os alertas cheguem às equipes que podem responder
Crie procedimentos de escalonamento: defina o que acontece se os alertas iniciais não forem reconhecidos
Entrega de notificação de teste: verifique se os alertas realmente chegam aos destinatários pretendidos

Medindo a melhoria

Acompanhe essas métricas para verificar as melhorias na cobertura do seu alerta de infraestrutura:

Porcentagem de cobertura: Monitoramento de IA para cobertura de alerta de 100% na infraestrutura de produção
Eficácia do alerta: monitore com que frequência os alertas de infraestrutura ajudam a prevenir problemas no aplicativo
Tempo de resposta: Meça a rapidez com que as equipes respondem aos alertas de infraestrutura
Taxa de falso positivo: certifique-se de que os alertas estejam ajustados para evitar ruídos desnecessários

Cenários e soluções comuns

infraestrutura legada ou desativada:

Problema: Hosts ou contêineres antigos ainda aparecem no monitoramento mas não precisam de alertas
Solução: Remover entidades não utilizadas do monitoramento ou tag las como não produtivas para excluí-las dos requisitos de cobertura

Ambientes de desenvolvimento e testes:

Problema: infraestrutura de desenvolvimento/teste desorganiza métrica de cobertura de alerta
Solução: Use convenções de tags ou nomenclatura para separar ambientes e concentrar regras de cobertura em sistemas de produção

Infraestrutura especializada:

Problema: Algumas infraestruturas requerem abordagens de monitoramento customizadas
Solução: Criar modelos de alerta específicos do ambiente para diferentes tipos de infraestrutura (banco de dados, balanceadores de carga, etc.)

Recursos de dimensionamento automático na nuvem:

Problema: A instância criada dinamicamente pode não herdar o alerta configuração
Solução: Use modelos de infraestrutura ou automação para garantir que a nova instância obtenha cobertura de alerta adequada

Considerações avançadas

Personalizando regras de cobertura

Pode ser necessário ajustar a regra do scorecard se:

Diferentes tipos de entidades: Sua infraestrutura inclui outros tipos de entidades (banco de dados, balanceadores de carga, etc.)
Segregação ambiental: você quer se concentrar apenas na infraestrutura de produção
Criticidade do negócio: Algumas infraestruturas são mais críticas que outras

integração com outras ferramentas de monitoramento

Se você usa várias ferramentas de monitoramento:

Garanta que a cobertura do alerta não crie notificações duplicadas
Coordenar com os sistemas de monitoramento existentes para evitar lacunas
Considere usar o New Relic como um ponto de agregação central para alertas de infraestrutura

Considerações importantes

Comece com sistemas críticos: concentre-se primeiro na infraestrutura de produção que impacta diretamente os clientes
Equilibre a cobertura com o ruído: garanta que a cobertura abrangente não crie excesso de alertas
Manutenção regular: Revise e atualize a condição do alerta à medida que sua infraestrutura evolui
Prontidão da equipe: garanta que as equipes possam realmente responder aos alertas que você está criando

Próximos passos

Ação imediata: Configure alertas básicos para qualquer infraestrutura que atualmente não tenha cobertura
Monitoramento contínuo: revise esta regra do scorecard semanalmente para manter a cobertura conforme a infraestrutura muda
Avance para o Nível 2: Uma vez estabelecido o alerta de infraestrutura, concentre-se em práticas de monitoramento proativo

Para obter orientação detalhada sobre configuração de monitoramento de infraestrutura, consulte nossa documentação de monitoramento de infraestrutura.

Esta tradução de máquina é fornecida para sua comodidade.