• /
  • EnglishEspañolFrançais日本語한국어Português
  • EntrarComeçar agora

Esta tradução de máquina é fornecida para sua comodidade.

Caso haja alguma divergência entre a versão em inglês e a traduzida, a versão em inglês prevalece. Acesse esta página para mais informações.

Criar um problema

Nível 1 - Regra do scorecard de cobertura de alerta de infraestrutura

A cobertura de alerta de infraestrutura garante que seus servidores, contêiner e outros componentes de infraestrutura tenham alertas de monitoramento implementados para detectar problemas antes que eles afetem seu aplicativo e seus clientes.

Sobre esta regra do scorecard

Esta regra de cobertura de infraestrutura alerta faz parte do Nível 1 (Reativo) do modelo de maturidade do negócio tempo de operação. Ele verifica se os componentes de infraestrutura crítica têm alertas básicos configurados para notificá-lo quando ocorrerem problemas.

Por que isso é importante: problemas de infraestrutura geralmente resultam em problemas de aplicativo. Sem alertas de infraestrutura adequados, você só poderá descobrir problemas quando os clientes começarem a reclamar de serviços lentos ou indisponíveis.

Como funciona esta regra

Esta regra examina a sua entidade de infraestrutura e verifica se tem condição de alerta definida. Especificamente, ele procura alertas sobre:

  • Entidades INFRA-HOST: Servidores físicos, máquina virtual e instância cloud
  • Entidades INFRA-KUBERNETES-POD: Kubernetes pod e contêiner

A regra falha se qualquer entidade de infraestrutura monitorada não possuir pelo menos uma condição de alerta.

Compreendendo sua pontuação

  • Aprovado (Verde): Todas as entidades de infraestrutura têm pelo menos uma condição de alerta definida
  • Falhou (Vermelho): Uma ou mais entidades de infraestrutura carecem de cobertura de alerta
  • destino: cobertura 100% alerta em todos os componentes críticos da infraestrutura

O que isto significa:

  • Pontuação de aprovação: sua base de monitoramento de infraestrutura está pronta
  • Pontuação de falha: alguns componentes de infraestrutura podem falhar sem alertar sua equipe

Como melhorar a cobertura da infraestrutura alerta

Se sua pontuação mostrar alertas de infraestrutura ausentes, siga estas etapas para estabelecer uma cobertura abrangente:

1. Identificar infraestrutura descoberta

  1. Revise a entidade com falha: identifique quais hosts ou pods específicos não possuem cobertura de alerta
  2. Priorize por criticidade: concentre-se primeiro nos sistemas de produção e na infraestrutura crítica do negócio
  3. Avalie as lacunas de monitoramento: determine se os alertas ausentes representam lacunas reais de monitoramento ou exclusões intencionais

2. Configurar alertas de infraestrutura essenciais

Para cada entidade de infraestrutura configure alertas para estas métricas críticas:

Alertas de monitoramento do host:

  • Utilização da CPU: alerta quando o uso da CPU excede 80% por 5 minutos
  • uso de memória: alerta quando a utilização de memória excede 85% por 5 minutos
  • Espaço em disco: alerta quando o uso do disco exceder 90% ou o espaço disponível cair abaixo de 1 GB
  • Disponibilidade do host: alerta quando o host para de relatar dados por 3 minutos

Alertas pod Kubernetes :

  • frequência de reinicialização do pod: alerta quando o pod é reiniciado mais de 3 vezes em 10 minutos
  • Limites de recursos do contêiner: alerta quando o contêiner se aproxima dos limites de CPU ou memória
  • Disponibilidade do pod: alerta quando o pod não estiver em execução por mais de 2 minutos
  • Pressão de recursos do nó: alerta quando os nós sofrem pressão de memória ou disco

3. Configure a condição do alerta de forma eficaz

Use limite apropriado:

  • Comece com um limite conservador e ajuste com base no comportamento normal do seu ambiente
  • Considere limites diferentes para desenvolvimento, preparação e ambiente de produção
  • Considere os padrões de uso esperados (por exemplo, trabalhos de processamento em lote, picos de tráfego)

Defina janelas de avaliação adequadas:

  • Use janelas mais longas (5 a 10 minutos) para métricas que flutuam naturalmente
  • Use janelas mais curtas (1 a 3 minutos) para disponibilidade e condições críticas de falha
  • Evite alertas excessivamente sensíveis que são acionados em picos temporários

4. Estabelecer roteamento e escalonamento de alertas

  1. Definir canal de notificação: Configurar email, Slack ou integração PagerDuty
  2. Atribuir equipes responsáveis: garantir que os alertas cheguem às equipes que podem responder
  3. Crie procedimentos de escalonamento: defina o que acontece se os alertas iniciais não forem reconhecidos
  4. Entrega de notificação de teste: verifique se os alertas realmente chegam aos destinatários pretendidos

Medindo a melhoria

Acompanhe essas métricas para verificar as melhorias na cobertura do seu alerta de infraestrutura:

  • Porcentagem de cobertura: Monitoramento de IA para cobertura de alerta de 100% na infraestrutura de produção
  • Eficácia do alerta: monitore com que frequência os alertas de infraestrutura ajudam a prevenir problemas no aplicativo
  • Tempo de resposta: Meça a rapidez com que as equipes respondem aos alertas de infraestrutura
  • Taxa de falso positivo: certifique-se de que os alertas estejam ajustados para evitar ruídos desnecessários

Cenários e soluções comuns

infraestrutura legada ou desativada:

  • Problema: Hosts ou contêineres antigos ainda aparecem no monitoramento mas não precisam de alertas
  • Solução: Remover entidades não utilizadas do monitoramento ou tag las como não produtivas para excluí-las dos requisitos de cobertura

Ambientes de desenvolvimento e testes:

  • Problema: infraestrutura de desenvolvimento/teste desorganiza métrica de cobertura de alerta
  • Solução: Use convenções de tags ou nomenclatura para separar ambientes e concentrar regras de cobertura em sistemas de produção

Infraestrutura especializada:

  • Problema: Algumas infraestruturas requerem abordagens de monitoramento customizadas
  • Solução: Criar modelos de alerta específicos do ambiente para diferentes tipos de infraestrutura (banco de dados, balanceadores de carga, etc.)

Recursos de dimensionamento automático na nuvem:

  • Problema: A instância criada dinamicamente pode não herdar o alerta configuração
  • Solução: Use modelos de infraestrutura ou automação para garantir que a nova instância obtenha cobertura de alerta adequada

Considerações avançadas

Personalizando regras de cobertura

Pode ser necessário ajustar a regra do scorecard se:

  • Diferentes tipos de entidades: Sua infraestrutura inclui outros tipos de entidades (banco de dados, balanceadores de carga, etc.)
  • Segregação ambiental: você quer se concentrar apenas na infraestrutura de produção
  • Criticidade do negócio: Algumas infraestruturas são mais críticas que outras

integração com outras ferramentas de monitoramento

Se você usa várias ferramentas de monitoramento:

  • Garanta que a cobertura do alerta não crie notificações duplicadas
  • Coordenar com os sistemas de monitoramento existentes para evitar lacunas
  • Considere usar o New Relic como um ponto de agregação central para alertas de infraestrutura

Considerações importantes

  • Comece com sistemas críticos: concentre-se primeiro na infraestrutura de produção que impacta diretamente os clientes
  • Equilibre a cobertura com o ruído: garanta que a cobertura abrangente não crie excesso de alertas
  • Manutenção regular: Revise e atualize a condição do alerta à medida que sua infraestrutura evolui
  • Prontidão da equipe: garanta que as equipes possam realmente responder aos alertas que você está criando

Próximos passos

  1. Ação imediata: Configure alertas básicos para qualquer infraestrutura que atualmente não tenha cobertura
  2. Monitoramento contínuo: revise esta regra do scorecard semanalmente para manter a cobertura conforme a infraestrutura muda
  3. Avance para o Nível 2: Uma vez estabelecido o alerta de infraestrutura, concentre-se em práticas de monitoramento proativo

Para obter orientação detalhada sobre configuração de monitoramento de infraestrutura, consulte nossa documentação de monitoramento de infraestrutura.

Copyright © 2025 New Relic Inc.

This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.