• /
  • EnglishEspañolFrançais日本語한국어Português
  • EntrarComeçar agora

Esta tradução de máquina é fornecida para sua comodidade.

Caso haja alguma divergência entre a versão em inglês e a traduzida, a versão em inglês prevalece. Acesse esta página para mais informações.

Criar um problema

Nível 1 - Regra do scorecard de cobertura de alerta crítico

A cobertura de alerta crítico mede o equilíbrio entre alertas críticos e de advertência em sua estratégia de monitoramento. Esta regra do scorecard ajuda você a evitar excesso de alertas, garantindo que você não dependa demais do alerta crítico para cada problema.

Sobre esta regra do scorecard

Esta regra de cobertura de alerta crítico faz parte do Nível 1 (Reativo) do modelo de maturidade de tempo de operação empresarial. Ele avalia se sua estratégia de alerta inclui uma combinação apropriada de alertas críticos e de advertência.

Por que isso é importante: Muitos alertas críticos podem levar ao excesso de alertas, onde as equipes ficam insensíveis a notificações urgentes. Uma estratégia de alerta equilibrada ajuda as equipes a responder adequadamente a diferentes níveis de gravidade.

Como funciona esta regra

Esta regra analisa uma amostra de incidentes de alerta de 7 dias para calcular qual porcentagem é acionada por condição crítica do alerta versus condição de alerta do alerta. Ele mede a proporção entre todas as entidades monitoradas em sua conta.

Compreendendo sua pontuação

  • Aprovado (Verde): 25% ou menos dos seus alertas são classificados como críticos
  • Falha (Vermelho): Mais de 25% dos seus alertas são classificados como críticos
  • destino: Manter uma estratégia de alerta equilibrada onde o alerta crítico represente verdadeiras emergências

O que isto significa:

  • Pontuação de aprovação: Você tem uma estratégia de alerta bem equilibrada com níveis de escalonamento apropriados
  • Pontuação de falha: você pode estar usando alertas críticos em excesso, o que pode levar ao excesso de alertas e à redução da eficácia da resposta.

Construindo uma estratégia de alerta equilibrada

Uma estratégia de alerta bem projetada deve incluir três tipos de alertas:

Alertas imediatamente acionáveis (críticos)

  • Objetivo: indicar evento de impacto empresarial que requer resposta imediata
  • Exemplos: interrupções de serviço, falhas críticas do sistema, violações de segurança
  • tempo de resposta: Dentro de minutos
  • Quem responde: Engenheiro de plantão ou resposta a equipe de incidentes

Alertas antecipatórios (Aviso)

  • Objetivo: sinalizar condições que não impactam imediatamente os negócios, mas podem exigir ações futuras
  • Exemplos: Aumento da taxa de erros, aproximação dos limites de capacidade, degradação do desempenho
  • tempo de resposta: Dentro de algumas horas ou durante o horário comercial
  • Quem responde: Equipe de desenvolvimento ou administrador de sistema

Alertas retrospectivos (informativo)

  • Objetivo: Fornecer dados para análise periódica e otimização do sistema a longo prazo
  • Exemplos: Resumos semanais de desempenho, planejamento de capacidade métrica, análise de tendências
  • tempo de resposta: Durante os períodos de revisão programados
  • Quem responde: Equipe de operações durante sessões de análise planejadas

Como melhorar sua cobertura de alerta crítico

Se sua pontuação indicar muitos alertas críticos, siga estes passos para reequilibrar sua estratégia:

1. Audite seus alertas atuais

  1. Rever todos os alertas críticos: Lista todas as condições do alerta atualmente definidas como críticas
  2. Avalie o impacto nos negócios: para cada alerta crítico, pergunte: "Isso exige uma resposta imediata para evitar impacto nos negócios?"
  3. Identifique candidatos para rebaixamento: procure alertas que podem ser avisos

2. Reclassifique os alertas adequadamente

Faça o downgrade para aviso quando:

  • O problema não afeta os clientes imediatamente
  • A resposta pode esperar até o horário comercial
  • O alerta fornece um aviso prévio de problemas potenciais
  • A intervenção manual não é necessária com urgência

Mantenha como crítico quando:

  • os serviços de atendimento ao cliente não estão disponíveis
  • Perda de dados ou incidentes de segurança ocorrem
  • Os sistemas de geração de receita falham
  • A ação imediata evita falhas em cascata

3. Implementar alertas progressivos

Crie caminhos de escalonamento de alerta:

  1. O alerta de alerta dispara primeiro quando a abordagem métrica referente aos níveis
  2. Alerta crítico segue se as condições piorarem ou persistirem
  3. Use a escalada baseada em tempo para permitir que as equipes respondam antes de escalar

Exemplo de escalonamento:

  • Aviso: tempo de resposta > 2 segundos por 5 minutos
  • Crítico: tempo de resposta > 5 segundos por 2 minutos, OU o aviso persiste por 30 minutos

4. Valide suas alterações

Após reclassificar alertas:

  1. Monitore problemas perdidos: garanta que problemas importantes ainda sejam detectados
  2. Medir o tempo de resposta: verificar se as equipes respondem adequadamente a diferentes níveis de gravidade
  3. Reúna o feedback da equipe: pergunte aos respondentes se a nova classificação parece apropriada

Medindo a melhoria

Acompanhe essas métricas para verificar seus esforços de rebalanceamento de alerta:

  • alerta crítico percentagem: Deve diminuir para os 25% destino
  • Eficácia da resposta: as equipes devem responder mais rapidamente aos alertas críticos quando eles são realmente urgentes
  • Redução do excesso de alertas: Membros da equipe de pesquisa sobre confiança na classificação de alertas
  • Cobertura de detecção de incidentes: garanta que você ainda esteja detectando problemas importantes precocemente

Cenários e soluções comuns

Tudo marcado como crítico:

  • Problema: As equipes marcam todos os alertas como críticos para garantir a atenção
  • Solução: Estabelecer critérios claros para classificação crítica vs. advertência e treinar equipes sobre o uso apropriado

Medo de perder questões importantes:

  • Problema: As equipes temem que os alertas de advertência sejam ignorados
  • Solução: Criar processos para revisão regular de alertas de advertência e estabelecer SLA para diferentes níveis de gravidade

legado alerta configuração:

  • Problema: Alertas antigos foram configurados sem consideração aos níveis de gravidade
  • Solução: Realizar uma auditoria sistemática de todos os alertas existentes e reclassificá-los com base no impacto comercial atual

Quando ajustar o limite de 25%

O limite padrão de 25% funciona para a maioria das organizações, mas pode ser necessário ajustá-lo se:

  • Porcentagem mais alta aceitável: sua organização monitora principalmente sistemas de produção críticos
  • Menor porcentagem necessária: você tem monitoramento abrangente, incluindo ambientes de desenvolvimento e preparação
  • Requisitos do setor: requisitos regulatórios ou de conformidade determinam diferentes estratégias de alerta

Considerações importantes

  • O contexto empresarial é importante: o alerta crítico deve estar alinhado com as prioridades do seu negócio e com o impacto no cliente
  • Capacidade da equipe: considere a capacidade da sua equipe de responder a diferentes volumes e gravidades de alertas
  • Procedimentos de escalonamento: garantir que existam caminhos de escalonamento claros para diferentes tipos de alerta
  • Revisão regular: as classificações de alerta devem evoluir conforme seus sistemas e prioridades de negócios mudam

Próximos passos

  1. Ação imediata: Revise e reclassifique todos os alertas que atualmente contribuem para uma pontuação baixa.
  2. Monitoramento contínuo: verifique esta regra do scorecard semanalmente para manter o alerta equilibrado
  3. Avance para o Nível 2: Uma vez otimizada a cobertura de alerta, concentre-se em práticas de monitoramento proativo

Para obter orientações abrangentes sobre a estratégia do Alerta, consulte nosso guia de implementação do Gerenciamento de Qualidade do Alerta.

Copyright © 2025 New Relic Inc.

This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.