Alertas redundantes enterram eventos de alerta críticos sob ruído. Avaliar seus alertas existentes é uma parte fundamental da sua estratégia de priorização, pois a qualidade dos seus alertas se traduz em quão bem suas equipes respondem aos eventos de alerta. Se houver muito ruído, você corre o risco de fatigar sua equipe com eventos de alerta de baixa prioridade que têm pouco ou nenhum impacto nos negócios. Eventos de alerta que falham em alertar, no entanto, levam a interrupções que afetam a experiência do cliente.
Objetivos
Este tutorial pressupõe que você já tenha um alerta ativo. Oferece algumas recomendações sobre como gerenciar a qualidade do seu alerta e fornece algumas consultas de NRQL para a criação de novos. Você irá:
- Instale o dashboard de gerenciamento de qualidade de alerta (AQM)
- Diferencie entre um alerta bom e um alerta ruim
- Revise nossas strings NRQL recomendadas para criar alertas
Instale o dashboard AQM
O AQM foca na redução do número de eventos de alerta irrelevantes para que sua equipe foque em com impacto real nos negócios. Você é um bom candidato para o AQM se:
- Você tem muitos alertas.
- Você tem alertas que ficam abertos por longos períodos de tempo.
- Seus clientes descobrem seus problemas antes das ferramentas de monitoramento.
Para começar, instale o dashboard AQM através do nosso início rápido:
- Acesse a página de observabilidade instantânea Alert Quality Management .
- Clique no botão Install now .
- Siga o prompt para escolher a conta na qual deseja instalar o dashboard .
- Visualize seu dashboard.

Recomendamos que você passe pelo menos duas semanas com o dashboard AQM. Durante esse período, o dashboard AQM coletará dados sobre como suas equipes interagem com todos os seus alertas.
Como regra geral, recomendamos remover estes tipos de alerta:
- Gere eventos de alerta "always-on" que tenham milhares de minutos ou mais de duração cumulativa.
- Onde 30% ou mais dos eventos de alerta estão abertos por menos de 5 minutos.
- Cujo tempo médio de fechamento é superior a 30 minutos.
- Crie mais de 350 eventos de alerta por semana.
Crie novo alerta para pico de demanda
Com as políticas existentes sob revisão, você pode querer criar novos alertas ajustados para picos de demanda. A criação de um bom alerta depende da especificidade das suas configurações. Dois alertas podem compartilhar a mesma consulta de condição de alerta, por exemplo:
SELECT average(`apm.service.memory.heap.used`) FROM Metric WHERE appName = 'Inventory Service'Embora a consulta em si seja uma forte política de alertas, a forma como você configura esse alerta pode criar redundância ou ruído. Um alerta incorreto pode ter uma duração de janela muito pequena, um limite baixo ou nenhum atraso ou baseline. Além disso, anexar uma condição do alerta a uma fonte de dados relativamente nova também pode criar problemas, pois não há histórico suficiente para detectar comportamento anônimo.
Se você está pronto para criar um novo alerta, aqui estão algumas consultas recomendadas que você pode usar no seu dia de jogo:
1Iniciar
Obtenha dados sobre sua arquitetura com APM e agente de infraestrutura
2Criar níveis de serviço para o gameday
Crie um nível de serviço informado pela sua baseline
3Reduza o ruído com alerta de qualidade
Avalie seu alerta com gerenciamento de qualidade de alerta
4Alinhe suas equipes com a carga de trabalho
Alinhe suas equipes em torno dos mesmos dados
5Escale automaticamente sua infraestrutura com Kubernetes
Dimensione seus recursos conforme os picos de demanda