Reduza o ruído com alerta de qualidade

Alertas redundantes enterram eventos de alerta críticos sob ruído. Avaliar seus alertas existentes é uma parte fundamental da sua estratégia de priorização, pois a qualidade dos seus alertas se traduz em quão bem suas equipes respondem aos eventos de alerta. Se houver muito ruído, você corre o risco de fatigar sua equipe com eventos de alerta de baixa prioridade que têm pouco ou nenhum impacto nos negócios. Eventos de alerta que falham em alertar, no entanto, levam a interrupções que afetam a experiência do cliente.

Objetivos

Este tutorial pressupõe que você já tenha um alerta ativo. Oferece algumas recomendações sobre como gerenciar a qualidade do seu alerta e fornece algumas consultas de NRQL para a criação de novos. Você irá:

Instale o dashboard de gerenciamento de qualidade de alerta (AQM)
Diferencie entre um alerta bom e um alerta ruim
Revise nossas strings NRQL recomendadas para criar alertas

Instale o dashboard AQM

O AQM foca na redução do número de eventos de alerta irrelevantes para que sua equipe foque em com impacto real nos negócios. Você é um bom candidato para o AQM se:

Você tem muitos alertas.
Você tem alertas que ficam abertos por longos períodos de tempo.
Seus clientes descobrem seus problemas antes das ferramentas de monitoramento.

Para começar, instale o dashboard AQM através do nosso início rápido:

Acesse a página de observabilidade instantânea Alert Quality Management .
Clique no botão Install now .
Siga o prompt para escolher a conta na qual deseja instalar o dashboard .
Visualize seu dashboard.

Recomendamos que você passe pelo menos duas semanas com o dashboard AQM. Durante esse período, o dashboard AQM coletará dados sobre como suas equipes interagem com todos os seus alertas.

Como regra geral, recomendamos remover estes tipos de alerta:

Gere eventos de alerta "always-on" que tenham milhares de minutos ou mais de duração cumulativa.
Onde 30% ou mais dos eventos de alerta estão abertos por menos de 5 minutos.
Cujo tempo médio de fechamento é superior a 30 minutos.
Crie mais de 350 eventos de alerta por semana.

Crie novo alerta para pico de demanda

Com as políticas existentes sob revisão, você pode querer criar novos alertas ajustados para picos de demanda. A criação de um bom alerta depende da especificidade das suas configurações. Dois alertas podem compartilhar a mesma consulta de condição de alerta, por exemplo:

SELECT average(`apm.service.memory.heap.used`) FROM Metric WHERE appName = 'Inventory Service'

Embora a consulta em si seja uma forte política de alertas, a forma como você configura esse alerta pode criar redundância ou ruído. Um alerta incorreto pode ter uma duração de janela muito pequena, um limite baixo ou nenhum atraso ou baseline. Além disso, anexar uma condição do alerta a uma fonte de dados relativamente nova também pode criar problemas, pois não há histórico suficiente para detectar comportamento anônimo.

Se você está pronto para criar um novo alerta, aqui estão algumas consultas recomendadas que você pode usar no seu dia de jogo:

Crie alertas restritos que destinam um segmento específico de seus dados, como alguns clientes principais ou um intervalo de dados. Use a cláusula WHERE para definir essas condições.

SELECT average(duration) FROM Transaction WHERE account_id in (91290, 102021, 20230)

SELECT percentile(duration, 95) FROM Transaction WHERE name LIKE 'Controller/checkout/%'

Crie um alerta quando um enésimo percentil de seus dados atingir um limite especificado; por exemplo, mantendo o nível de serviço do SLA. Como avaliamos a consulta NRQL com base na duração da janela de agregação, o percentil será calculado para cada duração separadamente.

SELECT percentile(duration, 95) FROM Transaction

SELECT percentile(databaseDuration, 75) FROM Transaction

Crie um alerta quando seus dados atingirem um determinado máximo, mínimo ou média. Isso garante que uma duração ou tempo de resposta não ultrapasse um determinado limite.

SELECT max(duration) FROM Transaction

SELECT average(duration) FROM Transaction

Crie um alerta quando uma proporção dos seus dados estiver acima ou abaixo de um determinado limite.

SELECT percentage(count(*), WHERE duration > 2) FROM Transaction

SELECT percentage(count(*), WHERE http.statusCode = '500') FROM Transaction

Crie alerta no Apdex, aplicando seu próprio valor T para determinada transação. Por exemplo, receba uma notificação de alerta quando seu Apdex para um valor T de 500 ms na transação para aplicativos de produção ficar abaixo de 0,8.

SELECT apdex(duration, t:0.5) FROM Transaction WHERE appName like '%prod%'

1Iniciar

Obtenha dados sobre sua arquitetura com APM e agente de infraestrutura

2Criar níveis de serviço para o gameday

Crie um nível de serviço informado pela sua baseline

3Reduza o ruído com alerta de qualidade

Avalie seu alerta com gerenciamento de qualidade de alerta

You are here

4Alinhe suas equipes com a carga de trabalho

Alinhe suas equipes em torno dos mesmos dados

5Escale automaticamente sua infraestrutura com Kubernetes

Dimensione seus recursos conforme os picos de demanda

Esta tradução de máquina é fornecida para sua comodidade.

Reduza o ruído com alerta de qualidade

Objetivos

Instale o dashboard AQM

Crie novo alerta para pico de demanda

Alerta sobre segmentos específicos de seus dados

Alerta sobre o enésimo percentil dos seus dados

Alertar quando os dados atingirem um máximo, mínimo ou média

Alerta sobre uma porcentagem dos seus dados

Alerta no Apdex com qualquer valor T

1Iniciar

2Criar níveis de serviço para o gameday

3Reduza o ruído com alerta de qualidade

4Alinhe suas equipes com a carga de trabalho

5Escale automaticamente sua infraestrutura com Kubernetes

Esta tradução de máquina é fornecida para sua comodidade.

Reduza o ruído com alerta de qualidade

Objetivos .css-21sua1{background:none;border:none;width:0;padding:0;}

Instale o dashboard AQM

Crie novo alerta para pico de demanda

Alerta sobre o enésimo percentil dos seus dados

Alertar quando os dados atingirem um máximo, mínimo ou média

Alerta sobre uma porcentagem dos seus dados

Alerta no Apdex com qualquer valor T

2Criar níveis de serviço para o gameday

3Reduza o ruído com alerta de qualidade

4Alinhe suas equipes com a carga de trabalho

5Escale automaticamente sua infraestrutura com Kubernetes

Objetivos