Quando as equipes recebem muitos alertas ou muitos alarmes falsos, a fadiga de alertas começa a ocorrer. À medida que qualquer um dos fatores aumenta, essa fadiga começa a ter consequências graves e negativas. Respondentes de eventos de alerta sobrecarregados acostumam-se a alertas falsos e priorizam aqueles que são mais fáceis de resolver rapidamente, em vez de problemas mais graves. Pior ainda, muitas vezes eles começam a simplesmente fechar eventos de alerta não resolvidos para permanecerem dentro das metas de tempo de resposta. Isso significa que os alertas reais se perdem em meio ao ruído, enquanto os tempos de resposta a eventos de alerta e as ocorrências de interrupções graves aumentam.
Para corrigir a fadiga de alertas e evitar que ela ocorra no futuro, você deve melhorar a qualidade de seus alertas. Adotar uma política de gerenciamento de qualidade de alertas (AQM) concentra-se em reduzir o número de eventos de alerta incômodos para que você foque apenas em com verdadeiro impacto nos negócios. Isso reduz a fadiga de alertas e garante que você e sua equipe concentrem sua atenção nos lugares certos e nos momentos certos.
Você é um bom candidato para AQM se:
- Você tem muitos alertas.
- Você tem alertas que ficam abertos por longos períodos de tempo.
- Você tem muitos alertas que não são relevantes.
- Seus clientes descobrem seus problemas antes das ferramentas de monitoramento.
Dica
Quer experimentar uma abordagem de aprendizagem prática antes de começar a implementar isso na sua conta? Confira o curso de gestão da qualidade da Alerta.
Porquê utilizar a gestão de qualidade alerta?
Ao adotar práticas baseadas no gerenciamento da qualidade de alertas, você reduzirá o tempo de resposta e aumentará a conscientização sobre eventos críticos. Ao melhorar a relação sinal-ruído dos seus alertas, você reduzirá a confusão e poderá identificar e isolar rapidamente a causa raiz dos seus problemas. O objetivo é reduzir alertas menos valiosos, criando maneiras mais fáceis de identificar quando ocorrem eventos de alerta mais valiosos. Isso resulta em:
- Aumento do tempo de operação e disponibilidade.
- Tempo médio de resolução (MTTR) reduzido.
- Diminuição do volume de alerta.
- A capacidade de identificar facilmente alertas que não são valiosos, para que você possa torná-los valiosos ou removê-los.
Utilização dos principais indicadores de desempenho
Usar os indicadores-chave de desempenho (KPIs) corretos ajuda você a encontrar os alertas mais ruidosos e menos valiosos, para que possa melhorar seu valor ou removê-los. Você usará o processo AQM para coletar e medir o volume de eventos de alerta e os KPIs de engajamento, depois usá-los para identificar tendências para corrigir questões que causam problemas graves. Abaixo, você encontrará informações sobre todos os KPIs, bem como uma consulta NRQL para cada um, para ajudá-lo a monitorá-los de qualquer lugar na interface do New Relic.
Volume de eventos de alerta
Você deve tratar eventos de alerta (com ou sem alertas) como uma fila de tarefas. Assim como uma fila, o número de alertas deve ser sempre o mais próximo possível de zero. Cada evento de alerta deve acionar uma ação investigativa ou corretiva para resolver a condição. Se um alerta não resultar em algum tipo de ação, você deve questionar o valor da condição de alerta.
Em particular, se você observar eventos de alerta específicos sendo acionados frequentemente, deve se perguntar se está em um estado constante de impacto significativo ou se tem apenas um grande volume de ruído. Os KPIs de volume de eventos de alerta ajudam você a responder a essas perguntas e a medir o progresso em direção a um estado saudável de alertas de alta qualidade.
Engajamento do usuário
Você deve medir o valor de um evento de alerta pela quantidade de atenção que ele recebe. A quantidade de engajamento que um alerta individual recebe é uma medida direta do seu valor. Mais engajamento implica um alerta valioso, enquanto menos (ou nenhum) engajamento implica que um alerta pode ser simplesmente ruidoso e deve ser modificado ou desativado.
Há uma diferença significativa entre medir o momento da percepção do evento de alerta e reconhecer quando a atividade de resolução começa. Se você estiver usando uma integração com alertas do New Relic, certifique-se de que o evento Acknowledge enviado ao New Relic seja acionado quando a atividade de resolução começar, e não quando o evento de alerta for enviado para a ferramenta externa de gerenciamento de eventos de alerta.
Qual é o próximo?
Depois de implementar o processo AQM do documento anterior, você verá reduções significativas no volume de alertas, mantendo a confiabilidade e a estabilidade. Seus KPIs de AQM podem fornecer informações precisas sobre essas melhorias quando você segue as práticas recomendadas listadas acima.
Depois de concluir a implementação do AQM, você também poderá melhorar e gerenciar outros aspectos da sua plataforma, como: