• /
  • EnglishEspañol日本語한국어Português
  • EntrarComeçar agora

Esta tradução de máquina é fornecida para sua comodidade.

Caso haja alguma divergência entre a versão em inglês e a traduzida, a versão em inglês prevalece. Acesse esta página para mais informações.

Criar um problema

Gerencie a qualidade do seu alerta

Quando as equipes recebem muitos alertas ou muitos alarmes falsos, começa a ocorrer excesso de alertas. À medida que qualquer um dos fatores aumenta, a fadiga começa a ter consequências graves e negativas. Os socorristas sobrecarregados se acostumam com alertas falsos e priorizam aqueles que são mais fáceis de resolver rapidamente, em vez de problemas mais sérios. Pior ainda, eles muitas vezes começam a simplesmente encerrar incidentes não resolvidos para permanecer dentro do tempo de resposta pretendido. Isso significa que o alerta real se perde no ruído enquanto os tempos de resposta a incidentes e interrupções graves aumentam.

Para corrigir o excesso de alertas e evitar que isso ocorra no futuro, você deve melhorar a qualidade do seu alerta. A adoção de uma política de gerenciamento de qualidade de alerta (AQM) se concentra na redução do número de incidentes incômodos para que você se concentre apenas em com verdadeiro impacto nos negócios. Isso reduz o excesso de alertas e garante que você e sua equipe concentrem sua atenção nos lugares certos e nos momentos certos.

Você é um bom candidato para AQM se:

  • Você tem muitos alertas.
  • Você tem alertas que ficam abertos por longos períodos de tempo.
  • Você tem muitos alertas que não são relevantes.
  • Seus clientes descobrem seus problemas antes das ferramentas de monitoramento.

Porquê utilizar a gestão de qualidade alerta?

Ao adotar práticas baseadas na gestão da qualidade de alertas, você diminuirá o tempo de resposta e aumentará a conscientização sobre eventos críticos. À medida que você melhora a relação sinal-ruído de alerta, você diminuirá a confusão e será capaz de identificar e isolar rapidamente a causa raiz dos seus problemas. O objetivo é reduzir alertas menos valiosos e, ao mesmo tempo, criar maneiras mais fáceis de identificar quando ocorrem incidentes mais valiosos. Isto resulta em:

  • Aumento do tempo de operação e disponibilidade.
  • Tempo médio de resolução (MTTR) reduzido.
  • Diminuição do volume de alerta.
  • A capacidade de identificar facilmente alertas que não são valiosos, para que você possa torná-los valiosos ou removê-los.

Utilização dos principais indicadores de desempenho

Usar os principais indicadores de desempenho (KPIs) corretos ajuda você a encontrar os alertas mais barulhentos e menos valiosos para que você possa melhorar seu valor ou removê-los. Você usará o processo AQM para coletar e medir o volume de incidentes e KPIs de engajamento e, em seguida, usá-los para identificar tendências para corrigir problemas que criam problemas sérios. Abaixo, você encontrará informações sobre todos os KPIs, bem como uma consulta NRQL para cada um para ajudá-lo a monitorá-los de qualquer lugar na interface do New Relic.

Volume de incidentes

Você deve tratar o incidente (com ou sem alerta) como uma fila de tarefas. Tal como numa fila, o número de alertas deve ser sempre o mais próximo possível de zero. Cada incidente deve desencadear uma ação investigativa ou corretiva para resolver a condição. Se um alerta não resultar em algum tipo de ação, então você deverá questionar o valor da condição do alerta.

Em particular, se você observar incidentes específicos que são acionados com frequência, você deve questionar se está em um estado constante de impacto significativo ou se simplesmente tem um grande volume de ruído. Os KPIs de volume de incidentes ajudam você a responder a essas perguntas e a medir o progresso em direção a um estado saudável de alertas de alta qualidade.

Engajamento do usuário

Você deve medir o valor de um incidente pela quantidade de atenção que ele recebe. A quantidade de engajamento que um alerta individual recebe é uma medida direta de seu valor. Mais envolvimento implica um alerta valioso, enquanto menos (ou zero) envolvimento implica que um alerta pode simplesmente ser barulhento e deve ser modificado ou desativado.

Há uma diferença significativa entre medir o momento da conscientização do incidente e reconhecer quando a atividade de resolução começa. Se você estiver usando uma integração com o alerta do New Relic, certifique-se de que o evento Acknowledge enviado ao New Relic seja acionado quando a atividade de resolução começar, e não quando o incidente for enviado para a ferramenta externa de gerenciamento de incidentes.

Qual é o próximo?

Depois de implementar o processo AQM do documento anterior, você verá reduções significativas no volume de alertas, mantendo a confiabilidade e a estabilidade. Seus KPIs de AQM podem fornecer informações precisas sobre essas melhorias quando você segue as práticas recomendadas listadas acima.

Depois de concluir a implementação do AQM, você também poderá melhorar e gerenciar outros aspectos da sua plataforma, como:

Passo anterior

Aprenda como melhorar sua stack com alerta

Copyright © 2024 New Relic Inc.

This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.