Lorsque les équipes reçoivent trop d'alertes ou trop de fausses alarmes, la fatigue des alertes commence à s'installer. À mesure que l'un ou l'autre de ces facteurs augmente, cette fatigue commence à avoir de graves conséquences négatives. Les intervenants submergés par les événements d'alerte s'habituent aux fausses alertes et donnent la priorité à celles qui sont plus faciles à résoudre rapidement plutôt qu'aux problèmes plus sérieux. Pire encore, ils commencent souvent à fermer simplement les événements d'alerte non résolus pour respecter les objectifs de temps de réponse. Cela signifie que les véritables alertes se perdent dans le bruit, tandis que les délais de réponse aux événements d'alerte et les occurrences de pannes graves augmentent.
Pour remédier à la fatigue des alertes et empêcher qu'elle ne se reproduise à l'avenir, vous devez améliorer la qualité de vos alertes. L'adoption d'une politique de gestion de la qualité des alertes (AQM) vise à réduire le nombre d'événements d'alerte intempestifs afin que vous vous concentriez uniquement sur ayant un véritable impact métier. Cela réduit la fatigue des alertes et garantit que vous et votre équipe concentrez votre attention au bon endroit et au bon moment.
Vous êtes un bon candidat pour AQM si :
- Vous avez trop d'alertes.
- Vous avez des alertes qui restent ouvertes pendant de longues périodes.
- Vous avez beaucoup d'alertes qui ne sont pas pertinentes.
- Vos clients découvrent vos problèmes avant vos outils monitoring .
Conseil
Vous souhaitez essayer une approche d’apprentissage pratique avant de commencer à l’implémenter dans votre compte ? Découvrez le cours de gestion de la qualité des alertes.
Pourquoi utiliser la gestion de la qualité des alertes ?
En adoptant des pratiques basées sur la gestion de la qualité des alertes, vous réduirez le temps de réponse et augmenterez la visibilité sur les événements critiques. En améliorant le rapport signal/bruit de vos alertes, vous réduirez la confusion et pourrez identifier et isoler rapidement la cause première de vos problèmes. L'objectif est de réduire les alertes moins pertinentes tout en créant des moyens plus simples d'identifier l'apparition d'événements d'alerte plus importants. Cela donne :
- Augmentation du temps de disponibilité et de disponibilité.
- Délai moyen de résolution (MTTR) réduit (MTTR).
- Volume d'alerte diminué.
- La possibilité d'identifier facilement les alertes qui ne sont pas utiles, afin que vous puissiez soit les rendre utiles, soit les supprimer.
Utilisation des indicateurs de performances clés
L'utilisation des bons indicateurs clés de performance (KPI) vous aide à trouver les alertes les plus bruyantes et les moins utiles afin d'améliorer leur valeur ou de les supprimer. Vous utiliserez le processus AQM pour collecter et mesurer le volume des événements d'alerte et les KPI d'engagement, puis vous les utiliserez pour identifier des tendances afin de corriger les dysfonctionnements qui créent de graves problèmes. Vous trouverez ci-dessous des informations sur tous les KPI, ainsi qu'une requête NRQL pour chacun d'eux afin de vous aider à les monitorer depuis n'importe où dans l'interface utilisateur de New Relic.
Volume des événements d'alerte
Vous devez traiter les événements d'alerte (avec ou sans alertes) comme une file d'attente de tâches. Tout comme une file d'attente, le nombre d'alertes doit toujours être aussi proche de zéro que possible. Chaque événement d'alerte doit déclencher une action d'investigation ou corrective pour résoudre la condition. Si une alerte n'entraîne pas une forme d'action, vous devriez remettre en question la valeur de la condition d'alerte.
En particulier, si vous constatez que des événements d'alerte spécifiques sont fréquemment déclenchés, vous devriez vous demander si vous subissez un impact significatif constant ou si vous avez simplement un volume important de bruit. Les KPI de volume d'événements d'alerte vous aident à répondre à ces questions et à mesurer les progrès vers un état sain d'alerte de haute qualité.
engagement des utilisateurs
Vous devriez mesurer la valeur d'un événement d'alerte en fonction de l'attention qu'il reçoit. Le niveau d'engagement généré par une alerte individuelle est une mesure directe de sa valeur. Un engagement plus élevé implique une alerte pertinente, tandis qu'un engagement moindre (ou nul) implique qu'une alerte est peut-être simplement bruyante et devrait être modifiée ou désactivée.
Il existe une différence significative entre la mesure du moment de la prise de connaissance d'un événement d'alerte et la reconnaissance du début de l'activité de résolution. Si vous utilisez une intégration avec les alertes New Relic, assurez-vous que l'événement Acknowledge envoyé à New Relic se déclenche lorsque l'activité de résolution commence, et non lorsque l'événement d'alerte est envoyé à l'outil externe de gestion des événements d'alerte.
Quelle est la prochaine étape ?
Une fois que vous aurez implémenté le processus AQM du document précédent, vous constaterez des réductions significatives du volume d'alertes tout en maintenant la fiabilité et la stabilité. Vos KPI AQM peuvent fournir des informations précises sur ces améliorations lorsque vous suivez les bonnes pratiques énumérées ci-dessus.
Une fois que vous avez terminé la mise en œuvre d'AQM, vous pouvez également envisager d'améliorer et de gérer d'autres aspects de votre plateforme, tels que :