La couverture des alertes critiques mesure l'équilibre entre les alertes critiques et les alertes d'avertissement dans votre stratégie monitoring . Cette règle de dashboard vous aide à éviter la fatigue due aux alertes auxiliaires en garantissant que vous ne vous fiez pas trop à la critique des alertes pour chaque problème.
À propos de cette règle de dashboard
Cette règle de couverture des critiques d'alerte fait partie du niveau 1 (réactif) du modèle de maturité des temps de disponibilité de l'entreprise. Il évalue si votre stratégie d'alerte comprend une combinaison appropriée de conditions d'alerte critiques et d'avertissement.
Pourquoi cela est important : Trop de critiques d'alertes peuvent entraîner une fatigue due aux alertes auxiliaires, où les équipes deviennent insensibles aux notifications urgentes. Une stratégie d’alerte équilibrée aide les équipes à réagir de manière appropriée aux différents niveaux de gravité.
Comment fonctionne cette règle
Cette règle analyse un échantillon de 7 jours d'incidents d'alerte pour calculer le pourcentage déclenché par une condition d'alerte critique par rapport à une condition d'alerte d'avertissement. Il mesure le ratio sur toutes les entités de monitoring de votre compte.
Comprendre votre score
- Pass (Vert) : 25 % ou moins de vos alertes sont classées comme critiques
- Échec (rouge) : plus de 25 % de vos alertes sont classées comme critiques
- Objectif : Maintenir une stratégie d'alerte équilibrée où les critiques d'alerte représentent de véritables urgences
Ce que cela signifie :
- Score de réussite : Vous disposez d'une stratégie d'alerte bien équilibrée avec des niveaux d'escalade appropriés
- Score d'échec : vous utilisez peut-être trop la critique des alertes, ce qui peut entraîner une fatigue due aux alertes auxiliaires et une efficacité de réponse réduite.
Construire une stratégie d'alerte équilibrée
Une stratégie d’alerte bien conçue doit inclure trois types d’alertes :
Alertes immédiatement exploitables (critiques)
- Objectif : Indiquer un événement ayant un impact sur l'entreprise et nécessitant une réponse immédiate
- Exemples : pannes de service, défaillances critiques du système, failles de sécurité
- Temps de réponse : En quelques minutes
- Qui répond : Ingénieur d'astreinte ou équipe de réponse aux incident
Alertes anticipées (Avertissement)
- Objectif : signaler les conditions qui n'ont pas d'impact immédiat sur l'entreprise, mais qui peuvent nécessiter une action future
- Exemples : taux d’erreur en hausse, approche des limites de capacité, dégradation des performances
- Temps de réponse : En quelques heures ou pendant les heures ouvrables
- Qui répond : Équipe de développement ou administrateur système
Alertes rétrospectives (Informationnelles)
- Objectif : Fournir des données pour une analyse périodique et une optimisation du système à long terme
- Exemples : résumés hebdomadaires des performances, mesures de planification des capacités, analyse des tendances
- Temps de réponse : Pendant les périodes d'examen prévues
- Qui répond : L'équipe des opérations lors des sessions d'analyse planifiées
Comment améliorer votre couverture d'alerte critique
Si votre score indique trop de critiques d’alerte, suivez ces étapes pour rééquilibrer votre stratégie :
1. Auditez vos alertes actuelles
- Examiner toutes les critiques d'alerte : répertorier toutes les conditions d'alerte actuellement définies comme critiques
- Évaluer l’impact sur l’entreprise : Pour chaque alerte critique, demandez-vous : « Cela nécessite-t-il une réponse immédiate pour éviter un impact sur l’entreprise ? »
- Identifier les candidats à la rétrogradation : recherchez les alertes qui pourraient être des avertissements.
2. Reclasser les alertes de manière appropriée
Rétrograder vers l'avertissement lorsque :
- Le problème n’affecte pas immédiatement les clients
- La réponse peut attendre les heures ouvrables
- L'alerte fournit un avertissement précoce des problèmes potentiels
- Une intervention manuelle n'est pas nécessaire de toute urgence
Gardez cela à l'esprit lorsque :
- Les services destinés aux clients ne sont pas disponibles
- Une perte de données ou un incident de sécurité se produit
- Échec du système générateur de revenus
- Une action immédiate permet d'éviter les pannes en cascade
3. Mettre en œuvre une alerte progressive
Créer des chemins d’escalade d’alerte :
- L'alerte d'avertissement se déclenche en premier lorsque les métriques approchent des niveaux préoccupants
- Une alerte critique est émise si les conditions s'aggravent ou persistent
- Utilisez une escalade basée sur le temps pour permettre aux équipes de réagir avant l'escalade
Exemple d'escalade :
- Attention : temps de réponse > 2 secondes pendant 5 minutes
- Critique : temps de réponse > 5 secondes pendant 2 minutes, OU l'avertissement persiste pendant 30 minutes
4. Validez vos modifications
Après reclassification des alertes :
- Moniteur pour les problèmes manqués : assurez-vous que les problèmes importants sont toujours détectés
- Mesurer les temps de réponse : vérifier que les équipes réagissent de manière appropriée aux différents niveaux de gravité
- Recueillir les commentaires de l'équipe : demander aux intervenants si la nouvelle classification leur semble appropriée
Mesurer l'amélioration
Suivez ces mesures pour vérifier vos efforts de rééquilibrage des alertes :
- Pourcentage de critiques d'alerte : devrait diminuer vers la cible de 25 %
- Efficacité de la réponse : les équipes doivent réagir plus rapidement pour alerter les critiques lorsqu'elles sont vraiment urgentes
- Fatigue due à la réduction des alertes : enquête auprès des membres de l'équipe sur la confiance dans la classification des alertes
- Couverture de détection des incidents : assurez-vous de toujours détecter les problèmes importants à un stade précoce
Scénarios et solutions courants
Tout ce qui est marqué comme critique :
- Problème : les équipes marquent toutes les alertes comme critiques pour garantir leur attention
- Solution : Établir des critères clairs pour la classification critique et d'avertissement et former les équipes à l'utilisation appropriée
Peur de manquer des questions importantes :
- Problème : les équipes craignent que les alertes d’avertissement soient ignorées
- Solution : créer des processus pour un examen régulier des alertes d’avertissement et établir des SLA pour différents niveaux de gravité
Configuration d'alerte héritée :
- Problème : les anciennes alertes ont été configurées sans tenir compte des niveaux de gravité
- Solution : Effectuer un audit systématique de toutes les alertes existantes et les reclasser en fonction de l'impact actuel sur l'activité
Quand ajuster le seuil de 25 %
Le seuil par défaut de 25 % fonctionne pour la plupart des organisations, mais vous devrez peut-être l'ajuster si :
- Pourcentage plus élevé acceptable : votre organisation monitore principalement le système de production critique
- Pourcentage inférieur requis : Vous disposez d' monitoring étendue incluant des environnements de développement et de simulation
- Exigences de l'industrie : les exigences réglementaires ou de conformité dictent différentes stratégies d'alerte
Considérations importantes
- Le contexte commercial est important : la critique d'alerte doit s'aligner sur vos priorités commerciales et l'impact sur vos clients
- Capacité de l'équipe : Tenez compte de la capacité de votre équipe à répondre à différents volumes et niveaux de gravité d'alerte.
- Procédures d'escalade : Assurez-vous que des chemins d'escalade clairs existent pour les différents types d'alertes
- Révision régulière : les classifications d'alertes doivent évoluer à mesure que votre système et vos priorités commerciales changent
Prochaines étapes
- Action immédiate : examiner et reclasser toutes les alertes contribuant actuellement à un score d'échec
- monitoring continue : Vérifiez cette règle de dashboard chaque semaine pour maintenir des alertes équilibrées
- Passer au niveau 2 : une fois la couverture d’alerte optimisée, concentrez-vous sur les pratiques monitoring proactive
Pour obtenir des conseils complets sur la stratégie d’alerte, consultez notre guide de mise en œuvre de la gestion de la qualité des alertes.