Niveau 1 - Règle de dashboard de couverture des alertes d'infrastructure

La couverture des alertes d'infrastructure garantit que vos serveurs, conteneurs et autres composants infrastructure disposent d'alertes monitoring pour détecter les problèmes avant qu'ils n'affectent vos applications et vos clients.

À propos de cette règle de dashboard

Cette règle de couverture d'alerte infrastructure fait partie du niveau 1 (réactif) du modèle de maturité des temps de disponibilité de l'entreprise. Il vérifie que les composants de votre infrastructure critique disposent d’alertes de base configurées pour vous avertir lorsque des problèmes surviennent.

Pourquoi cela est important : les problèmes d’infrastructure entraînent souvent des problèmes d’application. Sans alerte d'infrastructure appropriée, vous risquez de ne découvrir des problèmes que lorsque les clients commencent à se plaindre de services lents ou indisponibles.

Comment fonctionne cette règle

Cette règle examine votre entité infrastructure et vérifie si elle a une condition d'alerte définie. Plus précisément, il recherche des alertes sur :

Entités INFRA-HOST : Serveurs physiques, machine virtuelle et instance cloud
Entités INFRA-KUBERNETES-POD : Kubernetes pod et conteneur

La règle échoue si une entité infrastructure de monitoring manque d'au moins une condition d'alerte.

Comprendre votre score

Pass (Vert) : Toutes les entités infrastructure ont au moins une condition d'alerte définie
Échec (rouge) : une ou plusieurs entités infrastructure manquent de couverture d'alerte
Objectif : couverture d'alerte à 100 % sur tous les composants critiques infrastructure

Ce que cela signifie :

Note de passage : Votre infrastructure de monitoring est en place
Score d'échec : certains composants de l'infrastructure pourraient tomber en panne sans alerter votre équipe

Comment améliorer la couverture des alertes d'infrastructure

Si votre score indique des alertes d’infrastructure manquantes, suivez ces étapes pour établir une couverture complète :

1. Identifier infrastructurenon couvertes

Examiner l'entité défaillante : identifier les hôtes ou les modules spécifiques qui ne bénéficient pas d'une couverture d'alerte
Prioriser par criticité : se concentrer d'abord sur le système de production et infrastructurecritique pour l'entreprise
Évaluer les lacunes monitoring : déterminer si les alertes manquantes représentent des lacunes monitoring réelles ou des exclusions intentionnelles

2. Configurer des alertes infrastructure essentielles

Pour chaque entité infrastructure , configurez des alertes pour ces métriques critiques :

Alertes monitoring des hôtes :

Utilisation du processeur : alerte lorsque l'utilisation du processeur dépasse 80 % pendant 5 minutes
Utilisation de la mémoire : alerte lorsque l'utilisation de la mémoire dépasse 85 % pendant 5 minutes
Espace disque : alerte lorsque l'utilisation du disque dépasse 90 % ou que l'espace disponible tombe en dessous de 1 Go
Disponibilité de l'hôte : Alerte lorsque l'hôte cesse de signaler des données pendant 3 minutes

Alertes de pod Kubernetes :

Fréquence de redémarrage du pod : alerte lorsque le pod redémarre plus de 3 fois en 10 minutes
Limites de ressources du conteneur : alerte lorsque le conteneur approche des limites de CPU ou de mémoire
Disponibilité des pods : alerte lorsque les pods ne sont pas en cours d'exécution pendant plus de 2 minutes
Pression des ressources des nœuds : alerte lorsque les nœuds subissent une pression sur la mémoire ou le disque

3. Configurer efficacement la condition d'alerte

Utiliser le seuil approprié :

Commencez avec un seuil conservateur et ajustez-le en fonction du comportement normal de votre environnement
Envisagez différents seuils pour le développement, la simulation et l'environnement de production
Tenez compte des modèles d’utilisation attendus (par exemple, tâches de traitement par lots, pics de trafic)

Définir des fenêtres d’évaluation appropriées :

Utilisez des fenêtres plus longues (5 à 10 minutes) pour les métriques qui fluctuent naturellement
Utilisez des fenêtres plus courtes (1 à 3 minutes) pour la disponibilité et les conditions de défaillance critique
Évitez les alertes trop sensibles qui se déclenchent lors de pics temporaires

4. Établir le routage et l'escalade des alertes

Définir le canal de notification: configurer l'intégration par e-mail, Slack ou PagerDuty
Désigner des équipes responsables : s'assurer que les alertes parviennent aux équipes qui peuvent répondre
Créer des procédures d'escalade : définir ce qui se passe si les alertes initiales ne sont pas reconnues
Tester la livraison notification : vérifier que les alertes parviennent effectivement aux destinataires prévus

Mesurer l'amélioration

Suivez ces mesures pour vérifier les améliorations de la couverture des alertes de votre infrastructure :

Pourcentage de couverture : monitoring de l'IA pour une couverture d'alerte de 100 % sur infrastructure de production
Efficacité des alertes : monitorez la fréquence à laquelle les alertes infrastructure aident à prévenir les problèmes d'application
Temps de réponse : mesurer la rapidité avec laquelle les équipes répondent aux alertes infrastructure
Taux de faux positifs : assurez-vous que les alertes sont réglées pour éviter tout bruit inutile

Scénarios et solutions courants

Infrastructure héritées ou déclassées :

Problème : les anciens hôtes ou conteneurs apparaissent toujours dans monitoring mais n'ont pas besoin d'alertes
Solution : supprimez les entités inutilisées de monitoring ou tag les comme non productives pour les exclure des exigences de couverture.

Environnements de développement et de test :

Problème : infrastructure de développement/test encombre les mesures de couverture des alertes
Solution : utiliser des conventions de balises ou de dénomination pour séparer les environnements et concentrer les règles de couverture sur le système de production

Infrastructure spécialisées :

Problème : certaines infrastructure nécessitent des approches monitoring personnalisées
Solution : créer des modèles d’alerte spécifiques à l’environnement pour différents types infrastructure (base de données, équilibreurs de charge, etc.)

Ressources de mise à l'échelle automatique du cloud :

Problème : l’instance créée dynamiquement peut ne pas hériter de la configuration d’alerte
Solution : utilisez des modèles infrastructure ou l’automatisation pour garantir que la nouvelle instance bénéficie d’une couverture d’alerte appropriée

Considérations avancées

Personnalisation des règles de couverture

Vous devrez peut-être ajuster la règle du dashboard si :

Différents types d'entités : Votre infrastructure comprend d'autres types d'entités (base de données, équilibreurs de charge, etc.)
Ségrégation de l'environnement : vous souhaitez vous concentrer uniquement sur l'infrastructure de production
Criticité de l'entreprise : certaines infrastructure sont plus critiques que d'autres

Intégration avec d'autres outils monitoring

Si vous utilisez plusieurs outils monitoring :

Assurez-vous que la couverture des alertes ne crée pas de notification en double
Coordonner avec le système monitoring existant pour éviter les lacunes
Envisagez d'utiliser New Relic comme point d'agrégation central pour les alertes d'infrastructure

Considérations importantes

Commencez par le système critique : concentrez-vous d'abord sur infrastructure de production qui a un impact direct sur les clients
Équilibrez la couverture avec le bruit : assurez-vous qu'une couverture complète ne crée pas de fatigue due aux alertes auxiliaires
Maintenance régulière : examinez et mettez à jour l'état d'alerte à mesure que votre infrastructure évolue
Préparation de l'équipe : assurez-vous que les équipes peuvent réellement répondre aux alertes que vous créez

Prochaines étapes

Action immédiate : Configurer des alertes de base pour toute infrastructure actuellement dépourvue de couverture
Monitoring continue : Révisez cette règle du dashboard chaque semaine pour maintenir la couverture à mesure que infrastructure change.
Passer au niveau 2 : une fois l’alerte infrastructure établie, concentrez-vous sur les pratiques monitoring proactive

Pour des conseils détaillés sur la configuration de monitoring de infrastructure , consultez notre documentationmonitoring de l'infrastructure.

Cette traduction automatique est fournie pour votre commodité.