La couverture des alertes d'infrastructure garantit que vos serveurs, conteneurs et autres composants infrastructure disposent d'alertes monitoring pour détecter les problèmes avant qu'ils n'affectent vos applications et vos clients.
À propos de cette règle de dashboard
Cette règle de couverture d'alerte infrastructure fait partie du niveau 1 (réactif) du modèle de maturité des temps de disponibilité de l'entreprise. Il vérifie que les composants de votre infrastructure critique disposent d’alertes de base configurées pour vous avertir lorsque des problèmes surviennent.
Pourquoi cela est important : les problèmes d’infrastructure entraînent souvent des problèmes d’application. Sans alerte d'infrastructure appropriée, vous risquez de ne découvrir des problèmes que lorsque les clients commencent à se plaindre de services lents ou indisponibles.
Comment fonctionne cette règle
Cette règle examine votre entité infrastructure et vérifie si elle a une condition d'alerte définie. Plus précisément, il recherche des alertes sur :
- Entités INFRA-HOST : Serveurs physiques, machine virtuelle et instance cloud
- Entités INFRA-KUBERNETES-POD : Kubernetes pod et conteneur
La règle échoue si une entité infrastructure de monitoring manque d'au moins une condition d'alerte.
Comprendre votre score
- Pass (Vert) : Toutes les entités infrastructure ont au moins une condition d'alerte définie
- Échec (rouge) : une ou plusieurs entités infrastructure manquent de couverture d'alerte
- Objectif : couverture d'alerte à 100 % sur tous les composants critiques infrastructure
Ce que cela signifie :
- Note de passage : Votre infrastructure de monitoring est en place
- Score d'échec : certains composants de l'infrastructure pourraient tomber en panne sans alerter votre équipe
Comment améliorer la couverture des alertes d'infrastructure
Si votre score indique des alertes d’infrastructure manquantes, suivez ces étapes pour établir une couverture complète :
1. Identifier infrastructurenon couvertes
- Examiner l'entité défaillante : identifier les hôtes ou les modules spécifiques qui ne bénéficient pas d'une couverture d'alerte
- Prioriser par criticité : se concentrer d'abord sur le système de production et infrastructurecritique pour l'entreprise
- Évaluer les lacunes monitoring : déterminer si les alertes manquantes représentent des lacunes monitoring réelles ou des exclusions intentionnelles
2. Configurer des alertes infrastructure essentielles
Pour chaque entité infrastructure , configurez des alertes pour ces métriques critiques :
Alertes monitoring des hôtes :
- Utilisation du processeur : alerte lorsque l'utilisation du processeur dépasse 80 % pendant 5 minutes
- Utilisation de la mémoire : alerte lorsque l'utilisation de la mémoire dépasse 85 % pendant 5 minutes
- Espace disque : alerte lorsque l'utilisation du disque dépasse 90 % ou que l'espace disponible tombe en dessous de 1 Go
- Disponibilité de l'hôte : Alerte lorsque l'hôte cesse de signaler des données pendant 3 minutes
Alertes de pod Kubernetes :
- Fréquence de redémarrage du pod : alerte lorsque le pod redémarre plus de 3 fois en 10 minutes
- Limites de ressources du conteneur : alerte lorsque le conteneur approche des limites de CPU ou de mémoire
- Disponibilité des pods : alerte lorsque les pods ne sont pas en cours d'exécution pendant plus de 2 minutes
- Pression des ressources des nœuds : alerte lorsque les nœuds subissent une pression sur la mémoire ou le disque
3. Configurer efficacement la condition d'alerte
Utiliser le seuil approprié :
- Commencez avec un seuil conservateur et ajustez-le en fonction du comportement normal de votre environnement
- Envisagez différents seuils pour le développement, la simulation et l'environnement de production
- Tenez compte des modèles d’utilisation attendus (par exemple, tâches de traitement par lots, pics de trafic)
Définir des fenêtres d’évaluation appropriées :
- Utilisez des fenêtres plus longues (5 à 10 minutes) pour les métriques qui fluctuent naturellement
- Utilisez des fenêtres plus courtes (1 à 3 minutes) pour la disponibilité et les conditions de défaillance critique
- Évitez les alertes trop sensibles qui se déclenchent lors de pics temporaires
4. Établir le routage et l'escalade des alertes
- Définir le canal de notification: configurer l'intégration par e-mail, Slack ou PagerDuty
- Désigner des équipes responsables : s'assurer que les alertes parviennent aux équipes qui peuvent répondre
- Créer des procédures d'escalade : définir ce qui se passe si les alertes initiales ne sont pas reconnues
- Tester la livraison notification : vérifier que les alertes parviennent effectivement aux destinataires prévus
Mesurer l'amélioration
Suivez ces mesures pour vérifier les améliorations de la couverture des alertes de votre infrastructure :
- Pourcentage de couverture : monitoring de l'IA pour une couverture d'alerte de 100 % sur infrastructure de production
- Efficacité des alertes : monitorez la fréquence à laquelle les alertes infrastructure aident à prévenir les problèmes d'application
- Temps de réponse : mesurer la rapidité avec laquelle les équipes répondent aux alertes infrastructure
- Taux de faux positifs : assurez-vous que les alertes sont réglées pour éviter tout bruit inutile
Scénarios et solutions courants
Infrastructure héritées ou déclassées :
- Problème : les anciens hôtes ou conteneurs apparaissent toujours dans monitoring mais n'ont pas besoin d'alertes
- Solution : supprimez les entités inutilisées de monitoring ou tag les comme non productives pour les exclure des exigences de couverture.
Environnements de développement et de test :
- Problème : infrastructure de développement/test encombre les mesures de couverture des alertes
- Solution : utiliser des conventions de balises ou de dénomination pour séparer les environnements et concentrer les règles de couverture sur le système de production
Infrastructure spécialisées :
- Problème : certaines infrastructure nécessitent des approches monitoring personnalisées
- Solution : créer des modèles d’alerte spécifiques à l’environnement pour différents types infrastructure (base de données, équilibreurs de charge, etc.)
Ressources de mise à l'échelle automatique du cloud :
- Problème : l’instance créée dynamiquement peut ne pas hériter de la configuration d’alerte
- Solution : utilisez des modèles infrastructure ou l’automatisation pour garantir que la nouvelle instance bénéficie d’une couverture d’alerte appropriée
Considérations avancées
Personnalisation des règles de couverture
Vous devrez peut-être ajuster la règle du dashboard si :
- Différents types d'entités : Votre infrastructure comprend d'autres types d'entités (base de données, équilibreurs de charge, etc.)
- Ségrégation de l'environnement : vous souhaitez vous concentrer uniquement sur l'infrastructure de production
- Criticité de l'entreprise : certaines infrastructure sont plus critiques que d'autres
Intégration avec d'autres outils monitoring
Si vous utilisez plusieurs outils monitoring :
- Assurez-vous que la couverture des alertes ne crée pas de notification en double
- Coordonner avec le système monitoring existant pour éviter les lacunes
- Envisagez d'utiliser New Relic comme point d'agrégation central pour les alertes d'infrastructure
Considérations importantes
- Commencez par le système critique : concentrez-vous d'abord sur infrastructure de production qui a un impact direct sur les clients
- Équilibrez la couverture avec le bruit : assurez-vous qu'une couverture complète ne crée pas de fatigue due aux alertes auxiliaires
- Maintenance régulière : examinez et mettez à jour l'état d'alerte à mesure que votre infrastructure évolue
- Préparation de l'équipe : assurez-vous que les équipes peuvent réellement répondre aux alertes que vous créez
Prochaines étapes
- Action immédiate : Configurer des alertes de base pour toute infrastructure actuellement dépourvue de couverture
- Monitoring continue : Révisez cette règle du dashboard chaque semaine pour maintenir la couverture à mesure que infrastructure change.
- Passer au niveau 2 : une fois l’alerte infrastructure établie, concentrez-vous sur les pratiques monitoring proactive
Pour des conseils détaillés sur la configuration de monitoring de infrastructure , consultez notre documentationmonitoring de l'infrastructure.