• /
  • EnglishEspañolFrançais日本語한국어Português
  • Se connecterDémarrer

Cette traduction automatique est fournie pour votre commodité.

En cas d'incohérence entre la version anglaise et la version traduite, la version anglaise prévaudra. Veuillez visiter cette page pour plus d'informations.

Créer un problème

Niveau 1 - Règle de dashboard de couverture des alertes d'infrastructure

La couverture des alertes d'infrastructure garantit que vos serveurs, conteneurs et autres composants infrastructure disposent d'alertes monitoring pour détecter les problèmes avant qu'ils n'affectent vos applications et vos clients.

À propos de cette règle de dashboard

Cette règle de couverture d'alerte infrastructure fait partie du niveau 1 (réactif) du modèle de maturité des temps de disponibilité de l'entreprise. Il vérifie que les composants de votre infrastructure critique disposent d’alertes de base configurées pour vous avertir lorsque des problèmes surviennent.

Pourquoi cela est important : les problèmes d’infrastructure entraînent souvent des problèmes d’application. Sans alerte d'infrastructure appropriée, vous risquez de ne découvrir des problèmes que lorsque les clients commencent à se plaindre de services lents ou indisponibles.

Comment fonctionne cette règle

Cette règle examine votre entité infrastructure et vérifie si elle a une condition d'alerte définie. Plus précisément, il recherche des alertes sur :

  • Entités INFRA-HOST : Serveurs physiques, machine virtuelle et instance cloud
  • Entités INFRA-KUBERNETES-POD : Kubernetes pod et conteneur

La règle échoue si une entité infrastructure de monitoring manque d'au moins une condition d'alerte.

Comprendre votre score

  • Pass (Vert) : Toutes les entités infrastructure ont au moins une condition d'alerte définie
  • Échec (rouge) : une ou plusieurs entités infrastructure manquent de couverture d'alerte
  • Objectif : couverture d'alerte à 100 % sur tous les composants critiques infrastructure

Ce que cela signifie :

  • Note de passage : Votre infrastructure de monitoring est en place
  • Score d'échec : certains composants de l'infrastructure pourraient tomber en panne sans alerter votre équipe

Comment améliorer la couverture des alertes d'infrastructure

Si votre score indique des alertes d’infrastructure manquantes, suivez ces étapes pour établir une couverture complète :

1. Identifier infrastructurenon couvertes

  1. Examiner l'entité défaillante : identifier les hôtes ou les modules spécifiques qui ne bénéficient pas d'une couverture d'alerte
  2. Prioriser par criticité : se concentrer d'abord sur le système de production et infrastructurecritique pour l'entreprise
  3. Évaluer les lacunes monitoring : déterminer si les alertes manquantes représentent des lacunes monitoring réelles ou des exclusions intentionnelles

2. Configurer des alertes infrastructure essentielles

Pour chaque entité infrastructure , configurez des alertes pour ces métriques critiques :

Alertes monitoring des hôtes :

  • Utilisation du processeur : alerte lorsque l'utilisation du processeur dépasse 80 % pendant 5 minutes
  • Utilisation de la mémoire : alerte lorsque l'utilisation de la mémoire dépasse 85 % pendant 5 minutes
  • Espace disque : alerte lorsque l'utilisation du disque dépasse 90 % ou que l'espace disponible tombe en dessous de 1 Go
  • Disponibilité de l'hôte : Alerte lorsque l'hôte cesse de signaler des données pendant 3 minutes

Alertes de pod Kubernetes :

  • Fréquence de redémarrage du pod : alerte lorsque le pod redémarre plus de 3 fois en 10 minutes
  • Limites de ressources du conteneur : alerte lorsque le conteneur approche des limites de CPU ou de mémoire
  • Disponibilité des pods : alerte lorsque les pods ne sont pas en cours d'exécution pendant plus de 2 minutes
  • Pression des ressources des nœuds : alerte lorsque les nœuds subissent une pression sur la mémoire ou le disque

3. Configurer efficacement la condition d'alerte

Utiliser le seuil approprié :

  • Commencez avec un seuil conservateur et ajustez-le en fonction du comportement normal de votre environnement
  • Envisagez différents seuils pour le développement, la simulation et l'environnement de production
  • Tenez compte des modèles d’utilisation attendus (par exemple, tâches de traitement par lots, pics de trafic)

Définir des fenêtres d’évaluation appropriées :

  • Utilisez des fenêtres plus longues (5 à 10 minutes) pour les métriques qui fluctuent naturellement
  • Utilisez des fenêtres plus courtes (1 à 3 minutes) pour la disponibilité et les conditions de défaillance critique
  • Évitez les alertes trop sensibles qui se déclenchent lors de pics temporaires

4. Établir le routage et l'escalade des alertes

  1. Définir le canal de notification: configurer l'intégration par e-mail, Slack ou PagerDuty
  2. Désigner des équipes responsables : s'assurer que les alertes parviennent aux équipes qui peuvent répondre
  3. Créer des procédures d'escalade : définir ce qui se passe si les alertes initiales ne sont pas reconnues
  4. Tester la livraison notification : vérifier que les alertes parviennent effectivement aux destinataires prévus

Mesurer l'amélioration

Suivez ces mesures pour vérifier les améliorations de la couverture des alertes de votre infrastructure :

  • Pourcentage de couverture : monitoring de l'IA pour une couverture d'alerte de 100 % sur infrastructure de production
  • Efficacité des alertes : monitorez la fréquence à laquelle les alertes infrastructure aident à prévenir les problèmes d'application
  • Temps de réponse : mesurer la rapidité avec laquelle les équipes répondent aux alertes infrastructure
  • Taux de faux positifs : assurez-vous que les alertes sont réglées pour éviter tout bruit inutile

Scénarios et solutions courants

Infrastructure héritées ou déclassées :

  • Problème : les anciens hôtes ou conteneurs apparaissent toujours dans monitoring mais n'ont pas besoin d'alertes
  • Solution : supprimez les entités inutilisées de monitoring ou tag les comme non productives pour les exclure des exigences de couverture.

Environnements de développement et de test :

  • Problème : infrastructure de développement/test encombre les mesures de couverture des alertes
  • Solution : utiliser des conventions de balises ou de dénomination pour séparer les environnements et concentrer les règles de couverture sur le système de production

Infrastructure spécialisées :

  • Problème : certaines infrastructure nécessitent des approches monitoring personnalisées
  • Solution : créer des modèles d’alerte spécifiques à l’environnement pour différents types infrastructure (base de données, équilibreurs de charge, etc.)

Ressources de mise à l'échelle automatique du cloud :

  • Problème : l’instance créée dynamiquement peut ne pas hériter de la configuration d’alerte
  • Solution : utilisez des modèles infrastructure ou l’automatisation pour garantir que la nouvelle instance bénéficie d’une couverture d’alerte appropriée

Considérations avancées

Personnalisation des règles de couverture

Vous devrez peut-être ajuster la règle du dashboard si :

  • Différents types d'entités : Votre infrastructure comprend d'autres types d'entités (base de données, équilibreurs de charge, etc.)
  • Ségrégation de l'environnement : vous souhaitez vous concentrer uniquement sur l'infrastructure de production
  • Criticité de l'entreprise : certaines infrastructure sont plus critiques que d'autres

Intégration avec d'autres outils monitoring

Si vous utilisez plusieurs outils monitoring :

  • Assurez-vous que la couverture des alertes ne crée pas de notification en double
  • Coordonner avec le système monitoring existant pour éviter les lacunes
  • Envisagez d'utiliser New Relic comme point d'agrégation central pour les alertes d'infrastructure

Considérations importantes

  • Commencez par le système critique : concentrez-vous d'abord sur infrastructure de production qui a un impact direct sur les clients
  • Équilibrez la couverture avec le bruit : assurez-vous qu'une couverture complète ne crée pas de fatigue due aux alertes auxiliaires
  • Maintenance régulière : examinez et mettez à jour l'état d'alerte à mesure que votre infrastructure évolue
  • Préparation de l'équipe : assurez-vous que les équipes peuvent réellement répondre aux alertes que vous créez

Prochaines étapes

  1. Action immédiate : Configurer des alertes de base pour toute infrastructure actuellement dépourvue de couverture
  2. Monitoring continue : Révisez cette règle du dashboard chaque semaine pour maintenir la couverture à mesure que infrastructure change.
  3. Passer au niveau 2 : une fois l’alerte infrastructure établie, concentrez-vous sur les pratiques monitoring proactive

Pour des conseils détaillés sur la configuration de monitoring de infrastructure , consultez notre documentationmonitoring de l'infrastructure.

Droits d'auteur © 2025 New Relic Inc.

This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.