• /
  • EnglishEspañolFrançais日本語한국어Português
  • Se connecterDémarrer

Cette traduction automatique est fournie pour votre commodité.

En cas d'incohérence entre la version anglaise et la version traduite, la version anglaise prévaudra. Veuillez visiter cette page pour plus d'informations.

Créer un problème

Niveau 3 - Règle du dashboard d'atteinte du niveau de service

L'atteinte du niveau de service mesure si vos services répondent systématiquement à leurs objectifs de niveau de service (SLO) définis, démontrant ainsi l'excellence opérationnelle et la valeur commerciale de vos pratiques d'observabilité. Cela représente le summum des programmes d’observabilité matures.

À propos de cette règle de dashboard

Cette règle d'atteinte du niveau de service fait partie du niveau 3 (Maîtrise) du modèle de maturité du temps de disponibilité de l'entreprise. Il évalue si vos services répondent à leur objectif de fiabilité, indiquant que votre pratique d'observabilité fournit des résultats mesurables de l'entreprise.

Pourquoi cela est important : L'atteinte constante des SLO démontre que votre observabilité d'investissement se traduit par des services fiables sur lesquels les clients peuvent compter. Ce niveau d’excellence des performances favorise la satisfaction des clients, la croissance de l’entreprise et l’avantage concurrentiel.

Comment fonctionne cette règle

Cette règle évalue le dernier score de conformité du niveau de service pour chaque SLI défini dans votre compte. Il mesure si vos services atteignent leur objectif SLO sur les périodes définies.

Comprendre votre score

  • Pass (Vert) : les services respectent systématiquement leurs SLO avec des taux de conformité de 95 % ou plus
  • Échec (rouge) : un ou plusieurs services tombent en dessous du seuil de conformité SLO de 95 %
  • Cible : Tous les services critiques atteignent une conformité SLO de plus de 95 %, démontrant une prestation de services fiable

Ce que cela signifie :

  • Score de réussite : Vos services offrent des performances cohérentes et fiables qui répondent aux attentes des utilisateurs et aux exigences de l'entreprise
  • Score d'échec : les problèmes de fiabilité du service ont un impact sur l'expérience utilisateur et affectent potentiellement les résultats de l'entreprise

Comprendre le seuil de 95 %

Le seuil de conformité SLO de 95 % représente un équilibre entre fiabilité et efficacité opérationnelle :

Pourquoi 95% ?

  • Norme industrielle : conforme aux pratiques courantes de l'industrie en matière de services à haute disponibilité
  • Concept de budget d'erreur : permet un taux d'échec de 5 %, offrant une flexibilité pour la maintenance, le déploiement et les problèmes inattendus
  • Impact sur l'entreprise : représente généralement le niveau de fiabilité où la satisfaction des clients reste élevée
  • Durabilité opérationnelle : réalisable sans frais généraux ni coûts opérationnels excessifs

Quand ajuster le seuil

  • Exigences plus élevées (99 %+) : système critique, services financiers, applications de santé
  • Exigences inférieures (90-94 %) : outils internes, fonctionnalité expérimentale, applications sensibles aux coûts
  • Seuil variable : Différentes cibles pour différents niveaux de service ou segments utilisateur

Comment améliorer l'atteinte du niveau de service

Si votre score montre des problèmes de conformité SLO, suivez cette approche systématique :

1. Identifier les services sous-performants

Analyser la violation du SLO :

  1. Examiner les tendances en matière de conformité : découvrez quels services manquent systématiquement les objectifs SLO
  2. Identifier les modèles : déterminer si la violation se produit à des moments précis, pendant le déploiement ou dans certaines conditions
  3. Évaluer l'impact : comprendre quels SLO manqués ont le plus grand impact sur l'entreprise ou l'utilisateur
  4. Prioriser les améliorations : se concentrer d'abord sur les services présentant la criticité commerciale la plus élevée et les écarts de SLO les plus importants

Utiliser l’analyse data-driven :

  • Taux de consommation du budget d'erreur : suivez la vitesse à laquelle les services consomment leur budget d'échec autorisé
  • Analyse des séries chronologiques : identifier les tendances des performances des SLO au fil du temps
  • Analyse de corrélation : Rechercher des relations entre la violation du SLO et d'autres événements (déploiement, pics de trafic, changements infrastructure )

2. Enquêter sur les causes profondes

Facteurs techniques :

  • Problèmes d'infrastructure : contraintes de capacité, pannes matérielles, problèmes de réseau
  • Bugs d'application : régressions de performances, fuites de mémoire, algorithmes inefficaces
  • Problèmes de déploiement : mauvaise sortie, erreurs configuration , problèmes de restauration
  • Échecs de dépendance : pannes de services tiers, performances de la base de données, limites de débit des API

Facteurs opérationnels :

  • Lacunes de monitoring : observabilité insuffisante conduisant à une détection tardive des problèmes
  • Réponse aux incidents : Délais de résolution lents en raison de processus ou d'outils médiocres
  • Gestion du changement : pratiques de test ou de déploiement inadéquates
  • Planification des capacités : ressources insuffisantes pendant les périodes de pointe

3. Implémenter les améliorations ciblées

Actions immédiates :

  • Résoudre les problèmes critiques : résoudre tous les problèmes persistants entraînant une violation du SLO
  • Optimiser les performances : ajuster les requêtes de base de données, améliorer la mise en cache, optimiser l'utilisation des ressources
  • Améliorer monitoring: Ajoutez une observabilité plus détaillée pour identifier les problèmes plus rapidement
  • Améliorer la réponse aux incident : Rationaliser les processus pour réduire le Délai moyen de résolution (MTTR)

Améliorations stratégiques :

  • Améliorations de l'architecture : mettre en œuvre la redondance, améliorer l'évolutivité, réduire la dépendance
  • Automatisation : déploiement d'auto-scaling, système d'auto-réparation, procédures de récupération automatisées
  • Pratiques de qualité : améliorer les tests, mettre en œuvre le déploiement Canary, améliorer code review
  • Gestion des capacités : meilleure planification des ressources, mise à l'échelle proactive, tests de performances

4. Optimiser les SLO et les SLI

Examiner la pertinence du SLO :

  • Alignement commercial : garantir que les SLO reflètent les exigences commerciales réelles et les attentes des utilisateurs
  • Réalisabilité : vérifier que les SLO sont réalistes compte tenu des contraintes technologiques et de ressources actuelles
  • Mesurabilité : Confirmer que les SLI capturent avec précision l'expérience utilisateur mesurée

Affiner les définitions SLI :

  • Focus utilisateur : garantir que les SLI mesurent ce que l'utilisateur ressent réellement, et pas seulement des mesures techniques
  • Actionnabilité : vérifier que la violation SLI conduit à des opportunités d'amélioration claires et exploitables
  • Sensibilité : ajustez le seuil SLI pour détecter les problèmes significatifs sans bruit excessif

Mesurer l'amélioration

Suivez ces métriques pour vérifier les améliorations de votre niveau de service :

  • Taux de conformité SLO : pourcentage de services atteignant leur objectif de fiabilité de 95 %
  • Utilisation du budget d'erreur : efficacité avec laquelle les services utilisent leur budget d'erreur autorisé
  • Vitesse d'amélioration : taux auquel les services peu performants atteignent la conformité
  • Corrélation de l'impact sur l'entreprise : relation entre l'atteinte des SLO et les indicateurs commerciaux (satisfaction des clients, chiffre d'affaires, taux de désabonnement)

Scénarios et solutions courants

SLO constamment manquants malgré les efforts :

  • Problème : Certains services semblent incapables d'atteindre leur objectif de fiabilité
  • Solution : réévaluer l’objectif SLO pour en vérifier le réalisme, étudier les problèmes d’architecture fondamentaux ou envisager d’accepter une fiabilité moindre pour les services moins critiques.

Violation du SLO lors du déploiement des fenêtres :

  • Problème : les sorties provoquent systématiquement des violations de SLO
  • Solution : mettre en œuvre un déploiement bleu-vert, améliorer les pratiques de test, utiliser des versions canaries ou ajuster les SLO pour tenir compte de la maintenance planifiée

Échecs de dépendances externes affectant les SLO :

  • Problème : des services tiers provoquent une violation du SLO hors de votre contrôle
  • Solution : implémenter un disjoncteur, des mécanismes de secours, des fournisseurs redondants ou exclure les défaillances de dépendance externe des calculs SLO

Violation saisonnière ou cyclique du SLO :

  • Problème : les services ne respectent pas les SLO pendant les périodes de pointe prévisibles
  • Solution : mettre en œuvre une mise à l'échelle proactive, une planification des capacités ou créer des objectifs SLO basés sur le temps qui tiennent compte des modèles de trafic connus

Gestion avancée des niveaux de service

Politiques budgétaires erronées

Établir des politiques claires :

  • Réponse à l'épuisement du budget : que se passe-t-il lorsque les services dépassent leur budget d'erreur ?
  • Gel du déploiement : quand interrompre une sortie en raison de problèmes de fiabilité
  • Allocation des ressources : comment prioriser le travail de fiabilité par rapport au développement des fonctionnalités

Mettre en œuvre le suivi budgétaire :

  • Monitoring en temps réel : suivre la consommation budgétaire d'erreur tout au long des périodes de mesure
  • Alerte prédictive : avertissez lorsque les services sont sur le point d'épuiser leurs budgets
  • Analyse historique : tirer les leçons des modèles passés d'utilisation du budget

Mesure de l'impact sur l'entreprise

Connectez les SLO aux résultats de l'entreprise :

  • Satisfaction des clients : corréler l'atteinte des SLO avec les enquêtes et les commentaires des clients
  • Impact sur les revenus : mesurez l'impact de la violation des SLO sur les ventes, les conversions et la fidélisation des clients.
  • Efficacité opérationnelle : suivez la manière dont les services fiables réduisent la charge de support et les coûts opérationnels

Démontrer le retour sur investissement :

  • Coût des temps d'arrêt : calculer l'impact commercial d'une violation des SLO
  • Justification de l'investissement : utiliser les données SLO pour soutenir l'investissement d'amélioration de la fiabilité
  • Rapports aux parties prenantes : fournir aux dirigeants des indicateurs de fiabilité clairs liés à la valeur commerciale

Pratiques d'amélioration continue

Cycles réguliers de révision des SLO :

  • Évaluations trimestrielles : évaluer la pertinence des SLO et les taux de réussite
  • Planification annuelle : définir des objectifs de fiabilité alignés sur la stratégie commerciale
  • Examens post-incident : mettre à jour les SLO en fonction des leçons tirées des pannes

Intégration culturelle :

  • Responsabilité de l'équipe : intégrer l'atteinte des SLO aux objectifs de l'équipe et aux évaluations de performance.
  • Collaboration interfonctionnelle : garantir que les équipes de développement, d'exploitation et commerciales s'alignent sur les objectifs de fiabilité
  • Plaidoyer pour la fiabilité : défendre la fiabilité comme une caractéristique dans toute l'organisation

Construire la maturité organisationnelle

Rapports exécutifs

Créer un dashboard axé sur l’entreprise :

  • Aperçu de l'état du service : vue d'ensemble de tous les statuts SLO critiques des services
  • Analyse des tendances : montrer les modèles d'amélioration ou de dégradation au fil du temps
  • Mesures d'impact sur l'entreprise : connectez la fiabilité aux clients et aux mesures de revenus

Communication régulière avec les parties prenantes :

  • Rapports mensuels de fiabilité : résumé des performances et des initiatives d'amélioration des SLO
  • Analyse d'impact des incidents : contexte commercial des principaux problèmes de fiabilité
  • Recommandations d'investissement : propositions fondées sur les données pour améliorer la fiabilité

Développement d'équipe

Développer une expertise en fiabilité :

  • Formation aux pratiques SRE : Sensibiliser les équipes aux budgets d'erreur, à la gestion des SLO et à l'ingénierie de fiabilité
  • Partage des connaissances entre équipes : partagez les pratiques de fiabilité réussies au sein de l'organisation
  • Apprentissage externe : assister à des conférences, interagir avec les communautés de fiabilité du secteur

Établir une culture de fiabilité :

  • La fiabilité en tant que fonctionnalité : traitez la fiabilité avec la même priorité qu'une nouvelle fonctionnalité
  • Responsabilité partagée : faire de la fiabilité la responsabilité de tous, et pas seulement des opérations
  • Célébration des victoires en matière de fiabilité : récompenser les équipes et les individus qui améliorent la fiabilité du service

Considérations importantes

  • Équilibrez la fiabilité avec l'innovation : ne laissez pas la fiabilité perfectionniste cibler le développement lent des produits
  • Concentrez-vous sur l'impact utilisateur : donnez la priorité aux SLO qui affectent réellement l'expérience client plutôt qu'aux mesures techniques internes.
  • Approche évolutive : permettre aux SLO d'évoluer à mesure que les services mûrissent et que les exigences commerciales changent
  • Intégration des outils et des processus : garantir que la gestion des SLO s'intègre au flux de travail de développement et d'exploitation existant

Prochaines étapes

  1. Action immédiate : traiter tous les services actuellement non conformes aux SLO par une analyse des causes profondes et des améliorations ciblées
  2. Optimisation des processus : établir des cycles réguliers de révision des SLO et des pratiques de gestion du budget d'erreur
  3. Intégration commerciale : connectez l'atteinte du SLO aux mesures commerciales et aux rapports des parties prenantes
  4. Développement culturel : renforcer l'engagement organisationnel envers la fiabilité en tant qu'avantage concurrentiel
  5. Évolution continue : Évaluez et améliorez régulièrement vos pratiques de Gestion des niveaux de service

Pour des conseils complets sur la Gestion des niveaux de service avancée, consultez notre guide de mise en œuvre de la Gestion des niveaux de service et la documentationSRE bonnes pratiques.

Droits d'auteur © 2025 New Relic Inc.

This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.