La couverture du niveau de service mesure si vos services critiques ont défini des SLI (SLI) qui suivent les performances du point de vue de votre utilisateur. Les SLI vous aident à comprendre l'état du service, à définir des objectifs de fiabilité et à prendre des décisions data-driven concernant les améliorations.
À propos de cette règle de dashboard
Cette règle de couverture de niveau de service fait partie du niveau 2 (proactif) du modèle de maturité des temps de disponibilité des entreprises. Il évalue si vos services ont des SLI définis, indiquant une approche proactive de la gestion de la fiabilité.
Pourquoi cela est important : les SLI fournissent une mesure objective de la qualité du service du point de vue de l'utilisateur. Sans SLI, les équipes s’appuient sur des évaluations subjectives de l’état du service et peuvent manquer des problèmes de performances qui ont un impact sur l’expérience utilisateur.
Comment fonctionne cette règle
Cette règle examine la dernière récolte d'entités pour déterminer quelles entités ont un SLI (SLI) défini. Il évalue toutes les entités de monitoring qui pourraient bénéficier d'une mesure du niveau de service.
Comprendre votre score
- Pass (Vert) : les services critiques ont des SLI définis pour mesurer les performances orientées utilisateur
- Échec (rouge) : les services importants manquent de SLI, ce qui rend difficile la mesure objective de la qualité du service
- Cible : Couverture SLI complète pour les services critiques pour l'entreprise et les utilisateurs
Ce que cela signifie :
- Score de réussite : votre équipe peut mesurer la fiabilité du service du point de vue de l'utilisateur et prendre des décisions d'amélioration data-driven
- Score d'échec : vous manquez de mesures objectives de la qualité du service, ce qui peut entraîner des angles morts dans la performance du service.
Comprendre les indicateurs de niveau de service (SLI)
Les SLI sont des mesures spécifiques qui mesurent les performances du service du point de vue de l'utilisateur. Les bons SLI devraient être :
Axé sur l'utilisateur
- Mesurer quelle expérience utilisateur : temps de réponse, taux d'erreur, disponibilité
- Refléter la valeur commerciale : Métriques qui impactent directement la satisfaction des clients et les résultats de l'entreprise
- Observable et mesurable : Basé sur des données télémétriques réelles, et non sur des estimations synthétiques
Types SLI courants
Disponibilité SLI :
- Définition : Pourcentage de requests aboutissant à des réponses positives
- Exemple : 99,9 % des requests HTTP renvoient des codes d’état sans erreur
- Idéal pour : les services critiques destinés aux utilisateurs, les API et les sites Web
SLI de latence :
- Définition : Pourcentage de requests traitées dans un délai acceptable seuil
- Exemple : 95 % des requests sont traitées en 200 ms
- Idéal pour : applications interactives, services en temps réel, applications mobiles
SLI de qualité :
- Définition : Pourcentage de produits qui répondent aux normes de qualité
- Exemple : 99 % des résultats de recherche renvoient du contenu pertinent
- Bon pour : traitement des données, diffusion de contenu, système de recommandation
Fraîcheur SLIs :
- Définition : Pourcentage de données répondant aux exigences de récence
- Exemple : 95 % des données dashboard datent de moins de 5 minutes
- Bon pour : plateforme d'analyse, système de reporting, dashboard de monitoring
Comment mettre en œuvre la couverture du niveau de service
Suivez ces étapes pour établir une couverture SLI complète :
1. Identifier les services nécessitant des SLI
Prioriser en fonction de l’impact sur l’entreprise :
- Services orientés clients : applications qui servent directement l'utilisateur final
- Système critique pour les revenus : services qui ont un impact sur les revenus de l'entreprise en cas de défaillance
- Services de dépendance : services internes prenant en charge plusieurs applications destinées aux clients
- Système critique de conformité : services requis pour la conformité réglementaire ou de sécurité
Tenez compte des caractéristiques du service :
- Complexité : Services à composants multiples ou dépendance
- Attentes des utilisateurs : services dont la performance affecte directement l'expérience utilisateur
- Criticité de l'entreprise : services qui soutiennent les fonctions essentielles de l'entreprise
- Fréquence de changement : Services fréquemment mis à jour ou modifiés
2. Définir des SLI significatifs
Choisissez les bonnes métriques :
- Commencez par les parcours utilisateurs : cartographiez les chemins critiques des utilisateurs et identifiez les points de mesure
- Concentrez-vous sur les résultats : mesurez ce qui compte pour l'utilisateur, pas seulement les mesures techniques
- Utilisez les données existantes : exploitez la télémétrie que vous collectez déjà
- Restez simple : commencez par des SLI de disponibilité et de latence de base
Définir des fenêtres de mesure appropriées :
- Fenêtres courtes (1 à 5 minutes) : pour les services en temps réel nécessitant une réponse immédiate
- Fenêtres moyennes (1 à 24 heures) : pour la plupart des applications Web et des API
- Fenêtres longues (hebdomadaires/mensuelles) : pour le traitement par lots ou les services analytiques
3. Mettre en œuvre les SLI de manière systématique
Utilisez la fonctionnalité SLI de New Relic :
- Accéder au niveau de service : accédez à la section niveau de service dans New Relic
- Sélectionnez votre service : Choisissez l’entité pour laquelle vous souhaitez créer un SLI
- Définir les critères SLI : définir les métriques et les seuils spécifiques
- Configurer les alertes : configurer une notification lorsque les SLI ne sont pas respectés
Bonnes pratiques de mise en œuvre :
- Commencez petit : commencez par un ou deux services essentiels
- Itérer et améliorer : affiner les définitions SLI en fonction des données du monde réel
- Documenter les décisions : conserver des traces des raisons pour lesquelles des SLI spécifiques ont été choisis
- Formez votre équipe : assurez-vous que tout le monde comprend comment interpréter et agir sur les données SLI
Mesurer l'amélioration
Suivez ces métriques pour vérifier les améliorations de votre niveau de couverture de service :
- Pourcentage de couvertureSLI : monitoring de l'IA pour une couverture à 100 % des services critiques pour l'entreprise
- Pertinence des SLI : garantir que les SLI sont en corrélation avec l'expérience utilisateur réelle et l'impact commercial
- Actionnabilité : Mesurer la fréquence à laquelle les données SLI conduisent à des améliorations significatives
- Adoption par l'équipe : suivez la fréquence à laquelle les équipes font référence aux données SLI dans la prise de décision
Scénarios et solutions courants
Trop de services à couvrir :
- Problème : les portefeuilles de services volumineux rendent la couverture complète écrasante
- Solution : Commencez par des services de niveau 1 et étendez progressivement la couverture en fonction de la priorité de l'entreprise
Difficulté à définir des métriques axées sur l'utilisateur :
- Problème : les services internes n'ont pas de métriques évidentes pour les utilisateurs
- Solution : définir les SLI en fonction de la dépendance des services en aval et de la satisfaction des clients internes
Services hérités sans instrumentation moderne :
- Problème : les applications plus anciennes peuvent manquer de télémétrie détaillée pour des SLI significatifs
- Solution : Commencez par des SLI de disponibilité de base en utilisant des métriques du monitoring synthétique ou basées sur les logs
Services avec des exigences de performance variables :
- Problème : certains services ont des attentes de performances différentes à différents moments
- Solution : utilisez des SLI basés sur le temps ou créez des SLI distincts pour différents modèles d’utilisation
Stratégies SLI avancées
SLI multidimensionnels
- Segmentation géographique : Différents SLI pour différentes régions
- Segmentation des utilisateurs : SLI distincts pour différents types d'utilisateurs (gratuit ou payant, mobile ou Web)
- Basé sur les fonctionnalités : SLI pour des parcours de fonctionnalités ou de utilisateurs spécifiques
SLI composites
- Mesure de bout en bout : SLI couvrant plusieurs services pour des parcours utilisateur complets
- Moyennes pondérées : combinez plusieurs indicateurs en fonction de l'importance de l'entreprise
- Conscience des dépendances : SLI qui tiennent compte de la santé des services en amont
SLI adaptatifs
- Seuil dynamique : SLI qui s'ajustent en fonction des schémas de trafic ou des variations saisonnières
- Système d'apprentissage : des SLI qui évoluent en fonction de l'analyse du comportement des utilisateurs
- Sensible au contexte : différentes cibles SLI pour différents contextes opérationnels
Bâtir un programme de Gestion des niveaux de service
Établir une gouvernance
- Normes SLI : créer des normes à l'échelle de l'organisation pour la définition et la mesure du SLI
- Processus de révision : évaluation régulière de la pertinence et de l'exactitude du SLI
- Modèle de propriété : Responsabilité claire pour le maintien et l'action sur les SLI
Permettre l'adoption par l'équipe
- Programmes de formation : Sensibiliser les équipes aux concepts et à la mise en œuvre du SLI
- Outils et automatisation : Fournir des outils faciles à utiliser pour la création et la gestion de SLI
- Réussites : Partagez des exemples de la manière dont les SLI ont généré des améliorations
Amélioration continue
- Cycles d'examen réguliers : évaluation et affinement trimestriels ou semestriels du SLI
- Boucles de rétroaction : Mécanismes pour capturer lorsque les SLI ne reflètent pas la véritable expérience utilisateur
- Stratégie d'évolution : planifier la manière dont les SLI évolueront à mesure que les services et les besoins de l'entreprise évolueront
Considérations importantes
- La qualité plutôt que la quantité : se concentrer sur les SLI significatifs plutôt que sur la maximisation des chiffres de couverture
- Point de vue utilisateur : donnez toujours la priorité à l'expérience utilisateur plutôt qu'aux mesures techniques internes
- Alignement commercial : s'assurer que les SLI soutiennent les objectifs commerciaux et les objectifs de satisfaction des clients
- Informations exploitables détaillées : les SLI devraient conduire à des actions concrètes lorsque les seuils ne sont pas atteints
Prochaines étapes
- Action immédiate : identifiez vos services les plus critiques et créez des SLI de disponibilité de base
- Élargir la couverture : ajouter progressivement des SLI pour des services supplémentaires en fonction de la priorité de l'entreprise
- Affiner les définitions : améliorer la précision du SLI en fonction de l'utilisation et des commentaires dans le monde réel
- Définir des objectifs : progresser vers la définition des objectifs de niveau de service (SLO) en fonction de vos SLI
- Passer au niveau 3 : une fois la couverture SLI établie, concentrez-vous sur l'atteinte du niveau de service
Pour des conseils complets sur la Gestion des niveaux de service, consultez notre guide de mise en œuvre de la Gestion des niveaux de service.