• /
  • EnglishEspañolFrançais日本語한국어Português
  • Se connecterDémarrer

Cette traduction automatique est fournie pour votre commodité.

En cas d'incohérence entre la version anglaise et la version traduite, la version anglaise prévaudra. Veuillez visiter cette page pour plus d'informations.

Créer un problème

Niveau 2 - Alertes, règle du dashboard du temps moyen de clôture

Les alertes indiquent le temps de fermeture des mesures de l'efficacité avec laquelle votre équipe résout les incidents depuis leur ouverture jusqu'à leur fermeture. Cette métrique indique l'efficacité de la réponse de votre équipe aux incidentet permet d'identifier les domaines à améliorer dans vos processus de résolution.

À propos de cette règle de dashboard

Cette règle d'alerte indiquant le délai de fermeture fait partie du niveau 2 (proactif) du modèle de maturité des temps de disponibilité de l'entreprise. Il évalue la rapidité avec laquelle votre équipe peut diagnostiquer et résoudre les incidents, reflétant la maturité de vos processus de gestion incident .

Pourquoi cela est important : une résolution plus rapide incident réduit l'impact sur les clients, minimise les perturbations de l'activité et indique des procédures monitoring et de réponse efficaces. Les équipes qui résolvent systématiquement les incidents rapidement font preuve d’excellence opérationnelle.

Comment fonctionne cette règle

Cette règle analyse le temps écoulé entre l'ouverture d'un incident et sa fermeture, en calculant le temps moyen de fermeture de tous les incidents de votre compte. Il mesure l'efficacité de vos processus de réponse aux incidentet de résolution.

Comprendre votre score

  • Pass (Vert) : Le temps moyen de résolution incident est de 30 minutes ou moins
  • Échec (rouge) : le temps moyen de résolution incident dépasse 30 minutes
  • Objectif : résolution cohérente incident dans les 30 minutes pour la plupart des alertes

Ce que cela signifie :

  • Score de réussite : Votre équipe dispose de processus de réponse aux incidents efficaces et peut rapidement diagnostiquer et résoudre les problèmes.
  • Score d'échec : l'incident prend trop de temps à résoudre, ce qui indique potentiellement des inefficacités de processus, des diagnostics complexes ou des outils inadéquats

Comment améliorer les délais de résolution incident

Si votre score indique une résolution lente incident , suivez ces étapes pour optimiser votre processus de gestion incident :

1. Analyser les schémas incident actuels

  1. Identifier les incidents à résolution lente : examiner les types d’incidents qui prennent systématiquement plus de 30 minutes
  2. Examiner les causes courantes : rechercher des modèles dans les types incident , le système affecté ou l'heure de l'incident
  3. Examiner les étapes de résolution : documenter les actions que les équipes entreprennent généralement pour résoudre différents types incident

2. Optimiser la qualité et le contexte des alertes

Améliorer les informations d’alerte :

  • Ajoutez du contexte aux alertes : incluez des liens pertinents vers les métadonnées, le dashboard et runbook dans la notification d'alerte
  • Utilisez des noms d'alerte descriptifs : faites en sorte que les titres d'alerte indiquent clairement le problème et le système affecté
  • Inclure des comparaisons de base de référence : afficher les valeurs normales par rapport aux valeurs actuelles pour faciliter une évaluation rapide

Améliorer le routage des alertes :

  • Envoyez des alertes aux bonnes équipes : assurez-vous que les alertes parviennent aux personnes qui peuvent réellement résoudre le problème
  • Utiliser un routage intelligent : acheminer différents types d'alertes vers les spécialistes appropriés (base de données, frontend, infrastructure)
  • Fournir des voies d'escalade : des procédures claires lorsque les premiers intervenants ne parviennent pas à résoudre les problèmes

3. Rationaliser les processus de diagnostic

Créez des runbooks efficaces :

  • Documenter les problèmes courants : procédures de résolution étape par étape pour les problèmes fréquents
  • Inclure des étapes de dépannage : des flux de diagnostic logiques qui réduisent le temps d'investigation
  • Lien vers les outils pertinents : accès direct aux dashboards, aux logs et aux utilitaires de diagnostic

Améliorer l’accès à l’outillage :

  • Centraliser les données monitoring : garantir que les intervenants peuvent accéder rapidement à toutes les informations pertinentes
  • Utiliser un dashboard unifié : créer des vues spécifiques à incidentqui affichent toutes les mesures pertinentes
  • Automatisez les contrôles courants : réduisez les étapes de diagnostic manuel grâce aux contrôles de santé automatisés

4. Améliorer les capacités de réponse de l'équipe

Améliorer la préparation de l’équipe :

  • Former les membres de l'équipe de manière croisée : s'assurer que plusieurs personnes peuvent gérer différents types d'incidents
  • Procédures d'escalade des documents : des voies claires pour les cas où les problèmes nécessitent une expertise supplémentaire
  • Mener une formation à la réponse aux incidents : séances d'entraînement régulières pour des scénarios courants

Optimiser le flux de travail de réponse :

  • Normaliser la communication : utiliser des canaux et des formats cohérents pour les mises à jour incident
  • Automatisez les réponses de routine : utilisez l'automatisation pour les étapes de résolution courantes
  • Suivi de la progression de la résolution : visibilité claire sur qui travaille sur quoi et sur l'état actuel

Mesurer l'amélioration

Suivez ces mesures pour vérifier vos améliorations en matière de résolution incident :

  • Délai moyen de clôture (MTTC) : cibler des délais de résolution cohérents inférieurs à 30 minutes
  • Distribution du temps de résolution : monitorer la répartition des temps de résolution pour identifier la valeur hors norme
  • Taux de résolution à la première intervention : pourcentage d'incidents résolus sans réouverture
  • Fréquence d'escalade : à quelle fréquence les incidents nécessitent une expertise ou des ressources supplémentaires

Scénarios et solutions courants

Incident complexe nécessitant une enquête approfondie :

  • Problème : Certains problèmes nécessitent intrinsèquement un temps de diagnostic plus long
  • Solution : Séparez les incidents complexes dans leur propre catégorie et définissez des attentes SLA différentes, ou implémentez des accusés de réception de résolution partielle.

Incident en dehors des heures de travail :

  • Problème : les délais de résolution sont plus lents lorsque moins d'experts sont disponibles
  • Solution : Améliorer les procédures d'astreinte, créer de meilleurs chemins d'escalade ou améliorer les outils de diagnostic automatisés

Incident similaire répété :

  • Problème : Les équipes passent du temps à résoudre les mêmes types de problèmes
  • Solution : Investissez dans des correctifs permanents pour les problèmes récurrents, créez un script de résolution automatisé ou améliorez monitoring pour identifier les causes profondes

Contexte d'alerte médiocre :

  • Problème : les équipes passent trop de temps à comprendre ce qui ne va pas réellement
  • Solution : Améliorer les descriptions des alertes, inclure un dashboard pertinent et fournir des liens directs vers le système concerné

Comprendre l'objectif de 30 minutes

L'objectif de 30 minutes représente un équilibre entre une enquête approfondie et une réponse rapide :

Pourquoi 30 minutes :

  • Impact sur les clients : la plupart des clients constatent une dégradation du service dans ce délai
  • Impact sur l'entreprise : les incidents plus longs entraînent généralement des coûts commerciaux exponentiellement plus élevés
  • Efficacité de l'équipe : indique des processus bien réglés et une préparation adéquate

Quand ajuster la cible :

  • Cible inférieure (15-20 minutes) : Services à haute disponibilité avec SLA strict
  • Cible supérieure (45-60 minutes) : Système complexe nécessitant une investigation approfondie
  • Différentes cibles selon la gravité : les incidents critiques nécessitent une résolution plus rapide que les avertissements

Stratégies d'optimisation avancées

Catégorisation des incidents

Catégoriser par complexité de résolution :

  • Solutions rapides : redémarrage simple ou modifications configuration (cible : moins de 10 minutes)
  • Diagnostic standard : procédures de dépannage typiques (cible : 15-30 minutes)
  • Enquêtes complexes : Analyse technique approfondie requise (durée : 45 à 60 minutes)

Opportunités d'automatisation

Automatiser les réponses de routine :

  • Système d'auto-réparation : redémarrage ou basculement automatique pour les problèmes courants
  • Automatisation du diagnostic : collecte automatique des logs et des métriques pertinents
  • Automatisation de la communication : mises à jour automatiques du statut pour les parties prenantes

Optimisation des processus

Mettre en œuvre les commandants d’incident :

  • Coordinateurs dédiés : Affectez des personnes spécifiques pour gérer workflow incident
  • Communication claire : Point de contact unique pour les mises à jour et les décisions
  • Allocation des ressources : s'assurer que les bonnes personnes travaillent sur les bons problèmes

Considérations importantes

  • Équilibrez la vitesse avec la précision : ne sacrifiez pas une enquête appropriée pour des délais de clôture plus rapides
  • Tenez compte de la gravité incident : différents types d'incidents peuvent nécessiter des délais de résolution différents.
  • Tenir compte du contexte commercial : un incident survenu le week-end peut avoir une urgence différente de celle des problèmes survenus en semaine.
  • Mesurer une clôture significative : s'assurer que les incidents sont réellement résolus, et pas seulement clos

Prochaines étapes

  1. Action immédiate : analysez vos types incident actuels les plus lents à résoudre et mettez en œuvre des solutions rapides.
  2. Amélioration des processus : développer des procédures et des manuels d'exécution de réponse aux incidents standardisés
  3. Amélioration des outils : Améliorer le contexte d'alerte et l'accès aux outils de diagnostic
  4. Développement d'équipe : Investissez dans la formation et les capacités interfonctionnelles de réponse aux incidents
  5. Passer au niveau 3 : une fois la réponse aux incidents optimisée, concentrez-vous sur l'atteinte du niveau de service

Pour obtenir des conseils complets sur l’optimisation de la gestion incident , consultez notre guide de mise en œuvre de la gestion de la qualité des alertes.

Droits d'auteur © 2025 New Relic Inc.

This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.