La cobertura del nivel de servicio mide si sus servicios críticos tienen indicadores de nivel de servicio (SLI) definidos que rastrean el rendimiento desde la perspectiva de su usuario. Los SLI lo ayudan a comprender el estado del servicio, establecer objetivos de confiabilidad y tomar decisiones basadas en datos sobre mejoras.
Acerca de esta regla del cuadro de mando
Esta regla de cobertura de nivel de servicio es parte del Nivel 2 (Proactivo) en el modelo de madurez del tiempo de actividad empresarial. Evalúa si sus servicios tienen SLI definidos, lo que indica un enfoque proactivo para la gestión de la confiabilidad.
Por qué esto es importante: Los SLI proporcionan una medición objetiva de la calidad del servicio desde la perspectiva del usuario. Sin SLI, los equipos dependen de evaluaciones subjetivas del estado del servicio y pueden pasar por alto problemas de rendimiento que afectan la experiencia del usuario.
Cómo funciona esta regla
Esta regla examina la última cosecha de entidades para determinar qué entidades tienen indicadores de nivel de servicio (SLI) definidos. Evalúa todas las entidades monitoreadas que podrían beneficiarse de la medición del nivel de servicio.
Entendiendo tu puntaje
- Aprobado (Verde): Los servicios críticos tienen SLI definidos para medir el rendimiento de cara al usuario
- Error (rojo): Los servicios importantes carecen de SLI, lo que dificulta la medición objetiva de la calidad del servicio.
- Objetivo: Cobertura SLI completa para servicios críticos para el negocio y orientados al usuario.
Qué significa esto:
- Puntaje de aprobación: Su equipo puede medir la confiabilidad del servicio desde la perspectiva del usuario y tomar decisiones de mejora impulsadas por datos.
- Puntaje reprobatoria: le faltan medidas objetivas de la calidad del servicio, lo que puede generar puntos ciegos en el rendimiento del servicio.
Comprensión de los indicadores de nivel de servicio (SLI)
Los SLI son métricas específicas que miden el rendimiento del servicio desde la perspectiva del usuario. Los buenos SLI deberían ser:
Centrado en el usuario
- Mide la experiencia del usuario: tiempo de respuesta, tasa de errores, disponibilidad
- Reflejar valor de negocio: métricas que impactan directamente en la satisfacción de los clientes y los resultados comerciales
- Observable y medible: Basado en telemetry data reales, no en estimaciones sintéticas
Tipos comunes de SLI
Disponibilidad SLIs:
- Definición: Porcentaje de requests que resultan en respuestas exitosas
- Ejemplo: el 99,9% de requests HTTP devuelven códigos de estado que no son errores
- Ideal para: servicios críticos de cara al usuario, API y sitios web.
SLI de latencia:
- Definición: Porcentaje de requests completadas dentro del umbral de tiempo aceptable
- Ejemplo: el 95% de requests se completan en 200 ms
- Bueno para: Aplicación interactiva, servicios de tiempo real, aplicaciones móviles.
SLI de calidad:
- Definición: Porcentaje de productos que cumplen con los estándares de calidad
- Ejemplo: El 99% de los resultados de búsqueda devuelven contenido relevante
- Ideal para: procesamiento de datos, distribución de contenido, sistemas de recomendación.
SLI de frescura:
- Definición: Porcentaje de datos que cumplen con los requisitos de actualidad
- Ejemplo: El 95% de los datos dashboard tienen menos de 5 minutos de antigüedad
- Ideal para: Plataforma de análisis, sistemas de reportes, panel de monitoreo
Cómo implementar la cobertura de nivel de servicio
Siga estos pasos para establecer una cobertura SLI integral:
1. Identificar los servicios que requieren SLI
Priorizar por impacto empresarial:
- Servicios de cara al cliente: aplicación que atiende directamente al usuario final.
- Sistemas críticos para los ingresos: servicios que impactan los ingresos de la compañía si fallan
- Servicios de dependencia: servicios internos que admiten múltiples aplicaciones orientadas al cliente.
- Sistemas críticos para el cumplimiento: Servicios necesarios para el cumplimiento normativo o de seguridad
Considere las características del servicio:
- Complejidad: Servicios con múltiples componentes o dependencia
- Expectativas del usuario: Servicios donde el rendimiento afecta directamente la experiencia del usuario
- Criticidad empresarial: Servicios que respaldan las funciones centrales del negocio
- Frecuencia de cambio: Servicios que se actualizan o modifican con frecuencia
2. Definir SLI significativos
Elige la métrica correcta:
- Comience con los recorridos de los usuarios: mapee las rutas críticas de los usuarios e identifique los puntos de medición
- Centrar en los resultados: medir lo que le importa al usuario, no sólo las métricas técnicas
- Emplee los datos existentes: aproveche la telemetría que ya está recopilando
- Mantenlo simple: comienza con SLI de latencia y disponibilidad básicas
Establecer ventanas de medición apropiadas:
- Ventanas cortas (1-5 minutos): Para servicios en tiempo real que requieren una respuesta inmediata
- Ventanas medianas (1-24 horas): para la mayoría de aplicaciones sitio web y API
- Ventanas largas (semanales/mensuales): Para procesamiento por lotes o servicios analíticos
3. Implementar SLIs sistemáticamente
Emplee la función SLI de New Relic:
- Navegar al nivel de servicio: Accede a la sección nivel de servicio en New Relic
- Seleccione su servicio: Elija la entidad para la que desea crear un SLI
- Definir criterios SLI: Configurar la métrica y el umbral específicos
- Configurar alertas: configurar notificaciones cuando no se cumplen los SLI
mejores prácticas para la implementación:
- Empiece poco a poco: comience con uno o dos servicios críticos
- Iterar y mejorar: refinar las definiciones de SLI en función de datos del mundo real
- Decisiones sobre documentos: mantenga registros de por qué se eligieron SLI específicos
- Capacite a su equipo: cerciorar de que todos comprendan cómo interpretar y actuar sobre los datos de SLI
Medición de la mejora
Realice un seguimiento de estas métricas para verificar las mejoras en su nivel de cobertura de servicio:
- Porcentaje de cobertura SLI: monitoreo de IA para una cobertura del 100% de los servicios críticos para el negocio
- Relevancia de SLI: garantizar que los SLI se correlacionen con la experiencia real del usuario y el impacto en el negocio
- Capacidad de acción: medir con qué frecuencia los datos de SLI conducen a mejoras significativas
- Adopción del equipo: Realice un seguimiento de la frecuencia con la que los equipos consultan los datos de SLI en la toma de decisiones
Escenarios y soluciones comunes
Demasiados servicios para cubrir:
- Problema: Las grandes carteras de servicios hacen que la cobertura completa sea abrumadora
- Solución: comenzar con servicios de nivel 1 y ampliar la cobertura gradualmente según la prioridad del negocio.
Dificultad para definir métricas centradas en el usuario:
- Problema: Los servicios internos no tienen métricas obvias para el usuario
- Solución: Definir SLIs basados en la dependencia del servicio downstream y la satisfacción de los clientes internos
Servicios heredados sin instrumentación moderna:
- Problema: Es posible que una aplicación anterior carezca de telemetría detallada para SLI significativos
- Solución: Comenzar con SLI de disponibilidad básica empleando métricas de monitoreo sintético o basada en logs
Servicios con requisitos de rendimiento variables:
- Problema: Algunos servicios tienen diferentes expectativas de rendimiento en distintos momentos.
- Solución: emplee SLI basados en tiempo o cree SLI separados para diferentes patrones de uso
Estrategias SLI avanzadas
SLI multidimensionales
- Segmentación geográfica: diferentes SLI para diferentes regiones
- Segmentación de usuarios: SLI separados para diferentes tipos de usuarios (gratis vs. pagos, móviles vs. sitio web)
- Basado en características: SLI para características específicas o recorridos de usuario.
SLI compuestos
- Medición de extremo a extremo: SLI que abarcan múltiples servicios para recorridos de usuario completos
- Promedios ponderados: combine múltiples métricas según la importancia del negocio
- Consciente de la dependencia: SLI que tienen en cuenta el estado del servicio ascendente
SLI adaptativos
- Umbral dinámico: SLI que se ajustan en función de los patrones de tráfico o las variaciones estacionales
- Sistemas de aprendizaje: SLI que evolucionan en función del análisis del comportamiento del usuario
- Consciente del contexto: diferentes objetivos SLI para diferentes contextos operativos
Construyendo un programa de administración a nivel de servicio
Establecer la gobernanza
- Estándares SLI: Crear estándares para toda la organización para la definición y medición de SLI
- Procesos de revisión: evaluación periódica de la relevancia y precisión del SLI
- Modelo de propiedad: Responsabilidad clara de mantener y actuar sobre las SLI
Habilitar la adopción por parte del equipo
- Programas de capacitación: Capacitar a los equipos sobre los conceptos y la implementación de SLI.
- Herramientas y automatización: proporcione herramientas fáciles de usar para la creación y gestión de SLI
- Historias de éxito: comparta ejemplos de cómo las SLI impulsaron mejoras
Mejora continua
- Ciclos de revisión regulares: evaluación y refinamiento trimestral o semestral del SLI
- Bucle de retroalimentación: Mecanismos para capturar cuando los SLI no reflejan la experiencia real del usuario
- Estrategia de evolución: Planee cómo madurarán las SLI a medida que cambien los servicios y las necesidades comerciales.
Consideraciones importantes
- Calidad sobre cantidad: concentrar en SLI significativos en lugar de maximizar los números de cobertura
- Perspectiva del usuario: Priorizar siempre la experiencia del usuario sobre la métrica técnica interna.
- Alineación empresarial: garantizar que los SLI respalden los objetivos comerciales y las metas de satisfacción del cliente
- Información valiosa y procesable: Los SLI deben conducir a acciones concretas cuando no se cumplen los umbrales
Próximos pasos
- Acción inmediata: Identifique sus servicios más críticos y cree SLI de disponibilidad básica
- Ampliar la cobertura: agregue gradualmente SLI para servicios adicionales según la prioridad comercial
- Refinar definiciones: Mejorar la precisión de SLI en función del uso y los comentarios en el mundo real.
- Establecer objetivos: avanzar hacia la definición de objetivos de nivel de servicio (SLO) en función de sus SLI
- Avanzar al nivel 3: una vez establecida la cobertura SLI, centrar en el logro del nivel de servicio
Para obtener orientación completa sobre administración a nivel de servicio, consulte nuestra guía de implementación de administración a nivel de servicio.