• /
  • EnglishEspañolFrançais日本語한국어Português
  • Inicia sesiónComenzar ahora

Te ofrecemos esta traducción automática para facilitar la lectura.

En caso de que haya discrepancias entre la versión en inglés y la versión traducida, se entiende que prevalece la versión en inglés. Visita esta página para obtener más información.

Crea una propuesta

Nivel 3 - Regla del cuadro de mando para el logro del nivel de servicio

El logro del nivel de servicio mide si sus servicios cumplen consistentemente con los objetivos de nivel de servicio (SLO) definidos, lo que demuestra la excelencia operativa y el valor comercial de sus prácticas de observabilidad. Esto representa el pináculo de los programas de observabilidad maduros.

Acerca de esta regla del cuadro de mando

Esta regla de logro de nivel de servicio es parte del Nivel 3 (Maestría) en el modelo de madurez del tiempo de actividad empresarial. Evalúa si sus servicios están cumpliendo su objetivo de confiabilidad, indicando que su práctica de observabilidad entrega resultados comerciales mensurables.

Por qué esto es importante: El logro constante de SLO demuestra que sus inversiones en observabilidad se traducen en servicios confiables en los que los clientes pueden confiar. Este nivel de excelencia en el rendimiento impulsa la satisfacción del cliente, el crecimiento del negocio y el beneficio competitivo.

Cómo funciona esta regla

Esta regla evalúa el último puntaje de cumplimiento del nivel de servicio para cada SLI definido en su cuenta. Mide si sus servicios están cumpliendo su objetivo SLO durante los periodos de tiempo definidos.

Entendiendo tu puntaje

  • Aprobado (Verde): Los servicios cumplen consistentemente sus SLO con índices de cumplimiento del 95% o más
  • Fallo (rojo): uno o más servicios caen por debajo del umbral de cumplimiento del SLO del 95%
  • Objetivo: Todos los servicios críticos alcanzan un cumplimiento del SLO del 95% o superior, demostrando una capacidad de servicios confiable.

Qué significa esto:

  • Puntaje de aprobación: Sus servicios ofrecen un rendimiento consistente y confiable que cumple con las expectativas de los usuarios y los requisitos comerciales.
  • Puntaje reprobatoria: los problemas de confiabilidad del servicio están afectando la experiencia del usuario y potencialmente los resultados comerciales.

Entendiendo el umbral del 95%

El umbral de cumplimiento del SLO del 95% representa un equilibrio entre confiabilidad y eficiencia operativa:

¿Por qué el 95%?

  • Estándar de la industria: se alinea con las prácticas comunes de la industria para servicios de alta disponibilidad
  • Concepto de cotización de errores: permite una tasa de fallas del 5%, lo que proporciona flexibilidad para el mantenimiento, la implementación y los problemas inesperados.
  • Impacto en el negocio: Generalmente representa el nivel de confiabilidad donde la satisfacción del cliente se mantiene alta.
  • Sostenibilidad operativa: alcanzable sin gastos operativos excesivos

Cuándo ajustar el umbral

  • Requisitos más elevados (más del 99%): sistemas de misión crítica, servicios financieros, aplicaciones de atención sanitaria
  • Requisitos más bajos (90-94%): herramientas internas, característica experimental, aplicación sensible al costo
  • Umbral variable: Objetivo diferente para distintos niveles de servicio o segmentos de usuarios

Cómo mejorar el logro del nivel de servicio

Si su puntaje muestra problemas de cumplimiento de SLO, siga este enfoque sistemático:

1. Identificar servicios de bajo rendimiento

Analizar la infracción de SLO:

  1. Revisar las tendencias de cumplimiento: Observar qué servicios incumplen sistemáticamente el objetivo de SLO
  2. Identificar patrones: determinar si las infracciones ocurren en momentos específicos, durante la implementación o bajo ciertas condiciones.
  3. Evaluar el impacto: comprender qué errores de SLO tienen el mayor impacto en el negocio o en el usuario
  4. Priorizar las mejoras: centrar primero en los servicios con mayor criticidad empresarial y mayores brechas de SLO

Emplee el análisis impulsado por datos:

  • Tasa de consumo de la cotización de errores: realice un seguimiento de la rapidez con la que los servicios consumen su cotización de errores permitido
  • Análisis de seriales temporales: identificar tendencias en el rendimiento de SLO a lo largo del tiempo
  • Análisis de correlación: Buscar relaciones entre la infracción de SLO y otros eventos (desplazamientos, picos de tráfico, cambios de infraestructura).

2. Investigar las causas fundamentales

Factores técnicos:

  • Problemas de infraestructura: limitaciones de capacidad, fallas de hardware, problemas de red
  • Errores de aplicación: regresiones de rendimiento, fugas de memoria, algoritmos ineficientes
  • Problemas de implementación: versiones incorrectas, errores de configuración, problemas de reversión
  • Fallos de dependencia: interrupciones de servicios de terceros, rendimiento de la base de datos, límites de velocidad de la API

Factores operativos:

  • Brechas de monitoreo: Observabilidad insuficiente que conduce a una detección tardía de problemas
  • Respuesta a incidentes: Tiempos de resolución lentos debido a procesos o herramientas deficientes.
  • Gestión del cambio: prácticas de prueba o implementación inadecuadas
  • Planeación de la capacidad: recursos insuficientes durante los periodos de uso pico

3. Implementar mejoras de objetivos

Acciones inmediatas:

  • Solucionar problemas críticos: abordar cualquier problema continuo que cause infracción de SLO
  • Optimice el rendimiento: ajuste la consulta de la base de datos, mejore el almacenamiento en caché, optimice el uso de recursos
  • Mejorar el monitoreo: agregue una observabilidad más detallada para identificar problemas más rápidamente
  • Mejorar la respuesta a incidentes: agilizar los procesos para reducir el tiempo medio de resolución

Mejoras estratégicas:

  • Mejoras en la arquitectura: implementar redundancia, mejorar la escalabilidad, reducir la dependencia
  • Automatización: implementar escalado automático, sistemas de autocuración y procedimientos de recuperación automatizados.
  • Prácticas de calidad: mejorar las pruebas, implementar el despliegue canary, mejorar la revisión de código
  • Gestión de la capacidad: mejor planeación de recursos, escalamiento proactivo, pruebas de rendimiento

4. Optimizar los SLO y los SLI

Revisar la idoneidad del SLO:

  • Alineación empresarial: garantizar que los SLO reflejen los requisitos comerciales reales y las expectativas de los usuarios
  • Viabilidad: verificar que los SLO sean realistas dadas las limitaciones actuales de tecnología y recursos
  • Medibilidad: Confirmar que los SLI capturan con precisión la experiencia del usuario que se está midiendo

Refinar las definiciones de SLI:

  • Enfoque en el usuario: Garantizar que los SLI midan lo que el usuario realmente experimenta, no solo la métrica técnica.
  • Capacidad de acción: verificar que la infracción de SLI conduzca a oportunidades de mejora claras y viables
  • Sensibilidad: ajuste el umbral SLI para detectar problemas significativos sin ruido excesivo

Medición de la mejora

Realice un seguimiento de estas métricas para verificar sus mejoras en el logro del nivel de servicio:

  • Tasa de cumplimiento de SLO: porcentaje de servicios que cumplen su objetivo de confiabilidad del 95%
  • Utilización de la cotización de errores: con qué eficiencia los servicios emplean su cotización de fallas permitido
  • Velocidad de mejora: Velocidad a la que los servicios de bajo rendimiento logran el cumplimiento
  • Correlación de impacto empresarial: Relación entre el logro del objetivo de nivel de servicio (SLO) y las métricas empresariales (satisfacción del cliente, ingresos, abandono).

Escenarios y soluciones comunes

SLO constantemente faltantes a pesar del esfuerzo:

  • Problema: Algunos servicios parecen no poder alcanzar el objetivo de confiabilidad
  • Solución: reevaluar el objetivo de SLO para el realismo, investigar problemas de arquitectura fundamentales o considerar aceptar una menor confiabilidad para servicios menos críticos

SLO Complicidad durante el despliegue de ventanas:

  • Problema: Las versiones provocan constantemente infracciones de SLO
  • Solución: Implementar una implementación azul-verde, mejorar las prácticas de prueba, emplear versiones canarias o ajustar los SLO para tener en cuenta el mantenimiento planeado.

Errores de dependencia externa que afectan a los SLO:

  • Problema: Los servicios de terceros causan infracciones de SLO fuera de su control
  • Solución: Implementar interruptores, mecanismos de respaldo, proveedores redundantes o excluir fallas de dependencia externa de los cálculos de SLO

Compromiso de SLO estacional o cíclico:

  • Problema: Los servicios no cumplen los SLO durante los periodos pico previsibles
  • Solución: Implementar escalamiento proactivo, planeación de capacidad o crear un objetivo de SLO basado en el tiempo que tenga en cuenta los patrones de tráfico conocidos.

Administración avanzada a nivel de servicio

Políticas presupuestarias erróneas

Establecer políticas claras:

  • Respuesta al agotamiento de la cotización: ¿Qué sucede cuando los servicios superan su cotización de error?
  • Congelamientos de despliegue: cuándo detener los lanzamientos debido a problemas de confiabilidad
  • Asignación de recursos: cómo priorizar el trabajo de confiabilidad frente al desarrollo de características

Implementar el seguimiento presupuestario:

  • Tiempo real monitoreo: Seguimiento del consumo de la cotización de errores a lo largo de los periodos de medición
  • Alertas predictivas: Advierte cuando los servicios están a punto de agotar las cotizaciones
  • Análisis histórico: aprenda de los patrones de utilización de la cotización pasada

Medición del impacto empresarial

Conecte los SLO con los resultados comerciales:

  • Satisfacción del cliente: correlacionar el logro del SLO con las encuestas y los comentarios de los clientes
  • Impacto en los ingresos: mide cómo la infracción de SLO afecta las ventas, las conversiones y la retención de clientes
  • Eficiencia operativa: realice un seguimiento de cómo los servicios confiables reducen la carga de soporte y los costos operativos

Demuestre el ROI:

  • Costo del tiempo de inactividad: Calcular el impacto empresarial de la infracción SLO
  • Justificación de la inversión: emplear datos de SLO para respaldar las inversiones en mejora de la confiabilidad
  • Reportes a las partes interesadas: proporcione a los ejecutivos métricas de confiabilidad claras vinculadas al valor comercial

Prácticas de mejora continua

Ciclos regulares de revisión de SLO:

  • Evaluaciones trimestrales: evalúan la idoneidad del SLO y los índices de logro.
  • Planeación anual: Establecer objetivos de confiabilidad alineados con la estrategia empresarial
  • Revisiones posteriores a incidentes: actualizar los SLO según las lecciones aprendidas de las interrupciones

Integración cultural:

  • Responsabilidad del equipo: hacer que el logro de los SLO forme parte de los objetivos del equipo y las evaluaciones de rendimiento
  • Colaboración multifuncional: garantizar que los equipos de desarrollo, operaciones y negocios estén alineados con el objetivo de confiabilidad
  • Promoción de la confiabilidad: Promover la confiabilidad como una característica en toda la organización

Desarrollar la madurez organizacional

Reportes ejecutivos

Crear un panel de control centrado en el negocio:

  • Descripción general del estado del servicio: vista de alto nivel de todos los estados de SLO de servicio críticos
  • Análisis de tendencias: muestra patrones de mejora o degradación a lo largo del tiempo
  • Impacto empresarial métrica: Conecte la confiabilidad con los clientes y los ingresos métrica

Comunicación regular con las partes interesadas:

  • Reportes mensuales de confiabilidad: Resumen del rendimiento de SLO e iniciativas de mejora
  • Análisis del impacto de incidentes: contexto empresarial para los principales problemas de confiabilidad
  • Recomendaciones de inversión: propuestas impulsadas por datos para mejorar la confiabilidad

Desarrollo de equipos

Desarrollar experiencia en confiabilidad:

  • Capacitación en prácticas de ingeniería de confiabilidad del sitio (SRE): educar a los equipos sobre cotizaciones de errores, gestión de SLO e ingeniería de confiabilidad.
  • Intercambio de conocimientos entre equipos: comparta prácticas de confiabilidad exitosas en toda la organización
  • Aprendizaje externo: asistir a conferencias, interactuar con comunidades de confiabilidad de la industria

Establecer una cultura de confiabilidad:

  • La confiabilidad como característica: trate la confiabilidad con la misma prioridad que la nueva característica
  • Responsabilidad compartida: hacer que la confiabilidad sea responsabilidad de todos, no solo de las operaciones
  • Celebración de los triunfos de confiabilidad: Reconozca a los equipos y personas que mejoran la confiabilidad del servicio

Consideraciones importantes

  • Equilibre la confiabilidad con la innovación: no permita que el objetivo perfeccionista de confiabilidad ralentice el desarrollo del producto
  • Centrar en el impacto en el usuario: priorizar los SLO que realmente afectan la experiencia del cliente por encima de las métricas técnicas internas
  • Enfoque evolutivo: permitir que los SLO evolucionen a medida que los servicios maduran y cambian los requisitos del negocio
  • Integración de herramientas y procesos: garantizar que la gestión de SLO se integre con el flujo de trabajo de desarrollo y operaciones existente

Próximos pasos

  1. Acción inmediata: Abordar cualquier servicio que actualmente no cumpla con el SLO mediante un análisis de causa raíz y mejoras de los objetivos.
  2. Optimización de procesos: establecer ciclos regulares de revisión de SLO y prácticas de gestión de la cotización de errores
  3. Integración empresarial: Conecte el logro de SLO con las métricas empresariales y los reportes de las partes interesadas
  4. Desarrollo cultural: Construir el compromiso organizacional con la confiabilidad como beneficio competitivo
  5. Evolución continua: Evalúe y mejore periódicamente sus prácticas de administración a nivel de servicio

Para obtener orientación completa sobre administración avanzada a nivel de servicio, consulte nuestra guía de implementación de administración a nivel de servicio y la documentación de mejores prácticas de ingeniería de confiabilidad del sitio (SRE).

Copyright © 2025 New Relic Inc.

This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.