La cobertura de alertas de entrega de servicios garantiza que sus aplicaciones y servicios orientados al cliente tengan alertas de monitoreo implementadas para detectar problemas que podrían afectar la experiencia del usuario y las operaciones comerciales.
Acerca de esta regla del cuadro de mando
Esta regla de cobertura de alerta de capacidad de servicios es parte del Nivel 1 (Reactivo) en el modelo de madurez del tiempo de actividad empresarial. Verifica que su aplicación y servicios tengan configuradas alertas básicas para notificarle cuando ocurren problemas que afectan a los clientes.
Por qué esto es importante: Los problemas de capacidad de servicios afectan directamente la experiencia de los clientes y los ingresos del negocio. Sin una aplicación de alertas adecuada, es posible que solo descubra problemas cuando los clientes los reporten, lo que genera interrupciones más prolongadas y relaciones dañadas con los clientes.
Cómo funciona esta regla
Esta regla examina su entidad de capacidad de servicios y verifica si tiene la condición de alerta definida. En concreto, busca alertas sobre:
- Entidades APM-APPLICATION: aplicación backend y servicios monitoreados por el agente APM
- Entidades BROWSER-APPLICATION: Aplicación sitio web frontend monitoreada por monitoreo de navegador
- Entidades MOBILE-APPLICATION: Aplicaciones móviles monitorizadas por monitoreo de celulares
- Entidades SYNTH-MONITOR: Monitores sintéticos que simulan la interacción del usuario
La regla falla si alguna entidad de capacidad de servicios monitoreada carece de al menos una condición de alerta.
Entendiendo tu puntaje
- Pasa (Verde): Todas las entidades de capacidad de servicios tienen definida al menos una condición de alerta.
- Falla (Rojo): Una o más entidades de capacidad de servicios carecen de cobertura de alerta
- Objetivo: Cobertura de alerta del 100% en todas las aplicaciones y servicios de cara al cliente.
Qué significa esto:
- Puntaje de aprobación: Su base de monitoreo de aplicaciones está preparada para detectar problemas que impactan a los clientes
- Puntaje reprobatoria: Algunas aplicaciones o servicios podrían fallar sin alertar a su equipo, lo que podría afectar a los clientes.
Cómo mejorar la cobertura de alertas de capacidad de servicios
Si su puntaje muestra alertas de capacidad de servicios faltantes, siga estos pasos para establecer una cobertura integral:
1. Identificar los servicios no cubiertos
- Revisar la entidad fallida: Identifique qué aplicaciones o servicios específicos carecen de cobertura de alerta
- Priorizar según el impacto en los clientes: centrar primero en las aplicaciones orientadas al cliente y en los servicios críticos para los ingresos.
- Evaluar la criticidad del servicio: determinar qué servicios requieren alerta inmediata o tardía
2. Configure alertas de capacidad de servicios esenciales
Configure alertas para estas métricas críticas según su tipo de entidad:
Alertas de la aplicación APM :
- tasa de errores: alerta cuando el porcentaje de error supera el 5% durante 5 minutos
- tiempo de respuesta: alerta cuando el tiempo de respuesta promedio excede el umbral aceptable (por ejemplo, >2 segundos)
- Rendimiento: alerta cuando el volumen de solicitudes disminuye significativamente, lo que indica posibles interrupciones.
- Puntaje Apdex: alerta cuando los puntajes de satisfacción del usuario caen por debajo de los niveles aceptables (por ejemplo, menos de 0,8)
Alertas de la aplicación Browser :
- Errores de JavaScript: alerta cuando la tasa de errores del frontend aumenta
- Tiempo de carga de la página: alerta cuando el tiempo de carga de la página excede el umbral de experiencia del usuario
- Core Web Vitals: alerta cuando métricas como Largest Contentful Paint o Cumulative Layout Shift se degradan
- Sesiones de usuario: alerta cuando las sesiones de usuarios activos caen inesperadamente
Alertas de aplicaciones móviles:
- Tasa de fallas: alerta cuando la tasa de fallas de la aplicación excede el 1-2%
- Errores de red: alerta cuando aumentan las fallas en las solicitudes de red
- Tiempo de lanzamiento de la aplicación: alerta cuando los tiempos de inicio de la aplicación se vuelven inaceptables
- Interacción del usuario: alerta cuando las acciones clave del usuario (iniciar sesión, comprar) fallan con frecuencia
El monitor sintético alerta:
- Monitor de fallos: alerta inmediatamente cuando fallan los controles sintéticos
- Degradación del rendimiento: alerta cuando el tiempo de transacción de Sintético aumente significativamente
- Disponibilidad: alerta cuando el tiempo de actividad cae por debajo de los requisitos del SLA (por ejemplo, menos del 99,9%)
- Fallas en múltiples ubicaciones: alerta cuando aparece el mismo problema en varias ubicaciones
3. Configure las alertas de forma eficaz
Establecer un umbral apropiado:
- Base el umbral en datos históricos de rendimiento y requisitos comerciales
- Emplee umbrales diferentes para diferentes entornos (la producción debería ser más sensible)
- Considere el impacto de la experiencia del usuario al establecer el tiempo de respuesta y la tasa de errores umbral
Elija las ventanas de evaluación adecuadas:
- Emplee ventanas más cortas (de 2 a 5 minutos) para problemas críticos que afectan al usuario.
- Emplee ventanas más largas (10 a 15 minutos) para las tendencias de rendimiento que necesitan tiempo para establecer
- Evite ventanas tan cortas que se activen por fluctuaciones temporales
4. Establecer procedimientos de respuesta a incidentes
- Definir canal de notificación: configurar la integración con Slack, PagerDuty o email
- Asignar equipos responsables: garantizar que las alertas lleguen a los equipos que pueden diagnosticar y solucionar problemas
- Crear rutas de escalamiento: definir qué sucede si las alertas no se reconocen dentro de los plazos del SLA
- Procedimientos de respuesta de prueba: verificar que los equipos puedan realmente responder y resolver los problemas de alertas
Medición de la mejora
Realice un seguimiento de estas métricas para verificar las mejoras en la cobertura de alertas de entrega de servicios:
- Porcentaje de cobertura: monitoreo de IA para cobertura de alerta del 100% en aplicaciones de producción y servicios.
- Tiempo medio de detección (tiempo medio de detección (MTTD)): mide la rapidez con la que las alertas identifican los problemas que afectan a los clientes
- Precisión de las alertas: monitorear el porcentaje de alertas que representan problemas genuinos que requieren acción
- Reducción del impacto en los clientes: Realice un seguimiento para determinar si una detección más rápida conduce a interrupciones más breves para los clientes.
Escenarios y soluciones comunes
aplicación heredada o no empleada:
- Problema: La aplicación antigua todavía aparece en monitoreo pero ya no sirve a los clientes.
- Solución: Eliminar las aplicaciones no empleadas del monitoreo o etiquetarlas como obsoletas para excluirlas de los requisitos de cobertura
Entornos de desarrollo y pruebas:
- Problema: No producción aplicación desorden alerta cobertura métrica
- Solución: emplear etiquetas o convenciones de nomenclatura para separar entornos y centrar las reglas de cobertura en los servicios de producción.
microservicios arquitectura:
- Problema: Muchos servicios pequeños hacen que sea difícil lograr y mantener una cobertura del 100%
- Solución: Priorizar los servicios de cara al cliente y la dependencia crítica, emplear mapas de servicios para identificar componentes clave
Dependencia de terceros:
- Problema: Los servicios externos no están bajo su control pero impactan su aplicación
- Solución: Crear monitores sintéticos para probar integraciones y API críticas de terceros
Consideraciones avanzadas
Personalización de las reglas de cobertura
Es posible que necesite ajustar la regla del cuadro de puntaje si:
- Diferentes tipos de servicios: Tu arquitectura incluye otros tipos de entidades (función Lambda, base de datos, cola de mensajes)
- Niveles de criticidad empresarial: algunos servicios son más críticos que otros y requieren diferentes estrategias de alerta
- Patrones de despliegue: el despliegue canario o el despliegue azul-verde pueden afectar temporalmente la cobertura
alerta coordinación y dependencia
Para una arquitectura de servicios compleja:
- Dependencia del servicio: configure alertas para tener en cuenta las fallas del servicio ascendente
- Correlación de alertas: alertas relacionadas con el grupo para evitar tormentas de notificaciones durante el incidente
- Alertas inteligentes: emplee funciones de aprendizaje automático para reducir los falsos positivos y mejorar la calidad de la señal
Consideraciones importantes
- Enfoque en el impacto de los clientes: priorizar las alertas para problemas que afectan directamente la experiencia de los clientes
- Equilibrar la cobertura con la calidad: garantizar que una cobertura integral no genere exceso de alertas
- Mantenimiento regular: revise y actualice la condición de alerta a medida que evoluciona su aplicación
- Coordinación entre equipos: garantizar que los equipos de desarrollo y operaciones colaboren en la estrategia de alerta
Próximos pasos
- Acción inmediata: Configure alertas básicas para cualquier servicio que actualmente no tenga cobertura
- Monitoreo continuo: revise esta regla del cuadro de mando semanalmente para mantener la cobertura a medida que cambian los servicios.
- Mejora de la calidad: Centrar en la eficacia de las alertas y en la reducción de falsos positivos
- Avanzar al nivel 2: una vez establecida la alerta de capacidad de servicios, centrar en prácticas de monitoreo proactivo
Para obtener orientación detallada sobre la configuración de aplicaciones de monitoreo, consulte nuestra documentación para APM, monitoreo de browser, monitoreo de celulares y monitoreo sintético.