• /
  • EnglishEspañolFrançais日本語한국어Português
  • Inicia sesiónComenzar ahora

Te ofrecemos esta traducción automática para facilitar la lectura.

En caso de que haya discrepancias entre la versión en inglés y la versión traducida, se entiende que prevalece la versión en inglés. Visita esta página para obtener más información.

Crea una propuesta

Nivel 1 - Regla de puntaje de cobertura de alerta crítica

La cobertura de alerta crítica mide el equilibrio entre alertas críticas y de advertencia en su estrategia de monitoreo. Esta regla de puntaje lo ayuda a evitar el exceso de alertas al garantizar que no confíe demasiado en la alerta crítica para cada problema.

Acerca de esta regla del cuadro de mando

Esta regla de cobertura de alerta crítica es parte del Nivel 1 (Reactivo) en el modelo de madurez del tiempo de actividad empresarial. Evalúa si su estrategia de alerta incluye una combinación apropiada de condiciones de alerta críticas y de advertencia.

Por qué esto es importante: Demasiadas alertas críticas pueden generar un exceso de alertas, donde los equipos se vuelven insensibles a las notificaciones urgentes. Una estrategia de alerta equilibrada ayuda a los equipos a responder adecuadamente a diferentes niveles de gravedad.

Cómo funciona esta regla

Esta regla analiza una muestra de incidente de alerta de 7 días para calcular qué porcentaje se activa por condición de alerta crítica versus condición de alerta de advertencia. Mide la relación entre todas las entidades monitoreadas en su cuenta.

Entendiendo tu puntaje

  • Aprobado (Verde): El 25% o menos de sus alertas se clasifican como críticas
  • Error (rojo): más del 25% de sus alertas se clasifican como críticas
  • Objetivo: Mantener una estrategia de alerta equilibrada donde la alerta crítica represente verdaderas emergencias

Qué significa esto:

  • Puntaje para aprobar: Tiene una estrategia de alerta bien equilibrada con niveles de escalada adecuados.
  • Puntaje reprobatoria: es posible que esté empleando en exceso la alerta crítica, lo que puede generar un exceso de alertas y una menor eficacia de la respuesta.

Construyendo una estrategia de alerta equilibrada

Una estrategia de alerta bien diseñada debe incluir tres tipos de alertas:

Alertas de acción inmediata (críticas)

  • Propósito: Indicar un evento que impacta al negocio y requiere una respuesta inmediata
  • Ejemplos: interrupciones del servicio, fallas críticas del sistema, brechas de seguridad
  • tiempo de respuesta: En minutos
  • Quién responde: Ingeniero de guardia o equipo de respuesta a incidentes

Alertas anticipatorias (Advertencia)

  • Propósito: Señalar condiciones que no tienen un impacto inmediato en el negocio pero que pueden requerir acciones futuras
  • Ejemplos: aumento de la tasa de errores, aproximación a los límites de capacidad, degradación del rendimiento
  • Tiempo de respuesta: En cuestión de horas o durante el horario comercial.
  • ¿Quién responde?: Equipo de desarrollo o administrador del sistema

Alertas retrospectivas (informativas)

  • Propósito: Proporcionar datos para el análisis periódico y la optimización del sistema a largo plazo.
  • Ejemplos: Resúmenes semanales de rendimiento, planeación de capacidad métrica, análisis de tendencias
  • tiempo de respuesta: Durante los periodos de revisión programados
  • Quién responde: El equipo de operaciones durante las sesiones de análisis planeadas

Cómo mejorar la cobertura de alerta crítica

Si su puntaje indica demasiadas alertas críticas, siga estos pasos para reequilibrar su estrategia:

1. Audite sus alertas actuales

  1. Revisar todas las alertas críticas: enumera todas las condiciones de alerta actualmente establecidas en críticas.
  2. Evaluar el impacto en el negocio: para cada alerta crítica, pregunte: "¿Esto requiere una respuesta inmediata para evitar el impacto en el negocio?"
  3. Identifique candidatos para una degradación: busque alertas que podrían ser advertencias en su lugar

2. Reclasificar las alertas adecuadamente

Cambiar a advertencia cuando:

  • El problema no afecta inmediatamente a los clientes.
  • La respuesta puede esperar hasta el horario comercial.
  • La alerta proporciona una advertencia temprana de posibles problemas.
  • La intervención manual no es necesaria con urgencia

Mantener como crítico cuando:

  • Los servicios de atención al cliente no están disponibles
  • Se produce pérdida de datos o incidente de seguridad.
  • Los sistemas de generación de ingresos fallan
  • La acción inmediata previene fallos en cascada

3. Implementar alertas progresivas

Crear rutas de escalada de alertas:

  1. La alerta de advertencia se dispara primero cuando se aproxima la métrica en relación con los niveles
  2. Se emite una alerta crítica si las condiciones empeoran o persisten.
  3. Emplee la escalada basada en el tiempo para permitir que los equipos respondan antes de escalar

Ejemplo de escalada:

  • Advertencia: tiempo de respuesta > 2 segundos por 5 minutos
  • Crítico: tiempo de respuesta > 5 segundos durante 2 minutos, O la advertencia persiste durante 30 minutos

4. Valida tus cambios

Luego de reclasificar las alertas:

  1. Monitorizar los problemas que se pasaron por alto: garantizar que se sigan detectando los problemas importantes
  2. Medir el tiempo de respuesta: verificar que los equipos respondan adecuadamente a diferentes niveles de gravedad
  3. Recopile comentarios del equipo: pregunte a los respondedores si la nueva clasificación les parece apropiada.

Medición de la mejora

Realice un seguimiento de estas métricas para verificar sus esfuerzos de reequilibrio de alertas:

  • Porcentaje de alerta crítica: debería disminuir hacia el objetivo del 25%
  • Eficacia de la respuesta: los equipos deben responder más rápido a las alertas críticas cuando son realmente urgentes
  • Reducción del exceso de alertas: encuesta a miembros del equipo sobre la confianza en la clasificación de alertas
  • Cobertura de detección de incidentes: cerciorar de seguir detectando problemas importantes de forma temprana

Escenarios y soluciones comunes

Todo lo marcado como crítico:

  • Problema: Los equipos marcan todas las alertas como críticas para garantizar su atención.
  • Solución: Establecer criterios claros para la clasificación de crítico frente a advertencia y capacitar a los equipos sobre su uso adecuado.

Miedo a perder cuestiones importantes:

  • Problema: Los equipos se preocupan de que se ignoren las alertas de advertencia
  • Solución: Crear procesos para la revisión periódica de alertas de advertencia y establecer un SLA para diferentes niveles de gravedad

Configuración de alerta heredada:

  • Problema: Las alertas antiguas se configuraron sin tener en cuenta los niveles de gravedad
  • Solución: Realizar una auditoría sistemática de todas las alertas existentes y reclasificarlas en función del impacto comercial actual.

Cuándo ajustar el umbral del 25%

El umbral predeterminado del 25% funciona para la mayoría de las organizaciones, pero es posible que deba ajustarlo si:

  • Porcentaje más alto aceptable: Su organización monitorear principalmente los sistemas de producción críticos
  • Se necesita un porcentaje menor: Tiene un monitoreo extenso que incluye entornos de desarrollo y prueba.
  • Requisitos de la industria: Los requisitos regulatorios o de cumplimiento dictan diferentes estrategias de alerta

Consideraciones importantes

  • El contexto empresarial importa: la alerta crítica debe estar alineada con las prioridades de su negocio y el impacto en los clientes.
  • Capacidad del equipo: considere la capacidad de su equipo para responder a diferentes volúmenes y niveles de gravedad de alertas.
  • Procedimientos de escalamiento: garantizar que existan rutas de escalamiento claras para los diferentes tipos de alertas
  • Revisión periódica: las clasificaciones de alertas deben evolucionar a medida que cambian sus sistemas y prioridades comerciales

Próximos pasos

  1. Acción inmediata: Revisar y reclasificar cualquier alerta que actualmente contribuya a un puntaje reprobatoria.
  2. Monitoreo continuo: revise esta regla del cuadro de mando semanalmente para mantener alertas equilibradas
  3. Avanzar al Nivel 2: Una vez optimizada la cobertura de alerta, centrar en prácticas de monitoreo proactivo

Para obtener una guía completa sobre la estrategia de alerta, consulte nuestra guía de implementación de Gestión de calidad de alerta.

Copyright © 2025 New Relic Inc.

This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.