La cobertura de alerta de infraestructura garantiza que sus servidores, contenedores y otros componentes de infraestructura tengan alertas de monitoreo implementadas para detectar problemas antes de que afecten su aplicación y sus clientes.
Acerca de esta regla del cuadro de mando
Esta regla de cobertura de alerta de infraestructura es parte del Nivel 1 (Reactivo) en el modelo de madurez del tiempo de actividad empresarial. Verifica que los componentes de infraestructura crítica tengan alertas básicas configuradas para notificarle cuando ocurren problemas.
Por qué esto es importante: los problemas de infraestructura a menudo se convierten en problemas de aplicación. Sin una infraestructura de alerta adecuada, es posible que solo descubra problemas cuando los clientes comiencen a quejar por servicios lentos o no disponibles.
Cómo funciona esta regla
Esta regla examina su entidad de infraestructura y verifica si tiene definida la condición de alerta. En concreto, busca alertas sobre:
- Entidades INFRA-HOST: Servidores físicos, máquina virtual e instancia cloud
- Entidades INFRA-KUBERNETES-POD: Kubernetes pod y contenedor
La regla falla si alguna entidad de infraestructura monitoreada carece de al menos una condición de alerta.
Entendiendo tu puntaje
- Aprobado (Verde): Todas las entidades de infraestructura tienen definida al menos una condición de alerta.
- Fallo (Rojo): Una o más entidades de infraestructura carecen de cobertura de alerta
- Objetivo: 100% de cobertura de Alerta en todos los componentes críticos de infraestructura.
Qué significa esto:
- Puntaje de aprobación: Su base de monitoreo de infraestructura está establecida
- Puntaje reprobatoria: algunos componentes de infraestructura podrían fallar sin alertar a su equipo
Cómo mejorar la cobertura de infraestructura alerta
Si su puntaje muestra alertas de infraestructura faltantes, siga estos pasos para establecer una cobertura integral:
1. Identificar la infraestructura descubierta
- Revisar la entidad que falla: identificar qué hosts o pods específicos carecen de cobertura de alerta
- Priorizar por criticidad: centrar primero en los sistemas de producción y la infraestructura crítica para el negocio
- Evaluar las brechas de monitoreo: determinar si las alertas faltantes representan brechas de monitoreo reales o exclusiones intencionales
2. Configurar alertas de infraestructura esencial
Para cada entidad de infraestructura, configure alertas para estas métricas críticas:
El host monitorea alertas:
- Utilización de la CPU: alerta cuando el uso de la CPU supera el 80% durante 5 minutos
- Uso de memoria: alerta cuando la utilización de la memoria supera el 85% durante 5 minutos
- Espacio en disco: alerta cuando el uso del disco supera el 90% o el espacio disponible cae por debajo de 1 GB
- Disponibilidad del host: alerta cuando el host deja de informar datos durante 3 minutos
Alertas pod Kubernetes :
- Frecuencia de resetear del pod: alerta cuando el pod se resetear más de 3 veces en 10 minutos
- Límites de recursos del contenedor: alerta cuando el contenedor se acerca al límite de CPU o memoria
- Disponibilidad de pod: alerta cuando los pods no están en estado de ejecución durante más de 2 minutos
- Presión de recursos del nodo: alerta cuando los nodos experimentan presión de memoria o disco
3. Configurar la condición de alerta de manera efectiva
Emplee el umbral apropiado:
- Comience con un umbral conservador y ajústelo según el comportamiento normal de su entorno.
- Considere diferentes umbrales para desarrollo, prueba y entorno de producción.
- Tenga en cuenta los patrones de uso esperados (por ejemplo, trabajos de procesamiento por lotes, picos de tráfico)
Establecer ventanas de evaluación adecuadas:
- Emplee ventanas más largas (5 a 10 minutos) para las métricas que fluctúan naturalmente
- Emplee ventanas más cortas (1 a 3 minutos) para disponibilidad y condiciones de falla críticas
- Evite alertas demasiado sensibles que se activan en picos temporales
4. Establecer el enrutamiento y escalamiento de alertas
- Definir canal de notificación: configurar email, Slack o integración PagerDuty
- Asignar equipos responsables: garantizar que las alertas lleguen a los equipos que pueden responder
- Crear procedimientos de escalamiento: definir qué sucede si no se reconocen las alertas iniciales
- Prueba de entrega de notificaciones: verifica que las alertas realmente lleguen a los destinatarios previstos
Medición de la mejora
Realice un seguimiento de estas métricas para verificar las mejoras en la cobertura de alertas de infraestructura:
- Porcentaje de cobertura: monitoreo de IA para 100% de cobertura de alerta en infraestructura productiva
- Eficacia de las alertas: Monitorear la frecuencia con la que las alertas de infraestructura ayudan a prevenir problemas con las aplicaciones.
- Tiempo de respuesta: Mide la rapidez con la que los equipos responden a las alertas de infraestructura
- Tasa de falso positivo: Cerciorar de que las alertas estén ajustadas para evitar ruido innecesario
Escenarios y soluciones comunes
Infraestructura heredada o desmantelada:
- Problema: Los hosts antiguos o contenedores aún aparecen en el monitoreo pero no necesitan alertas
- Solución: Eliminar entidades no empleadas del monitoreo o etiquetarlas como no productivas para excluirlas de los requisitos de cobertura
Entornos de desarrollo y pruebas:
- Problema: La infraestructura de desarrollo/pruebas satura la cobertura de alerta métrica
- Solución: emplear etiquetas o convenciones de nomenclatura para separar entornos y centrar las reglas de cobertura en los sistemas de producción.
Infraestructura especializada:
- Problema: Algunas infraestructuras requieren enfoques de monitoreo personalizados
- Solución: Crear plantillas de alertas específicas del entorno para diferentes tipos de infraestructura (base de datos, balanceadores de carga, etc.)
Recursos de escalamiento automático en la nube:
- Problema: Es posible que la instancia creada dinámicamente no herede la configuración de alerta
- Solución: emplee plantillas de infraestructura o automatización para garantizar que las nuevas instancias reciban la cobertura de alerta adecuada
Consideraciones avanzadas
Personalización de las reglas de cobertura
Es posible que necesite ajustar la regla del cuadro de puntaje si:
- Diferentes tipos de entidades: Su infraestructura incluye otros tipos de entidades (base de datos, balanceadores de carga, etc.)
- Segregación ambiental: desea centrar únicamente en la infraestructura de producción
- Criticidad empresarial: Algunas infraestructuras son más críticas que otras
integración con otras herramientas de monitoreo
Si emplea varias herramientas de monitoreo:
- Cerciorar de que la cobertura de alerta no cree notificaciones duplicadas
- Coordinar con los sistemas de monitoreo existentes para evitar brechas
- Considere usar New Relic como un punto de agregación central para alertas de infraestructura
Consideraciones importantes
- Comience con los sistemas críticos: concentrar primero en la infraestructura de producción que impacta directamente a los clientes
- Equilibrar la cobertura con el ruido: garantizar que una cobertura integral no genere un exceso de alertas
- Mantenimiento regular: revise y actualice la condición de alerta a medida que evoluciona su infraestructura
- Preparación del equipo: cerciorar de que los equipos puedan realmente responder a las alertas que está creando
Próximos pasos
- Acción inmediata: Configure alertas básicas para cualquier infraestructura que actualmente no tenga cobertura
- Monitoreo continuo: revise esta regla del cuadro de mando semanalmente para mantener la cobertura a medida que cambia la infraestructura.
- Avanzar al nivel 2: una vez establecida la alerta de infraestructura, centrar en prácticas de monitoreo proactivo
Para obtener orientación detallada sobre la configuración del monitoreo de infraestructura, consulte nuestra documentación de monitoreo de infraestructura.