Nivel 1 - regla del cuadro de mando de cobertura de infraestructura alerta

La cobertura de alerta de infraestructura garantiza que sus servidores, contenedores y otros componentes de infraestructura tengan alertas de monitoreo implementadas para detectar problemas antes de que afecten su aplicación y sus clientes.

Acerca de esta regla del cuadro de mando

Esta regla de cobertura de alerta de infraestructura es parte del Nivel 1 (Reactivo) en el modelo de madurez del tiempo de actividad empresarial. Verifica que los componentes de infraestructura crítica tengan alertas básicas configuradas para notificarle cuando ocurren problemas.

Por qué esto es importante: los problemas de infraestructura a menudo se convierten en problemas de aplicación. Sin una infraestructura de alerta adecuada, es posible que solo descubra problemas cuando los clientes comiencen a quejar por servicios lentos o no disponibles.

Cómo funciona esta regla

Esta regla examina su entidad de infraestructura y verifica si tiene definida la condición de alerta. En concreto, busca alertas sobre:

Entidades INFRA-HOST: Servidores físicos, máquina virtual e instancia cloud
Entidades INFRA-KUBERNETES-POD: Kubernetes pod y contenedor

La regla falla si alguna entidad de infraestructura monitoreada carece de al menos una condición de alerta.

Entendiendo tu puntaje

Aprobado (Verde): Todas las entidades de infraestructura tienen definida al menos una condición de alerta.
Fallo (Rojo): Una o más entidades de infraestructura carecen de cobertura de alerta
Objetivo: 100% de cobertura de Alerta en todos los componentes críticos de infraestructura.

Qué significa esto:

Puntaje de aprobación: Su base de monitoreo de infraestructura está establecida
Puntaje reprobatoria: algunos componentes de infraestructura podrían fallar sin alertar a su equipo

Cómo mejorar la cobertura de infraestructura alerta

Si su puntaje muestra alertas de infraestructura faltantes, siga estos pasos para establecer una cobertura integral:

1. Identificar la infraestructura descubierta

Revisar la entidad que falla: identificar qué hosts o pods específicos carecen de cobertura de alerta
Priorizar por criticidad: centrar primero en los sistemas de producción y la infraestructura crítica para el negocio
Evaluar las brechas de monitoreo: determinar si las alertas faltantes representan brechas de monitoreo reales o exclusiones intencionales

2. Configurar alertas de infraestructura esencial

Para cada entidad de infraestructura, configure alertas para estas métricas críticas:

El host monitorea alertas:

Utilización de la CPU: alerta cuando el uso de la CPU supera el 80% durante 5 minutos
Uso de memoria: alerta cuando la utilización de la memoria supera el 85% durante 5 minutos
Espacio en disco: alerta cuando el uso del disco supera el 90% o el espacio disponible cae por debajo de 1 GB
Disponibilidad del host: alerta cuando el host deja de informar datos durante 3 minutos

Alertas pod Kubernetes :

Frecuencia de resetear del pod: alerta cuando el pod se resetear más de 3 veces en 10 minutos
Límites de recursos del contenedor: alerta cuando el contenedor se acerca al límite de CPU o memoria
Disponibilidad de pod: alerta cuando los pods no están en estado de ejecución durante más de 2 minutos
Presión de recursos del nodo: alerta cuando los nodos experimentan presión de memoria o disco

3. Configurar la condición de alerta de manera efectiva

Emplee el umbral apropiado:

Comience con un umbral conservador y ajústelo según el comportamiento normal de su entorno.
Considere diferentes umbrales para desarrollo, prueba y entorno de producción.
Tenga en cuenta los patrones de uso esperados (por ejemplo, trabajos de procesamiento por lotes, picos de tráfico)

Establecer ventanas de evaluación adecuadas:

Emplee ventanas más largas (5 a 10 minutos) para las métricas que fluctúan naturalmente
Emplee ventanas más cortas (1 a 3 minutos) para disponibilidad y condiciones de falla críticas
Evite alertas demasiado sensibles que se activan en picos temporales

4. Establecer el enrutamiento y escalamiento de alertas

Definir canal de notificación: configurar email, Slack o integración PagerDuty
Asignar equipos responsables: garantizar que las alertas lleguen a los equipos que pueden responder
Crear procedimientos de escalamiento: definir qué sucede si no se reconocen las alertas iniciales
Prueba de entrega de notificaciones: verifica que las alertas realmente lleguen a los destinatarios previstos

Medición de la mejora

Realice un seguimiento de estas métricas para verificar las mejoras en la cobertura de alertas de infraestructura:

Porcentaje de cobertura: monitoreo de IA para 100% de cobertura de alerta en infraestructura productiva
Eficacia de las alertas: Monitorear la frecuencia con la que las alertas de infraestructura ayudan a prevenir problemas con las aplicaciones.
Tiempo de respuesta: Mide la rapidez con la que los equipos responden a las alertas de infraestructura
Tasa de falso positivo: Cerciorar de que las alertas estén ajustadas para evitar ruido innecesario

Escenarios y soluciones comunes

Infraestructura heredada o desmantelada:

Problema: Los hosts antiguos o contenedores aún aparecen en el monitoreo pero no necesitan alertas
Solución: Eliminar entidades no empleadas del monitoreo o etiquetarlas como no productivas para excluirlas de los requisitos de cobertura

Entornos de desarrollo y pruebas:

Problema: La infraestructura de desarrollo/pruebas satura la cobertura de alerta métrica
Solución: emplear etiquetas o convenciones de nomenclatura para separar entornos y centrar las reglas de cobertura en los sistemas de producción.

Infraestructura especializada:

Problema: Algunas infraestructuras requieren enfoques de monitoreo personalizados
Solución: Crear plantillas de alertas específicas del entorno para diferentes tipos de infraestructura (base de datos, balanceadores de carga, etc.)

Recursos de escalamiento automático en la nube:

Problema: Es posible que la instancia creada dinámicamente no herede la configuración de alerta
Solución: emplee plantillas de infraestructura o automatización para garantizar que las nuevas instancias reciban la cobertura de alerta adecuada

Consideraciones avanzadas

Personalización de las reglas de cobertura

Es posible que necesite ajustar la regla del cuadro de puntaje si:

Diferentes tipos de entidades: Su infraestructura incluye otros tipos de entidades (base de datos, balanceadores de carga, etc.)
Segregación ambiental: desea centrar únicamente en la infraestructura de producción
Criticidad empresarial: Algunas infraestructuras son más críticas que otras

integración con otras herramientas de monitoreo

Si emplea varias herramientas de monitoreo:

Cerciorar de que la cobertura de alerta no cree notificaciones duplicadas
Coordinar con los sistemas de monitoreo existentes para evitar brechas
Considere usar New Relic como un punto de agregación central para alertas de infraestructura

Consideraciones importantes

Comience con los sistemas críticos: concentrar primero en la infraestructura de producción que impacta directamente a los clientes
Equilibrar la cobertura con el ruido: garantizar que una cobertura integral no genere un exceso de alertas
Mantenimiento regular: revise y actualice la condición de alerta a medida que evoluciona su infraestructura
Preparación del equipo: cerciorar de que los equipos puedan realmente responder a las alertas que está creando

Próximos pasos

Acción inmediata: Configure alertas básicas para cualquier infraestructura que actualmente no tenga cobertura
Monitoreo continuo: revise esta regla del cuadro de mando semanalmente para mantener la cobertura a medida que cambia la infraestructura.
Avanzar al nivel 2: una vez establecida la alerta de infraestructura, centrar en prácticas de monitoreo proactivo

Para obtener orientación detallada sobre la configuración del monitoreo de infraestructura, consulte nuestra documentación de monitoreo de infraestructura.

Te ofrecemos esta traducción automática para facilitar la lectura.