Sugerencia
El modo guiado de condición NRQL ofrece una experiencia curada para crear condiciones NRQL de infraestructura "que no informa el host" (HNR). Esta es la alternativa preferida para crear condiciones de "sin reportes de host" en la infraestructura.
Utilice la condición Host not reporting del monitoreo de infraestructura para notificarle cuando dejemos de recibir datos de un agente de infraestructura. Esta característica le permite alertar dinámicamente sobre grupos de hosts, configurar la ventana de tiempo de cinco a 60 minutos y aprovechar al máximo la notificación .
Característica
Puede definir condiciones basadas en los conjuntos de hosts más importantes para usted y configurar el umbral apropiado para cada conjunto de hosts filtrado. El evento Host not reporting se activa cuando los datos del agente de infraestructura no llegan a nuestro recolector dentro del plazo que usted especifica.
Advertencia
Si ha filtrado su condición Host Not Reporting
usando etiqueta o etiquetas y luego elimina una etiqueta o etiqueta crítica de un host objetivo, el sistema abrirá un incidente Host Not Reporting, ya que caracterizará a ese host como si hubiera perdido su conexión.
La flexibilidad de esta característica le permite personalizar fácilmente qué monitor y cuándo notificar a personas o equipos seleccionados. Además, la notificación por correo electrónico incluye enlaces para ayudarle a solucionar rápidamente la situación.
Host not reporting condition | Features |
---|---|
Que monitor | Puede utilizar la barra de filtro de entidad para seleccionar qué hosts desea monitorear con la condición de alerta. La condición también se aplicará automáticamente a cualquier host que agregue en el futuro y que coincida con estos filtros. |
Como notificar | Las condiciones están contenidas en las pólizas. Puede seleccionar una política existente o crear una nueva política con notificación por correo electrónico desde la UI de monitoreo de infraestructura. Si desea crear una nueva política con otros tipos de canal de notificación, utilice la UI. |
Cuando notificar | Las direcciones de correo electrónico (identificadas en la política) recibirán una notificación automática sobre el incidente umbral para cualquier host que coincida con los filtros que haya aplicado, según las preferencias de incidentes de la política. |
Dónde solucionar problemas | El enlace en la parte superior de la notificación por correo electrónico lo llevará a la página de infraestructura Events centrada en el momento en que el host se desconectó. Los enlaces adicionales en el correo electrónico lo llevarán a detalles adicionales. |
Crear la condición "el host no informa"
Para definir los criterios de condición Host not reporting :
Siga los procedimientos estándar para crear una condición de infraestructura.
Seleccione Host not reporting como Alert type.
Defina el umbral Critical para activar la notificación: mínimo 5 minutos, máximo 60 minutos.
Habilite la opción Don't trigger alerts for hosts that perform a clean shutdown si desea evitar alertas falsas cuando tenga hosts configurados para apagar mediante la línea de comando. Actualmente, esta función es compatible con todos los sistemas Windows y Linux que emplean systemd.
Sugerencia
Además, puede agregar la etiquetahostStatus: shutdown
a su host junto con la marca de la opción mencionada anteriormente. Esto evitará que se abran todos los incidentes Host not reporting para ese host, siempre que tenga esa etiqueta, independientemente de la versión del agente o del sistema operativo. Quitar la etiqueta permitirá que el sistema vuelva a abrir el incidente Host not reporting para ese host.Sugerencia
Como alternativa a la etiqueta
hostStatus: shutdown
, puede agregar la etiquetatermination: expected
a su entidad host. Esto le indica a New Relic que se esperaba que el host se apagara y evitará que cualquier Host not reporting incidentes se abra siempre que la opción Don't trigger alerts for hosts that perform a clean shutdown esté seleccionada en la condición.
Dependiendo de las preferencias de incidente de la política, definirá qué canal de notificación usar cuando pase el umbral Critical definido para la condición. Para evitar el "falso positivo", el anfitrión debe dejar de informar durante todo el período de tiempo antes de que se abra un incidente.
Example: Crea una condición para abrir un incidente cuando cualquiera de los hosts filtrados deja de informar datos durante seven minutos.
- Si algún host deja de informar durante cinco minutos y luego los reanuda, la condición does not abre un incidente.
- Si algún host deja de informar durante siete minutos, incluso si los demás están bien, la condición does abre un incidente.
Investigar el problema
Para investigar más a fondo por qué un host no informa datos:
- Revise los detalles en la notificación por correo electrónico.
- Utilice el enlace de la notificación por correo electrónico para monitor los cambios continuos en su entorno desde la páginaEvents en nuestra UI de infraestructura. Por ejemplo, utilice la página Events para ayudar a determinar si un host se desconectó justo después de que un usuario raíz realizó un cambio de configuración en el host.
- Opcional: utilice el enlaceAcknowledge de la notificación por correo electrónico para verificar que conoce el incidente de alerta y se hace cargo del mismo.
- Utilice los enlaces de correo electrónico para examinar detalles adicionales en la páginaIncident details .
Cortes intencionales
Podemos distinguir entre situaciones inesperadas y situaciones planificadas con la opción Don't trigger alerts for hosts that perform a clean shutdown. Utilice esta opción para situaciones como:
- El anfitrión se ha desconectado intencionalmente.
- El anfitrión ha planificado un tiempo de inactividad por mantenimiento.
- El host ha sido cerrado o dado de baja.
- Escalado automático de hosts o cierre de instancias en una consola en la nube.
Dependemos de las señales de apagado de Linux y Windows para marcar un apagado limpio.
Hemos confirmado que el agente detecta estos escenarios:
- Evento de escalado automático AWS con instancias EC2 que usan systemd (Amazon Linux, CentOs/RedHat 7 y posteriores, Ubuntu 16 y posteriores, Suse 12 y posteriores, Debian 9 y posteriores)
- Apagado de sistemas Windows iniciado por el usuario
- Apagado iniciado por el usuario de sistemas Linux que usan systemd (Amazon Linux, CentOs/RedHat 7 y posteriores, Ubuntu 16 y posteriores, Suse 12 y posteriores, Debian 9 y posteriores)
Sabemos que el agente no detecta estos escenarios:
- Apagado iniciado por el usuario de sistemas Linux que no usan systemd (CentOs/RedHat 6 y anteriores, Ubuntu 14, Debian 8). Esto incluye otros sistemas Linux modernos que todavía usan sistemas de inicio Upstart o SysV.
- Evento de escalado automático AWS con instancias EC2 que no usan systemd (CentOs/RedHat 6 y anteriores, Ubuntu 14, Debian 8). Esto incluye otros sistemas Linux más modernos que todavía usan sistemas de inicio Upstart o SysV.