Condición de alerta

Una condición de alerta es el elemento central que define cuándo se crea un incidente . Actúa como punto de partida esencial para crear cualquier alerta significativa. La condición de alerta contiene el parámetro o umbral cumplido antes de ser informado. Pueden mitigar las alertas excesivas o informar a su equipo cuando aparece un comportamiento nuevo o inusual.

A diagram showing some basic concepts and terms for New Relic alerting

Crear una nueva condición de alerta

Una condición de alerta es una consulta que se ejecuta continuamente que mide un conjunto determinado de eventos frente a un umbral definido y abre un incidente cuando se alcanza el umbral durante un período de tiempo específico.

Este ejemplo demuestra la creación manual de una nueva condición de alerta utilizando la página Alert condition details . Pero hay muchas maneras de crear una condición de alerta. Puede crear una condición de alerta desde:

También puedes utilizar uno de nuestros creadores de alertas:

Utilice Write your own query para crear alerta desde cero
Use guided mode

Para todos los métodos, excepto nuestro modo guiado, el proceso para crear una condición de alerta será exactamente el mismo que se describe en los pasos a continuación.

Establece el comportamiento de tu señal

En este ejemplo, imagine que su equipo administra la aplicación WebPortal para un sitio de comercio electrónico. Quiere estar alerta ante cualquier problema de latencia.

Puede utilizar una consulta NRQL para definir las señales que desea que utilice una condición de alerta como base para su alerta. Para este ejemplo, utilizará esta consulta:

SELECT average(duration)
FROM PageView
WHERE appName = 'WebPortal'

El uso de esta consulta para su condición de alerta le indica a New Relic que desea conocer la latencia o duración promedio para cargar páginas dentro de su aplicación WebPortal . Las alertas proactivas sobre latencia, una de las principales señales doradas, proporcionan alertas tempranas de posible degradación.

Puede obtener más información sobre cómo utilizar NRQL, el lenguaje de consulta de New Relic, consulte nuestra documentación de NRQL.

Ajuste la configuración de señal avanzada

Una vez que haya definido su señal, haga clic en Run. Aparecerá un gráfico que mostrará el parámetro que has configurado.

Sugerencia

Para configurar alertas entre cuentas, seleccione una cuenta de datos de la lista desplegable. Y solo puedes consultar los datos de una cuenta para alertas entre cuentas a la vez.

A screenshot showing a user how to set the signal behavior for an alert condition.

Para este ejemplo, el gráfico mostrará la duración promedio de una transacción. Haga clic en Next y comience a configurar su condición de alerta.

Para este ejemplo, personalizará estas configuraciones de señal avanzadas para la condición que creó para monitor la latencia en su aplicación WebPortal.

A screenshot depicting advanced signal settings.

La duración de la ventana define cómo New Relic agrupa sus datos para su análisis en una condición de alerta. Elegir la configuración correcta depende de la frecuencia de sus datos y del nivel de detalle deseado:

High-frequency data (for example, pageviews every minute): establezca la duración de la ventana para que coincida con la frecuencia de los datos (1 minuto en este caso) para obtener Insights en tiempo real sobre fluctuaciones y tendencias.
Low-frequency data (for example, hourly signals): elija una duración de ventana que capture suficientes datos para revelar patrones y anomalías (por ejemplo, 60 minutos para señales horarias).
Recuerde, puede personalizar la duración de la ventana según sus necesidades y experiencia. Recomendamos utilizar los valores predeterminados al iniciar y experimentar a medida que se sienta más cómodo creando condiciones de alerta.

Los métodos de agregación tradicionales pueden resultar insuficientes cuando se trata de datos escasamente poblados o que muestran fluctuaciones significativas entre intervalos. A continuación se explica cómo utilizar la agregación de ventanas deslizantes para analizar dichos datos y activar alertas oportunas de manera efectiva:

Smooth out the noise: Comience creando una ventana de agregación grande. Esta ventana (por ejemplo, 5 minutos) actúa como un búfer, suavizando el "ruido" inherente o la variabilidad de sus datos. Esto ayuda a prevenir alertas espurias provocadas por picos o caídas aisladas.
Avoid lag with a sliding window: Si bien una ventana grande ayuda en el análisis de datos, si espera a que transcurra todo el intervalo antes de verificar el umbral, puede experimentar retrasos significativos en la notificación de alerta. Recomendamos ventanas correderas más pequeñas (por ejemplo, un minuto). Imagine esta ventana deslizante como un marco en movimiento que escanea sus datos dentro de la ventana de agregación más grande. Cada vez que el cuadro avanza en su intervalo menor, calcula un valor agregado (por ejemplo, promedio).
Set your threshold duration: Ahora puede definir su umbral de alerta dentro del contexto de la ventana deslizante más pequeña. Esto le permite activar alerta rápidamente cuando el valor agregado en el cuadro actual se desvía significativamente del rango deseado sin sacrificar el efecto de suavizado de la ventana más grande.
Importante
Los clientes con planes de precios de Calcular avanzados y básicos pueden incurrir en cargos CCU adicionales al emplear la agregación de ventana deslizante. Si bien este método mejora el análisis de datos al suavizar las fluctuaciones, su uso puede generar mayores costos en comparación con otros métodos. Para obtener más detalles, consulte la sección de precios de ventanas corredizas. Para determinar si tiene planes de precios de Calcular avanzados o básicos, consulte su pedido.
Puede obtener más información sobre la agregación de ventanas deslizantes en este tutorial de NRQL.

En general, recomendamos utilizar el método de transmisión event flow . Esto es mejor para los datos que ingresan a su sistema de manera frecuente y constante. Hay casos específicos en los que event timer podría ser un mejor método a elegir, pero para su primera alerta, recomendamos nuestro método predeterminado, event flow. Recomendamos ver este breve vídeo (aprox. 5:31 minutos) para comprender mejor qué método de transmisión elegir.

La característica de demora en la condición de alerta protege contra posibles problemas que surjan de una recopilación de datos inconsistente. Actúa como un buffer, permitiendo tiempo adicional para que los datos lleguen y se procesen antes de activar una alerta. Esto ayuda a prevenir el falso positivo y garantiza una creación de incidentes más precisa.

Cómo funciona:

La configuración de retraso adecuada se determina evaluando la coherencia de los datos entrantes:

Datos consistentes: una configuración de retraso más baja es suficiente si los puntos de datos llegan consistentemente con una marca de tiempo dentro de un solo minuto.
Datos inconsistentes: si los puntos de datos llegan con una marca de tiempo que abarca varios minutos en el pasado o en el futuro, es necesaria una configuración de retraso más alta para dar cabida a la inconsistencia.
Creando un búfer:
La configuración de retraso seleccionada introduce un período de espera antes de que la condición de alerta evalúe los datos con respecto al umbral definido.
Este búfer da tiempo para que se resuelvan las discrepancias de datos, lo que reduce la probabilidad de alertas engañosas.

Está creando una condición de alerta para notificar a su equipo sobre cualquier problema de latencia con la aplicación WebPortal . En este ejemplo, su aplicación envía constantemente datos de New Relic. Hay un flujo constante de señales que se envían desde su aplicación a New Relic y no se espera que haya una brecha en la señal, por lo que no necesitará seleccionar una estrategia para llenar las brechas.

Las estrategias para llenar vacíos abordan escenarios en los que la recopilación de datos puede ser intermitente o incompleta. Proporcionan un método para sustituir puntos de datos faltantes con valores estimados, asegurando que la condición de alerta pueda seguir funcionando eficazmente incluso con lagunas en el flujo de datos.

Cuándo dejar de rellenar huecos:

Consistent data flow: Si su aplicación envía datos constantemente a New Relic sin los espacios esperados, como en el caso de la aplicación WebPortal, generalmente no es necesario completar los espacios. En tales casos, dejar la estrategia para llenar vacíos en ninguna suele ser el enfoque más apropiado.
Consideraciones clave:
Popular use case: Un uso común para rellenar espacios es insertar un valor de 0 para ventanas sin datos recibidos.
Anomaly thresholds: El valor de llenado de espacios se interpreta como el número de desviación estándar desde el último valor observado cuando se utiliza el umbral de anomalía. Por ejemplo, llenar los vacíos con un valor de 0 replicaría el último valor visto, asumiendo efectivamente que no hay cambios.
Obtenga más información sobre las estrategias para llenar espacios en nuestros documentos sobre señales perdidas.

Establecer umbral para condición de alerta

Si una condición de alerta es un contenedor, entonces el umbral son las reglas que debe seguir cada condición de alerta. A medida que los datos ingresan a su sistema, la condición de alerta busca cualquier incidente de estas reglas. Si la condición de alerta ve datos de su sistema que han cumplido todas las condiciones que ha establecido, creará un incidente. Un incidente indica que algo anda mal en su sistema y usted debe mirar.

A screenshot depicting how to set the threshold for an alert condition.

Los umbrales de anomalía son ideales cuando le preocupa más la desviación de los patrones esperados que los valores numéricos específicos. Le permiten monitor actividades inusuales sin necesidad de establecer límites predefinidos. La detección de anomalías de New Relic analiza dinámicamente sus datos a lo largo del tiempo, adaptando el umbral para reflejar el comportamiento en evolución del sistema.

Configurar la detección de anomalías:

Elija superior o inferior:
- Seleccione superior e inferior para estar alerta sobre cualquier desviación mayor o menor de lo esperado.
- Seleccione solo superior para centrarse únicamente en valores inusualmente altos.
Asignar prioridad:
- Establezca el nivel de prioridad en crítico para su alerta inicial a fin de garantizar la atención a problemas potenciales.
Definir criterios de incumplimiento:
- Comience con la configuración predeterminada: abra un incidente cuando una consulta devuelva un valor que se desvíe del valor previsto durante al menos cinco minutos en tres desviación estándar.
- Personalice estas configuraciones según sea necesario para alinearlas con su aplicación específica y sus requisitos de alerta.
Puede obtener más información sobre los niveles de prioridad en nuestros documentos de condición de alerta.
Obtenga más información sobre el umbral de anomalía y los comportamientos del modelo en nuestra documentación sobre anomalías.

A diferencia del umbral de anomalía, un umbral estático no analiza su conjunto de datos como un todo y determina qué comportamiento es inusual en función del historial de su sistema. En cambio, un umbral estático abrirá un incidente cada vez que su sistema se comporte de manera diferente a los criterios que usted estableció.

Debe establecer el nivel de prioridad tanto para la anomalía como para el umbral estático. Consulte la sección anterior para obtener más detalles.

En New Relic, las entidades están asociadas con el estado de salud codificado por colores. Puedes ver el estado actual de estas entidades desde sus respectivos índices y mapas. Cuando una condición de alerta está asociada a una entidad, el estado de salud de la entidad está determinado por la condición de alerta. Si la alerta desencadena un incidente, el estado de salud de la entidad cambia según el nivel de gravedad del incidente.

Si desea que la condición de alerta no afecte el estado de salud de la entidad asociada, habilite el interruptor Do not report system health status . Esto es útil cuando desea monitorear una entidad sin afectar su estado de salud general.

Importante

Cuando se crea una condición de alerta entre cuentas, el botón Do not report system health status está deshabilitado de manera predeterminada. Para evitar que la condición de alerta entre cuentas determine el estado de salud de la entidad asociada, habilítela.

avance

Todavía estamos trabajando en esta característica, ¡pero nos encantaría que la probaras!

Esta característica se proporciona actualmente como parte de un programa de vista previa de conformidad con nuestras políticas de prelanzamiento.

Cuando el periodo de vista previa pública de alertas predictivas finaliza en cualquier momento por cualquier motivo, su ventana de evaluación de condición de alerta solo se evaluará en relación con el umbral estático, lo que puede generar una ligera demora en la detección de una alerta de infracción.

Predictive Alerts de New Relic analiza datos históricos para predecir tendencias futuras. Si la predicción muestra que el umbral estático puede romper pronto, recibirá una notificación de alerta, lo que le da la oportunidad de actuar antes de que se produzcan interrupciones.

Para obtener más información, consulte la documentación de alertas predictivas.

Para habilitar alertas predictivas para su condición de alerta, realice los siguientes pasos:

En la sección Set condition thresholds , seleccione el tipo de condición de umbral como Static.
Para las alertas predictivas, habilite el interruptor Predict future behavior .
Establezca el tiempo de anticipación. Esto indica hasta qué punto en el futuro se debe buscar la predicción de infracciones. El tiempo máximo de anticipación es 360 veces la duración de la ventana.
Establezca el comportamiento previsto del evento de alerta, cuando la señal real cruza el umbral.
- Cerrar la alerta prevista y abrir una alerta real.
- Mantenga abierta la alerta prevista para reducir el ruido.

El umbral de señal perdida determina cuánto tiempo hay que esperar antes de considerar perdida una señal faltante. Si la señal no regresa dentro de ese tiempo, puedes optar por abrir un nuevo incidente o cerrar cualquiera de los relacionados. También puede optar por omitir la apertura de un incidente cuando se espera que una señal finalice. Establezca el umbral en función del comportamiento esperado de su sistema y la frecuencia de recopilación de datos. Por ejemplo, si un sitio web experimenta una pérdida total de tráfico o rendimiento, los telemetry data correspondientes enviados a New Relic también cesarán. El monitoreo de esta pérdida de señal puede servir como un sistema de alerta temprana para tales cortes.

Agregar detalles de condición de alerta

En este punto del proceso, ahora tiene una condición completamente definida y establece todas las reglas para garantizar que un incidente se abra cuando usted lo desea. Según la configuración anterior, si su condición de alerta reconoce este comportamiento en su sistema que infringe el umbral que ha establecido, creará un incidente. Ahora, todo lo que necesita hacer es nombrar esta condición y adjuntarla a una póliza.

La póliza es el sistema de clasificación del incidente. Cuando creas una política, creas la herramienta que organiza todos tus incidentes entrantes. Puede conectar políticas a workflows que le indiquen a New Relic dónde desea que vaya toda esta información entrante, con qué frecuencia desea que se envíe y dónde.

A screenshot demonstrating how you can new alert condition.

Una de las mejores prácticas para la denominación de condiciones implica un formato estructurado que transmita información esencial de un vistazo. Incluya los siguientes elementos en los nombres de sus condiciones:

Prioridad: indique la gravedad o urgencia de la alerta, como P1, P2, P3.
Señal: Especifique la métrica o condición que se monitorea, como latencia promedio alta o rendimiento bajo.
Entidad: Identifica el sistema, aplicación o componente afectado, como WebPortal App o servidor base de datos.
Un ejemplo de un nombre de condición bien formado que sigue esta estructura sería P2 | High Avg Latency | WebPortal App.

Equilibrar la capacidad de respuesta y la fatiga en su estrategia de alertas es crucial y usted ha establecido las consideraciones clave con respecto al pageview monitoreo de su aplicación WebPortal . Exploremos las opciones de políticas:

Un problema por política (predeterminado):
- Ventajas: Reduce el ruido y garantiza una acción inmediata.
- Desventajas: agrupa todos los incidentes bajo un mismo problema, incluso si se desencadenan por condiciones diferentes. No es ideal para problemas de visualización de páginas múltiples.
Un problema por condición:
- Ventajas: Crea problemas separados para cada condición, ideal para aislar y abordar problemas de latencia específicos.
- Contras: Puede generar más alerta, lo que podría provocar fatiga.
Un problema para cada incidente:
- Ventajas: Proporciona detalles granulares para sistemas externos, pero no es óptimo para el consumo interno debido a una posible sobrecarga.
- Desventajas: Es la opción más ruidosa y resulta complicado seguir tendencias más amplias y establecer prioridades de forma eficaz.
Obtenga más información sobre cómo crear políticas aquí.

Un incidente se cierra automáticamente cuando la señal objetivo vuelve a un estado de no infracción durante el período indicado en el umbral de la condición. Este tiempo de espera se llama período de recuperación.

Por ejemplo, si está midiendo la latencia y el comportamiento de infracción es que duration para cargar páginas en su aplicación WebPortal aumentó a más de 3 segundos, el incidente se cerrará automáticamente cuando duration sea igual o inferior a 3 segundos durante 5 minutos consecutivos.

Cuando un incidente se cierra automáticamente:

La timestamp de cierre tiene una fecha retroactiva al inicio del período de recuperación.
La evaluación se reinicia y se reinicia desde que finalizó el incidente anterior.
Todas las condiciones tienen una configuración de límite de tiempo de incidente que fuerza automáticamente el cierre de un incidente de larga duración.
New Relic tiene un valor predeterminado automático de 3 días y recomienda que utilice nuestra configuración predeterminada para su primera alerta.
Otra forma de cerrar un incidente abierto cuando la señal no devuelve datos es configurando un umbral loss of signal . Consulte la sección anterior sobre umbral de señal perdida para obtener más detalles.

Dado que está creando una condición de alerta que le permite saber si hay algún problema de latencia con su aplicación WebPortal , desea asegurarse de que sus desarrolladores tengan toda la información que necesitan cuando se les notifique sobre este incidente. Utilizará flujo de trabajo para notificar a un canal de Slack del equipo cuando se cree un incidente.

Obtenga más información sobre descripciones de incidentes personalizadas en nuestros documentos.

Para obtener más información sobre las alertas entre cuentas, consulte nuestras Alertas entre cuentas.

Editar una condición de alerta existente

Si desea editar una condición de alerta que ya creó, puede:

Vaya a one.newrelic.com > All capabilities > Alerts.
Seleccione Alert Conditions en la navegación izquierda.
Haga clic en la condición de alerta que desea editar.

Desde allí, verá la página Alert conditions details . Esta página contiene todos los elementos que configuró cuando creó su condición. Puede editar aspectos específicos de la condición de alerta haciendo clic en el lápiz en la parte superior derecha de cada sección.

Historial de señales

En Signal history, puede ver los resultados más recientes de la consulta NRQL que empleó para crear su condición de alerta. En este ejemplo, verá la latencia promedio en la aplicación WebPortal durante el periodo de tiempo específico que configuró.

Para todas las condiciones de alerta creadas con NRQL consulta, el Signal history se presentará con un gráfico de líneas.

Cualquier condición de alerta creada con un monitor Sintético será un poco diferente. Esto se debe a que los monitores Sintético le permiten hacer ping a su aplicación desde múltiples ubicaciones, lo que puede producir resultados positivos o negativos cada vez que se ejecuta el monitor . Estos datos sólo se pueden presentar mediante una tabla.

Tipos de condiciones

El tipo de condición principal y recomendado es una condición de alerta NRQL, pero existen otros tipos de condiciones. Incluimos una lista completa de nuestros tipos de condiciones a continuación.

Puede establecer un umbral que abra un incidente cuando sea violado por cualquiera de las instancias métricas de su aplicación Java.

Al establecer el alcance de umbral en una instancia específica, puede identificar más rápidamente dónde se originan los problemas potenciales. Esto es útil, por ejemplo, para detectar anomalías que ocurren solo en un subconjunto de la instancia de su aplicación. Este tipo de anomalías son fáciles de pasar por alto en aplicaciones que métricamente agregan una gran cantidad de instancias.

Para el monitoreo de aplicaciones Java mediante APM, puede establecer un umbral que abra un incidente cuando el tamaño del montón o la cantidad de subprocesos para una única JVM esté fuera del rango operativo esperado.

Evaluamos las violaciones del umbral de alerta individualmente para cada una de las instancias seleccionadas de la aplicación. Al crear su condición, seleccione JVM health metric como el tipo de condición para la política de alertas de su aplicación Java y luego seleccione cualquiera de los umbrales disponibles:

Hilos estancados
Uso de memoria del montón
Tiempo de utilización de la CPU
Tiempo de CPU de recolección de basura
El incidente se cerrará automáticamente cuando se cumpla el inverso del umbral, pero al usar la UI también puede cambiar el momento en que se cierra una fuerza de incidente para una métrica de estado JVM . El valor predeterminado es 24 horas.

Incluimos la opción de definir un percentil como el umbral para su condición cuando el tiempo de respuesta de su aplicación web es superior, inferior o igual a este valor. Esto es útil, por ejemplo, cuando el personal de operaciones desea alertar sobre un percentil para el tiempo de respuesta de transacción web overall de un servidor de aplicaciones en lugar del tiempo de respuesta web average .

Sugerencia

Si desea establecer un umbral arbitrario en una condición para una transacción de aplicación que no sea web, utilice la consulta característica NRQL .

Para definir el umbral percentil:

Seleccione Web transactions percentiles como tipo de condición para la condición de su aplicación y luego seleccione una sola aplicación. (Para alertar en más de una aplicación, cree una condición Web transactions percentiles individual para cada una).
Para definir el umbral que abre el incidente, escriba el valor de tiempo de respuesta Percentile nth y luego seleccione su frecuencia (arriba, debajo o igual a este valor).
Almacenamos el tiempo de transacción en milisegundos, aunque la interfaz de usuario muestra los valores críticos y de advertencia en segundos. Si desea definir milisegundos, asegúrese de incluir el punto decimal en su valor.

Al aplicar etiquetas a la aplicación, puede vincular automáticamente estas entidades a su condición. Esto facilita la gestión de todas las aplicaciones dentro de un entorno dinámico. Recomendamos utilizar el archivo de configuración del agente para mantener mejor las etiquetas de entidad.

Una sola etiqueta identifica all entidad asociada a esa etiqueta (máximo 10.000 entidades). Múltiples etiquetas solo identifican a la entidad que comparte todas las etiquetas seleccionadas.

El uso de objetivos dinámicos con su condición también requiere que establezca un temporizador de cierre de incidentes.

Para agregar, editar o eliminar hasta diez etiquetas para una condición:

Seleccione APM > Application metric como tipo de producto.
Al identificar la entidad, seleccione la pestaña Labels . Busque una etiqueta por nombre o seleccione una etiqueta de la lista de categorías.
También puedes crear condiciones directamente dentro del contexto de lo que estás monitoreando con infraestructura.

Agregar condiciones a una póliza

Para agregar más condiciones a una póliza:

Ir a one.newrelic.com > All capabilities > Alerts > Alert Policies
Detectar una política.
Haga clic en Add a condition.

Para crear una nueva condición NRQL:

Ir a one.newrelic.com > All capabilities > Alerts > Alert Conditions
Haga clic en Add a condition.

Copiar una condición

Para copiar una condición existente, incluidos su objetivo y umbral, y agregarla a otra política para la cuenta seleccionada:

Vaya a one.newrelic.com > All capabilities > Alerts > Alert conditions.
Desde la lista de condición de alerta, haga clic en el ícono de tres puntos de la alerta que desea copiar y seleccione Duplicate condition.
Desde Copy alert condition, busque o desplácese por la lista para seleccionar la política a la que desea agregar esta condición.
Opcional: cambie el nombre de la condición si es necesario.
Opcional: haga clic en el interruptor de palanca para Enable on save
Seleccione Copy condition.
De forma predeterminada, la política de alertas seleccionada agregará la condición copiada en el estado Desactivado . Siga los procedimientos estándar para agregar o copiar más condiciones a la política de alertas y luego habilite la condición según sea necesario. Además, la nueva condición no copiará ninguna etiqueta agregada a la condición original.

Activar/desactivar una condición

Para deshabilitar o volver a habilitar una condición:

Vaya a one.newrelic.com > All capabilities > Alerts > Alert Conditions. Luego, de la lista de Alert conditions, use el interruptor para habilitar o deshabilitar la condición.
Haga clic en el interruptor On/Off para alternarlo.

Si copia una condición, la guarda automáticamente en la nueva política como deshabilitada (Off), incluso si la condición estaba habilitada (On) en la política original.

Eliminar una condición

Para desactivar una condición pero mantenerla con la política, deshabilítela . Para eliminar una o más condiciones:

Vaya a one.newrelic.com > All capabilities > Alerts > Alert Conditions.
De la lista de Alert conditions, seleccione una condición y luego haga clic en Delete en el menú de puntos suspensivos (...).
Sugerencia
Si no ve el botón Eliminar, es posible que el administrador de su cuenta haya deshabilitado la eliminación de condiciones para su organización.

Solucionar problemas de la página de condición de alerta

Si ve una señal vacía en el gráfico de historial en la página de Alert Condition , considere una de las siguientes opciones:

Review the condition's settings: Vuelva a verificar que todos los elementos estén configurados correctamente.
Inspect NRQL queries: Asegúrese de que tengan un objetivo métrico o evento válido y devuelvan datos.
Examine entity configuration: Confirme que la entidad esté configurada correctamente para enviar señales.
Consult New Relic documentation: Consulte las guías pertinentes para obtener ayuda con problemas específicos.

¿Que sigue?

Crea tu primera alerta de New Relic

Un curso intensivo de alerta para principiantes

Start here