Te ofrecemos esta traducción automática para facilitar la lectura.
En caso de que haya discrepancias entre la versión en inglés y la versión traducida, se entiende que prevalece la versión en inglés. Visita esta página para obtener más información.
Una condición de alerta es el elemento central que define cuándo se crea un incidente . Actúa como punto de partida esencial para crear cualquier alerta significativa. La condición de alerta contiene el parámetro o umbral cumplido antes de ser informado. Pueden mitigar las alertas excesivas o informar a su equipo cuando aparece un comportamiento nuevo o inusual.
Crear una nueva condición de alerta
Una condición de alerta es una consulta que se ejecuta continuamente que mide un conjunto determinado de eventos frente a un umbral definido y abre un incidente cuando se alcanza el umbral durante un período de tiempo específico.
Este ejemplo demuestra la creación manual de una nueva condición de alerta utilizando la página Alert condition details . Pero hay muchas maneras de crear una condición de alerta. Puede crear una condición de alerta desde:
También puedes utilizar uno de nuestros creadores de alertas:
Utilice Write your own query para crear alerta desde cero
Use guided mode
Para todos los métodos, excepto nuestro modo guiado, el proceso para crear una condición de alerta será exactamente el mismo que se describe en los pasos a continuación.
Establece el comportamiento de tu señal
En este ejemplo, imagine que su equipo administra la aplicación WebPortal para un sitio de comercio electrónico. Quiere estar alerta ante cualquier problema de latencia.
Seleccione Alert Conditions en la navegación izquierda.
Luego seleccione New alert condition.
Seleccione Write your own query.
Puede utilizar una consulta NRQL para definir las señales que desea que utilice una condición de alerta como base para su alerta. Para este ejemplo, utilizará esta consulta:
SELECT average(duration)
FROM PageView
WHERE appName = 'WebPortal'
El uso de esta consulta para su condición de alerta le indica a New Relic que desea conocer la latencia o duración promedio para cargar páginas dentro de su aplicación WebPortal . Las alertas proactivas sobre latencia, una de las principales señales doradas, proporcionan alertas tempranas de posible degradación.
Puede obtener más información sobre cómo utilizar NRQL, el lenguaje de consulta de New Relic, consulte nuestra documentación de NRQL.
Ajuste la configuración de señal avanzada
Una vez que haya definido su señal, haga clic en Run. Aparecerá un gráfico que mostrará el parámetro que has configurado.
Para este ejemplo, el gráfico mostrará la latencia promedio de su aplicación WebPortal . Haga clic en Next y comience a configurar su condición de alerta.
Para este ejemplo, personalizará estas configuraciones de señal avanzadas para la condición que creó para monitor la latencia en su aplicación WebPortal.
La duración de la ventana define cómo New Relic agrupa sus datos para su análisis en una condición de alerta. Elegir la configuración correcta depende de la frecuencia de sus datos y del nivel de detalle deseado:
High-frequency data (for example, pageviews every minute): establezca la duración de la ventana para que coincida con la frecuencia de los datos (1 minuto en este caso) para obtener Insights en tiempo real sobre fluctuaciones y tendencias.
Low-frequency data (for example, hourly signals): elija una duración de ventana que capture suficientes datos para revelar patrones y anomalías (por ejemplo, 60 minutos para señales horarias).
Recuerde, puede personalizar la duración de la ventana según sus necesidades y experiencia. Recomendamos utilizar los valores predeterminados al iniciar y experimentar a medida que se sienta más cómodo creando condiciones de alerta.
Los métodos de agregación tradicionales pueden resultar insuficientes cuando se trata de datos escasamente poblados o que muestran fluctuaciones significativas entre intervalos. A continuación se explica cómo utilizar la agregación de ventanas deslizantes para analizar dichos datos y activar alertas oportunas de manera efectiva:
Smooth out the noise: Comience creando una ventana de agregación grande. Esta ventana (por ejemplo, 5 minutos) actúa como un búfer, suavizando el "ruido" inherente o la variabilidad de sus datos. Esto ayuda a prevenir alertas espurias provocadas por picos o caídas aisladas.
Avoid lag with a sliding window: Si bien una ventana grande ayuda en el análisis de datos, si espera a que transcurra todo el intervalo antes de verificar el umbral, puede experimentar retrasos significativos en la notificación de alerta. Recomendamos ventanas correderas más pequeñas (por ejemplo, un minuto). Imagine esta ventana deslizante como un marco en movimiento que escanea sus datos dentro de la ventana de agregación más grande. Cada vez que el cuadro avanza en su intervalo menor, calcula un valor agregado (por ejemplo, promedio).
Set your threshold duration: Ahora puede definir su umbral de alerta dentro del contexto de la ventana deslizante más pequeña. Esto le permite activar alerta rápidamente cuando el valor agregado en el cuadro actual se desvía significativamente del rango deseado sin sacrificar el efecto de suavizado de la ventana más grande.
Puede obtener más información sobre la agregación de ventanas deslizantes en este tutorial de NRQL.
En general, recomendamos utilizar el método de transmisión event flow . Esto es mejor para los datos que ingresan a su sistema de manera frecuente y constante. Hay casos específicos en los que event timer podría ser un mejor método a elegir, pero para su primera alerta, recomendamos nuestro método predeterminado, event flow. Recomendamos ver este breve vídeo (aprox. 5:31 minutos) para comprender mejor qué método de transmisión elegir.
La característica de demora en la condición de alerta protege contra posibles problemas que surjan de una recopilación de datos inconsistente. Actúa como un buffer, permitiendo tiempo adicional para que los datos lleguen y se procesen antes de activar una alerta. Esto ayuda a prevenir el falso positivo y garantiza una creación de incidentes más precisa.
Cómo funciona:
La configuración de retraso adecuada se determina evaluando la coherencia de los datos entrantes:
Datos consistentes: una configuración de retraso más baja es suficiente si los puntos de datos llegan consistentemente con una marca de tiempo dentro de un solo minuto.
Datos inconsistentes: si los puntos de datos llegan con una marca de tiempo que abarca varios minutos en el pasado o en el futuro, es necesaria una configuración de retraso más alta para dar cabida a la inconsistencia.
Creando un búfer:
La configuración de retraso seleccionada introduce un período de espera antes de que la condición de alerta evalúe los datos con respecto al umbral definido.
Este búfer da tiempo para que se resuelvan las discrepancias de datos, lo que reduce la probabilidad de alertas engañosas.
Está creando una condición de alerta para notificar a su equipo sobre cualquier problema de latencia con la aplicación WebPortal . En este ejemplo, su aplicación envía constantemente datos de New Relic. Hay un flujo constante de señales que se envían desde su aplicación a New Relic y no se espera que haya una brecha en la señal, por lo que no necesitará seleccionar una estrategia para llenar las brechas.
Las estrategias para llenar vacíos abordan escenarios en los que la recopilación de datos puede ser intermitente o incompleta. Proporcionan un método para sustituir puntos de datos faltantes con valores estimados, asegurando que la condición de alerta pueda seguir funcionando eficazmente incluso con lagunas en el flujo de datos.
Cuándo dejar de rellenar huecos:
Consistent data flow: Si su aplicación envía datos constantemente a New Relic sin los espacios esperados, como en el caso de la aplicación WebPortal, generalmente no es necesario completar los espacios. En tales casos, dejar la estrategia para llenar vacíos en ninguna suele ser el enfoque más apropiado.
Consideraciones clave:
Popular use case: Un uso común para rellenar espacios es insertar un valor de 0 para ventanas sin datos recibidos.
Anomaly thresholds: El valor de llenado de espacios se interpreta como el número de desviación estándar desde el último valor observado cuando se utiliza el umbral de anomalía. Por ejemplo, llenar los vacíos con un valor de 0 replicaría el último valor visto, asumiendo efectivamente que no hay cambios.
Si una condición de alerta es un contenedor, entonces el umbral son las reglas que debe seguir cada condición de alerta. A medida que los datos ingresan a su sistema, la condición de alerta busca cualquier incidente de estas reglas. Si la condición de alerta ve datos de su sistema que han cumplido todas las condiciones que ha establecido, creará un incidente. Un incidente indica que algo anda mal en su sistema y usted debe mirar.
Los umbrales de anomalía son ideales cuando le preocupa más la desviación de los patrones esperados que los valores numéricos específicos. Le permiten monitor actividades inusuales sin necesidad de establecer límites predefinidos. La detección de anomalías de New Relic analiza dinámicamente sus datos a lo largo del tiempo, adaptando el umbral para reflejar el comportamiento en evolución del sistema.
Configurar la detección de anomalías:
Elija superior o inferior:
Seleccione superior e inferior para estar alerta sobre cualquier desviación mayor o menor de lo esperado.
Seleccione solo superior para centrarse únicamente en valores inusualmente altos.
Asignar prioridad:
Establezca el nivel de prioridad en crítico para su alerta inicial a fin de garantizar la atención a problemas potenciales.
Definir criterios de incumplimiento:
Comience con la configuración predeterminada: abra un incidente cuando una consulta devuelva un valor que se desvíe del valor previsto durante al menos cinco minutos en tres desviación estándar.
Personalice estas configuraciones según sea necesario para alinearlas con su aplicación específica y sus requisitos de alerta.
Obtenga más información sobre el umbral de anomalía y los comportamientos del modelo en nuestra documentación sobre anomalías.
A diferencia del umbral de anomalía, un umbral estático no analiza su conjunto de datos como un todo y determina qué comportamiento es inusual en función del historial de su sistema. En cambio, un umbral estático abrirá un incidente cada vez que su sistema se comporte de manera diferente a los criterios que usted estableció.
Debe establecer el nivel de prioridad tanto para la anomalía como para el umbral estático. Consulte la sección anterior para obtener más detalles.
El umbral de pérdida de señal determina cuánto tiempo esperar antes de considerar perdida una señal faltante. Si en ese tiempo no vuelve la señal, podrás optar por abrir un nuevo incidente o cerrar alguno relacionado. Establezca el umbral según el comportamiento esperado de su sistema y la frecuencia de recopilación de datos. Por ejemplo, si un sitio web experimenta una pérdida total de tráfico o rendimiento, los telemetry data correspondientes enviados a New Relic también cesarán. El monitoreo de esta pérdida de señal puede servir como un sistema de alerta temprana para tales cortes.
Agregar detalles de condición de alerta
En este punto del proceso, ahora tiene una condición completamente definida y establece todas las reglas para garantizar que un incidente se abra cuando usted lo desea. Según la configuración anterior, si su condición de alerta reconoce este comportamiento en su sistema que infringe el umbral que ha establecido, creará un incidente. Ahora, todo lo que necesita hacer es nombrar esta condición y adjuntarla a una póliza.
La póliza es el sistema de clasificación del incidente. Cuando creas una política, creas la herramienta que organiza todos tus incidentes entrantes. Puede conectar políticas a workflows que le indiquen a New Relic dónde desea que vaya toda esta información entrante, con qué frecuencia desea que se envíe y dónde.
Una de las mejores prácticas para la denominación de condiciones implica un formato estructurado que transmita información esencial de un vistazo. Incluya los siguientes elementos en los nombres de sus condiciones:
Prioridad: indique la gravedad o urgencia de la alerta, como P1, P2, P3.
Señal: Especifique la métrica o condición que se monitorea, como latencia promedio alta o rendimiento bajo.
Entidad: Identifica el sistema, aplicación o componente afectado, como WebPortal App o servidor base de datos.
Un ejemplo de un nombre de condición bien formado que sigue esta estructura sería P2 | High Avg Latency | WebPortal App.
Si ya tiene una política que desea conectar a una condición de alerta, seleccione la política existente.
Obtenga más información sobre cómo crear políticas aquí.
Equilibrar la capacidad de respuesta y la fatiga en su estrategia de alertas es crucial y usted ha establecido las consideraciones clave con respecto al pageview monitoreo de su aplicación WebPortal . Exploremos las opciones de políticas:
Un problema por política (predeterminado):
Ventajas: Reduce el ruido y garantiza una acción inmediata.
Desventajas: agrupa todos los incidentes bajo un mismo problema, incluso si se desencadenan por condiciones diferentes. No es ideal para problemas de visualización de páginas múltiples.
Un problema por condición:
Ventajas: Crea problemas separados para cada condición, ideal para aislar y abordar problemas de latencia específicos.
Contras: Puede generar más alerta, lo que podría provocar fatiga.
Un problema para cada incidente:
Ventajas: Proporciona detalles granulares para sistemas externos, pero no es óptimo para el consumo interno debido a una posible sobrecarga.
Desventajas: Es la opción más ruidosa y resulta complicado seguir tendencias más amplias y establecer prioridades de forma eficaz.
Obtenga más información sobre cómo crear políticas aquí.
Un incidente se cierra automáticamente cuando la señal objetivo vuelve a un estado de no infracción durante el período indicado en el umbral de la condición. Este tiempo de espera se llama período de recuperación.
Por ejemplo, si está midiendo la latencia y el comportamiento de infracción es que duration para cargar páginas en su aplicación WebPortal aumentó a más de 3 segundos, el incidente se cerrará automáticamente cuando duration sea igual o inferior a 3 segundos durante 5 minutos consecutivos.
Cuando un incidente se cierra automáticamente:
La timestamp de cierre tiene una fecha retroactiva al inicio del período de recuperación.
La evaluación se reinicia y se reinicia desde que finalizó el incidente anterior.
Todas las condiciones tienen una configuración de límite de tiempo de incidente que fuerza el cierre automático de un incidente de larga duración.
New Relic tiene un valor predeterminado automático de 3 días y recomienda que utilice nuestra configuración predeterminada para su primera alerta.
Otra forma de cerrar un incidente abierto cuando la señal no devuelve datos es configurando un umbral loss of signal . Consulte la sección anterior sobre umbral de señal perdida para obtener más detalles.
Dado que está creando una condición de alerta que le permite saber si hay algún problema de latencia con su aplicación WebPortal , desea asegurarse de que sus desarrolladores tengan toda la información que necesitan cuando se les notifique sobre este incidente. Utilizará flujo de trabajo para notificar a un canal de Slack del equipo cuando se cree un incidente.
Obtenga más información sobre descripciones de incidentes personalizadas en nuestros documentos.
Usar la plantilla de título es opcional pero lo recomendamos. Una condición de alerta define un conjunto de umbrales que desea monitor. Si se traspasa alguno de esos umbrales, se crea un incidente. Las plantillas de títulos significativas lo ayudan a identificar problemas y resolver interrupciones más rápido.
Obtenga más información sobre las plantillas de títulos en nuestros documentos.
En este campo a menudo se vincula un runbook de operaciones que detalla los pasos de investigación, clasificación o remediación.
Editar una condición de alerta existente
Si desea editar una condición de alerta que ya creó, puede:
Seleccione Alert Conditions en la navegación izquierda.
Haga clic en la condición de alerta que desea editar.
Desde allí, verá la página Alert conditions details . Esta página contiene todos los elementos que configuró cuando creó su condición. Puede editar aspectos específicos de la condición de alerta haciendo clic en el lápiz en la parte superior derecha de cada sección.
Historial de señales
En Signal history, puede ver los resultados más recientes de la consulta NRQL que empleó para crear su condición de alerta. En este ejemplo, verá la latencia promedio en la aplicación WebPortal durante el periodo de tiempo específico que configuró.
Para todas las condiciones de alerta creadas con NRQL consulta, el Signal history se presentará con un gráfico de líneas.
Cualquier condición de alerta creada con un monitor Sintético será un poco diferente. Esto se debe a que los monitores Sintético le permiten hacer ping a su aplicación desde múltiples ubicaciones, lo que puede producir resultados positivos o negativos cada vez que se ejecuta el monitor . Estos datos sólo se pueden presentar mediante una tabla.
Tipos de condiciones
El tipo de condición principal y recomendado es una condición de alerta NRQL, pero existen otros tipos de condiciones. Incluimos una lista completa de nuestros tipos de condiciones a continuación.
Las alertas de anomalías le permiten crear condiciones que se ajustan dinámicamente a los datos y tendencias cambiantes, como patrones semanales o estacionales. Esta característica está disponible para las aplicaciones y , así como para la consulta NRQL.
Puede establecer un umbral que abra un incidente cuando sea violado por cualquiera de las instancias métricas de su aplicación Java.
Al establecer el alcance de umbral en una instancia específica, puede identificar más rápidamente dónde se originan los problemas potenciales. Esto es útil, por ejemplo, para detectar anomalías que ocurren solo en un subconjunto de la instancia de su aplicación. Este tipo de anomalías son fáciles de pasar por alto en aplicaciones que métricamente agregan una gran cantidad de instancias.
Para el monitoreo de aplicaciones Java mediante APM, puede establecer un umbral que abra un incidente cuando el tamaño del montón o la cantidad de subprocesos para una única JVM esté fuera del rango operativo esperado.
Evaluamos las violaciones del umbral de alerta individualmente para cada una de las instancias seleccionadas de la aplicación. Al crear su condición, seleccione JVM health metric como el tipo de condición para la política de alertas de su aplicación Java y luego seleccione cualquiera de los umbrales disponibles:
Hilos estancados
Uso de memoria del montón
Tiempo de utilización de la CPU
Tiempo de CPU de recolección de basura
Los incidentes se cerrarán automáticamente cuando se alcance el valor inverso del umbral, pero al utilizar la UI también puede cambiar el momento en que un incidente se cierra forzosamente para una métrica de estado de JVM. El valor predeterminado es 24 horas.
Incluimos la opción de definir un percentil como el umbral para su condición cuando el tiempo de respuesta de su aplicación web es superior, inferior o igual a este valor. Esto es útil, por ejemplo, cuando el personal de operaciones desea alertar sobre un percentil para el tiempo de respuesta de transacción weboverall de un servidor de aplicaciones en lugar del tiempo de respuesta web average .
Seleccione Web transactions percentiles como tipo de condición para la condición de su aplicación y luego seleccione una sola aplicación. (Para alertar en más de una aplicación, cree una condición Web transactions percentiles individual para cada una).
Para definir el umbral que abre el incidente, escriba el valor de tiempo de respuesta Percentile nth y luego seleccione su frecuencia (arriba, debajo o igual a este valor).
Almacenamos el tiempo de transacción en milisegundos, aunque la interfaz de usuario muestra los valores críticos y de advertencia en segundos. Si desea definir milisegundos, asegúrese de incluir el punto decimal en su valor.
Al aplicar etiquetas a la aplicación, puede vincular automáticamente estas entidades a su condición. Esto facilita la gestión de todas las aplicaciones dentro de un entorno dinámico. Recomendamos utilizar el archivo de configuración del agente para mantener mejor las etiquetas de entidad.
Una sola etiqueta identifica all entidad asociada a esa etiqueta (máximo 10.000 entidades). Múltiples etiquetas solo identifican a la entidad que comparte todas las etiquetas seleccionadas.
Por ejemplo, para recibir una notificación cuando un agente de infraestructura deja de recibir datos, emplee el tipo de condición de host que no informa . Esto le permite alertar dinámicamente sobre grupos de hosts filtrados y configurar la ventana de tiempo de 5 a 60 minutos.
Desde la lista de condición de alerta, haga clic en el ícono de tres puntos de la alerta que desea copiar y seleccione Duplicate condition.
Desde Copy alert condition, busque o desplácese por la lista para seleccionar la política a la que desea agregar esta condición.
Opcional: cambie el nombre de la condición si es necesario.
Opcional: haga clic en el interruptor de palanca para Enable on save
Seleccione Copy condition.
De forma predeterminada, la política de alertas seleccionada agregará la condición copiada en el estado Desactivado . Siga los procedimientos estándar para agregar o copiar más condiciones a la política de alertas y luego habilite la condición según sea necesario. Además, la nueva condición no copiará ninguna etiqueta agregada a la condición original.
Activar/desactivar una condición
Para deshabilitar o volver a habilitar una condición:
Vaya a one.newrelic.com > All capabilities > Alerts > Alert Conditions. Luego, de la lista de Alert conditions, use el interruptor para habilitar o deshabilitar la condición.
Haga clic en el interruptor On/Off para alternarlo.
Si copia una condición, la guarda automáticamente en la nueva política como deshabilitada (Off), incluso si la condición estaba habilitada (On) en la política original.
Eliminar una condición
Para desactivar una condición pero mantenerla con la política, deshabilítela . Para eliminar una o más condiciones: