Gestión y respuesta de incidencias y problemas

Feed de problemas

La página Issues feed es donde puede encontrar una descripción general de todos sus problemas, junto con información útil sobre ellos. También puede hacer clic en cualquier problema individual para obtener más detalles, incluido su resumen de análisis, log de eventos y detalles sobre problemas correlacionados.

Vaya a one.newrelic.com > All capabilities > Alerts > Issues & activity. Esta captura de pantalla muestra un ejemplo de fuente de problemas, que describe los estados de sus problemas, las correlaciones y más.

Puede buscar fácilmente cualquier problema utilizando el texto libre de la barra de búsqueda. Esta barra de búsqueda le permite buscar por:

Nombre del problema
ID del problema
Nombre de directiva
Nombre de la condición
Nombre de la entidad
ID de entidad
Prioridad

Acciones masivas

Puede reconocer o cerrar varios problemas directamente desde la lista de tarifas de problemas seleccionándolos y eligiendo las acciones Acknowledge issues o Close issues .

Bulk actions - Acknowledge and close issues

Importante

La condición de alerta actualmente admite dos niveles de prioridad: advertencia y crítica. Estos niveles determinan la prioridad del incidente que generan.

Un umbral de advertencia en una condición de alerta crea un incidente de alta prioridad.
Un umbral crítico crea un incidente de prioridad crítica.
La prioridad de un tema se deriva de la prioridad más alta de su incidente constituyente. Por ejemplo, a un problema con 4 incidentes altos/de advertencia y 1 incidente crítico se le asignaría una prioridad crítica .

Si hace clic en el icono de filtro, puede filtrar por cualquier atributo del problema o cualquier etiqueta relacionada:

Estado del problema (creado, activo o cerrado)
Problema reconocido (verdadero o falso)
Problema silenciado (verdadero o falso)
Problema correlacionado (verdadero o falso)
Prioridad del problema (baja, media, alta o crítica)
Origen del problema (NR alerta, NR anomalía o API REST)
Entidad
Politica de alertas
Condición de alerta
Etiquetas (busque cualquier etiqueta relacionada con el tema)

También puede utilizar la opción de clasificación de feeds para encontrar lo que busca más rápido, por ejemplo, ordenar por duración del problema o hora de creación.

Página de problema

La página Issue le proporciona información fundamental valiosa para que primero pueda comprender el problema y luego minimizar el tiempo para resolverlo.

Hemos creado una demostración rápida aquí para guiarlo a través de la interfaz de usuario de la página de problemas:

El Issue page incluye las siguientes secciones:

Issue payload: Esto le proporciona los detalles de la carga útil del problema y le permite copiar la carga útil con solo hacer clic en un botón.
Issue destinations: Debajo del nombre del problema, verá una categoría llamada Notificado, que mostrará sus destinos. Pase el cursor sobre los destinos y verá una presentación detallada de los destinos y un enlace al ticket que se ha abierto.
Issue duration: En la parte superior del nombre del problema, verá la duración que duró el problema.
Number of incidents: En la parte superior de la sección de actividad de incidentes, verá el número total de incidentes dentro del problema.
Incident list: En el lado izquierdo de la sección de actividad del incidente, verá la lista de actividad del incidente, que muestra la información más relevante sobre cada incidente, como la prioridad, el estado, el nombre del incidente, la fecha y hora en que se creó y el duración. También puede ordenar la lista por duración, incidentes silenciados, del más nuevo al más antiguo y de críticos a bajos. Finalmente, puede filtrar solo por incidente abierto habilitando el botón Show open only .
Incident activity chosen: Al hacer clic en un incidente de la lista de actividades del incidente, se abrirá el incidente a la derecha en modo de vista completa, que incluirá información como política de alertas, la condición de alerta y el tipo de condición de alerta.
Incident graph: Al hacer clic en un incidente de la lista de actividades de incidentes, también se abrirá el gráfico de incidentes en su alcance completo, lo que le permitirá visualizar mejor los períodos de degradación, incidente y recuperación.
User actions (above the chart): Al hacer clic en un incidente de la lista de actividades del incidente se mostrarán ciertas acciones que puede realizar:
- Aquí aparecerá una URL runbook si esta condición tiene una URL runbook definida.
- Un botón de descripción general de la entidad que lo redirige a la página de resumen de la entidad con la ventana de tiempo del incidente (cualquier tipo de entidad).
- Un botón See errors aparece solo cuando hay grupos de errores de Errors Inbox que están relacionados con la misma entidad y ocurrieron en la misma ventana de tiempo que el incidente.
- El icono de puntos suspensivos ... tiene un menú desplegable que contiene la opción de cerrar un determinado incidente (solo cuando el problema tiene más de 1 incidente) y también muestra la carga útil del incidente.
Incident entity section (below the chart): Si hace clic en un incidente de la lista de actividades del incidente, verá lo siguiente:
- A quién pertenecen la entidad afectada, el tipo de entidad y el nombre de cuenta de este incidente.
- Una lista de etiquetas (etiqueta de entidad y condición) y sus valores. Haga clic en el botón Show all para mostrar todas las etiquetas.

Post mortem

Una autopsia es un proceso retrospectivo que los equipos utilizan para analizar qué funcionó y qué no al responder y resolver un incidente.

En la plataforma New Relic, la característica postmortem es una herramienta que recopila automáticamente datos relacionados con un incidente, lo que libera a su equipo para centrarse en el análisis y los elementos de acción para mejorar las respuestas a incidentes futuros.

La autopsia incluye:

el registro de un incidente, incluidas las descripciones
Una cronología del incidente
El impacto del incidente
Las causas fundamentales del incidente
Medidas de mitigación tomadas por su equipo
Elementos de acción de seguimiento para evitar que el incidente se repita en el futuro

Para conocer los pasos detallados sobre cómo crear una autopsia o ver nuestra demostración paso a paso, visite nuestra página de documentación postmortem .

Análisis de raíz de la causa

El análisis de causa raíz encuentra automáticamente las causas potenciales de un problema y su entidad afectada. Le muestra por qué ocurrieron problemas abiertos, qué implementación contribuyó y el log de errores y atributos relevantes. Con esto, puede investigar el problema y reducir el tiempo medio de resolución (MTTR).

Sugerencia

Tenga en cuenta que el análisis de la causa raíz depende de otras fuentes de datos y características de New Relic. Esta es la razón por la que es posible que la información del análisis de la causa raíz no siempre esté presente para todos los problemas.

A screenshot example root cause analysis

Cuando selecciona un problema, es posible que vea Root cause analysis información.

El análisis de la causa raíz incluye tres secciones principales UI :

Deployment events: Cuando configura el despliegue, le proporcionamos el despliegue más cercano a la creación del problema. Los cambios, como el despliegue, representan un alto porcentaje de las causas fundamentales del incidente y tener esa información a mano puede ayudar a diagnosticar y resolver problemas.
Error logs: Puede explorar millones de mensajes de log con un solo clic y utilizar consultas manuales para encontrar patrones anómalos y problemas difíciles de encontrar.
Attributes to investigate: Analizamos la distribución de atributos y superficializamos las posibles causas encontrando cambios significativos en la distribución. Esta sección también muestra cambios en la base de datos y métrica externa. También puedes consultar atributos interesantes.

Entidad impactada y mapa de problemas

A screenshot of the issue entity map view.

Pase el mouse sobre una entidad para ver más información sobre ella.

En la sección Impacted entities , está disponible un mapa de problemas para cualquier problema que involucre a dos o más entidades. El mapa muestra no sólo la entidad afectada, sino también los servicios y recursos directamente relacionados con esa entidad.

Impacted entities: Una entidad es cualquier cosa que tenga datos que puedas monitor. Específicamente, estos se centran en incidentes de fuentes de New Relic, extrayendo la entidad y proporcionando un resumen. Cada entidad es única. Puedes ver tu entidad en un listado o en un mapa.

Dependiendo de los datos de un número, estas cuatro secciones pueden aparecer juntas para cada número o por separado. Todo lo que tienes que hacer es hacer clic en los 3 puntos al lado de la entidad para abrir el menú desplegable con las siguientes opciones:

See dashboards ayuda al usuario en su cuenta a ver e interactuar con el panel que ha creado y que está relacionado con una entidad. La consulta que ha realizado para alimentar los distintos widgets se asigna automáticamente a la entidad siempre que sea posible y se le presenta aquí para un acceso y descubrimiento rápidos.
Entity view Se abrirá la página de anomalías de la aplicación. Esto solo está disponible para aplicaciones configuradas para detección proactiva.
Hay dos tipos de deployment events: despliegue y despliegue relacionado. Haga clic en Show all deployments para ver todos sus eventos de despliegue cuando lleguen, o haga clic en un despliegue específico para ver su página de despliegue . La página de despliegue de APM enumera los despliegues recientes y su impacto en las puntuaciones Apdex, el tiempo de respuesta, el rendimiento y los errores del usuario final y del servidor de aplicaciones. Esta sección solo aparecerá si New Relic ha identificado la aplicación bajo la entidad impactada que se ha desplegado.

Emitir cronograma y log

El cronograma del problema, como se presenta a continuación, muestra un desglose de:

Incidentes
Las tendencias que se están produciendo
¿Qué incidentes están activos?
¿Qué incidentes se resuelven?
¿Qué se correlaciona entre sí?
Varios hitos en diferentes niveles temáticos

Si está interesado en ver el log de problemas, simplemente puede cambiar al botón log de problemas donde podrá ver la timestamp y los detalles de la notificación. También puede hacer clic en "mostrar más" para ver el log de problemas completo.

Además, verás una línea gris en la parte superior de la línea de tiempo. En comparación con la línea de tiempo visual que muestra los cambios en cada incidente, la línea gris representa los cambios en el problema.

A screenshot of the incident intelligence issue timeline with event detail.

Pase el mouse sobre la línea gris para ver los detalles del evento.

Finalmente, pase el mouse sobre el incidente para ver información sobre la ubicación, el momento y el nivel de importancia de un incidente específico.

A screenshot of the incident intelligence issue timeline with critical event detail.

Esta figura muestra un incidente particular poblado el 11 de enero con un nivel de Critical.

Para ver los números en formato de texto, en la esquina derecha, haga clic en Switch to issue log view.

Usar decisiones

Para reducir aún más el ruido u obtener una mejor correlación de incidentes, puede cambiar o personalizar sus decisiones. Las decisiones determinan cómo se agrupan los incidentes.

Para comenzar, consulte Decisiones.

Te ofrecemos esta traducción automática para facilitar la lectura.

Gestión y respuesta de incidencias y problemas

Feed de problemas

Problemas de búsqueda y filtrado

Acciones masivas

Importante

Página de problema

Post mortem

Análisis de raíz de la causa

Sugerencia

Entidad impactada y mapa de problemas

Emitir cronograma y log

Usar decisiones

Te ofrecemos esta traducción automática para facilitar la lectura.

Gestión y respuesta de incidencias y problemas

Feed de problemas .css-21sua1{background:none;border:none;width:0;padding:0;}

Problemas de búsqueda y filtrado

Acciones masivas

Importante

Página de problema

Post mortem

Análisis de raíz de la causa

Sugerencia

Entidad impactada y mapa de problemas

Emitir cronograma y log

Usar decisiones

Feed de problemas