Cuando su sistema esté completamente instrumentado, podrá correlacionar datos entre la infraestructura de su sistema y las aplicaciones que admite su infraestructura. Sin embargo, es probable que tengas miles de hosts sin rostro asignando recursos a varias aplicaciones. Es posible que no tenga el contexto completo de lo que está sucediendo y dónde, lo que hace que encontrar datos relevantes sea abrumador. ¿Cómo clasifica todos sus datos para encontrar causas relacionadas con la infraestructura de aplicaciones fallidas?
Objetivos
Este documento le guiará en la búsqueda de datos relevantes dentro de la UI de la infraestructura. Vas a:
- Filtra los datos de tu infraestructura por atributo
- Identifique hosts y aplicaciones específicos sin contexto adicional
- Utilice el selector de tiempo para encontrar cuándo ocurrió un cambio
Explore los datos de su host para encontrar la causa de una interrupción
Identificar hosts defectuosos
Si no está seguro de cómo empezar, le recomendamos delimitar inicialmente sus hosts según la gravedad de la alerta. Mediante la vista general de la página de resumen, puede ver que hay tres eventos de alerta crítica ocurriendo en su sistema.
Puedes usar la barra de filtro para ver datos solo sobre esas tres alerta crítica. En este caso, su consulta sería alertSeverity = 'CRITICAL', que limita sus datos agregados de 83 hosts a tres.

Si aún no has configurado , siempre puedes ordenar la tabla de resumen por hosts métrica. Por ejemplo, digamos que no tiene indicios de que los hosts estén fallando pero aún así se le notificó sobre un problema.

- Haga clic en la columna de nombre en la tabla de resumen. Puede ordenar en orden ascendente o descendente.
- En la captura de pantalla, ordenamos los hosts por uso de CPU, lo que colocó
host-tower-portlanden la parte superior con un 99,84 % de CPU. - Repita el mismo proceso para el uso de la memoria, el uso del almacenamiento, etc., si es necesario. Repita hasta que haya encontrado un patrón de comportamiento anómalo.
- Cuando tenga tiempo, considere crear alertas para cualquier umbral crítico.
Filtrar por nombre de la aplicación
Una vez que haya identificado un host relacionado con el evento de alerta, puede hacer clic para ver datos únicamente de ese host. En este escenario, hemos seleccionado apache-svr01. Dado que estamos intentando resolver un problema relacionado con la aplicación, comenzamos en el mapa de servicios en la página del host. Este mapa muestra qué aplicaciones dependen del host seleccionado.
Regrese a la página de resumen de infraestructura para que pueda actualizar su consulta. Queremos evaluar todos los hosts relacionados con esta aplicación incluso si aún no están alertando. Ver el host problemático en el contexto de su conjunto de socios mejora su comprensión de la causa del error de la aplicación. Por ejemplo, tal vez los otros hosts se estén acercando a un umbral, o tal vez no haya creado una alerta para esos otros hosts.
Ajuste la barra de filtro para mostrar los hosts relacionados con la aplicación Orders team . Su consulta ahora debería leer apmApplicationNames = Orders team.

Este filtro amplió el radio del evento de alerta más allá de su host apache_svr01 inicial, pero mantuvo sus datos acotados a un conjunto relevante. Desde aquí, puede comenzar a profundizar en qué limitación de recursos está afectando el rendimiento.
- Dado que solo un par de estos hosts están alertando, puede descartar un posible problema con la base de datos, que afectaría a todos los hosts.
- En su lugar, puede optar por profundizar en las pestañas Sistema, Red, Procesos, Almacenamiento o contenedor Docker. El siguiente documento de esta serie cubre cómo comparar y correlacionar el comportamiento de los datos.
Ajuste el selector de tiempo para encontrar cuándo ocurrió un cambio por primera vez
Ajustar el selector de tiempo le permite ver cómo han cambiado sus datos con el tiempo. Esta acción le permite realizar un seguimiento de cuándo se produjo un cambio por primera vez. Miremos estos gráficos métricos alternados entre hace 3 horas y hace 6 horas.
Su serie temporal a las 6 horas no muestra un aumento obvio en la utilización del disco. Cambiado a un parámetro de 3 horas, puede ver aproximadamente cuándo el comportamiento comenzó a cambiar. Tus gráficos métricos te dan una pista visual cuando ocurre un pico o una caída.
Si ha habido un aumento inesperado en la carga, el mosaico Events mostrará muchos o muy pocos eventos esperados.
El mosaico Alerts muestra el número de hosts que actualmente están alertando con umbrales críticos o de advertencia. Un aumento constante en las alertas a lo largo del tiempo podría indicar cuándo un cambio intensificó el comportamiento de los eventos de alerta.
Los mosaicos y los gráficos de métricas pueden ayudarle a triangular el momento aproximado de un evento de alerta. Esto es especialmente útil si la causa de un evento de alerta se debe a una actualización de un proveedor externo o a un despliegue de otro equipo. Si ese es el caso, su siguiente paso para profundizar cambiaría.
¿Que sigue?
Hemos presentado cómo localizar aplicaciones defectuosas mediante la evaluación de los datos de su infraestructura. Al comenzar con la página de resumen, puede obtener una descripción general del rendimiento de sus hosts a lo largo del tiempo e identificar qué hosts admiten aplicaciones defectuosas.
¿Pero cómo utiliza los datos de su infraestructura para tomar una decisión sobre la asignación de recursos? El siguiente documento explica cómo profundizar en un evento de alerta más específico, como la solución de problemas de alto consumo de CPU.



