Importante
Habilite la integraciónAWS CloudWatch Metric Streams para monitor todas las métricas de CloudWatch desde sus servicios de AWS, incluido el espacio de nombres personalizado. La integración individual ya no es nuestra opción recomendada.
La integración New Relic Infrastructure incluye una integración para informar sus datos de Amazon EMR (Elastic MapReduce) a New Relic. Este documento explica cómo activar esta integración y describe los datos que se pueden reportar.
Característica
Puede monitor y alertar sobre sus datos EMR directamente desde New Relic, consultar datos y crear un panel.
Activar la integración
Para habilitar esta integración, siga los procedimientos estándar para conectar los servicios de AWS a New Relic.
Configuración y sondeo
Puede cambiar la frecuencia de sondeo y filtrar datos usando las opciones de configuración.
Información de sondeo predeterminada para la integración de Amazon EMR:
- New Relic intervalo de sondeo: 5 minutos
- Resolución: 1 punto de datos cada 5 minutos
Explorar datos de integración
Para utilizar sus datos de integración, vaya a one.newrelic.com > All capabilities > Infrastructure > AWS y seleccione uno de los enlaces de integración de EMR.
Puedes consultar y explorar tus datos utilizando el tipo de evento ElasticMapReduceClusterSample
, con un valor provider
de ElasticMapReduceCluster
.
Datos métricos
Esta integración recopila los siguientes datos de Amazon EMR. Para casos de uso e información adicional, consulte la documentación de EMR de Amazon.
Nombre | Descripción |
---|---|
| Indica que un clúster ya no realiza trabajo, pero sigue activo y acumulando cargos. Se establece en 1 si no se están ejecutando tareas ni trabajos, y se establece en 0 en caso contrario. Este valor se verifica en intervalos de cinco minutos y un valor de 1 indica solo que el clúster estaba inactivo cuando se verificó, no que estuvo inactivo durante los cinco minutos completos. Recommendation: Para evitar falsos positivos, aumente un umbral de alerta cuando este valor haya sido 1 durante más de una comprobación consecutiva de cinco minutos. Por ejemplo, genere una alerta sobre este valor si ha sido 1 durante treinta minutos o más. |
| La cantidad de nodos centrales que funcionan. Los puntos de datos para esta métrica se informan solo cuando existe un grupo de instancias correspondiente. |
| La cantidad de nodos centrales que esperan ser asignados. Es posible que todos los nodos centrales solicitados no estén disponibles de inmediato; esta métrica informa las solicitudes pendientes. Los puntos de datos para esta métrica se informan solo cuando existe un grupo de instancias correspondiente. |
| El porcentaje de nodos de datos que reciben trabajo de Hadoop. |
| La cantidad de bytes escritos en Amazon S3. Esta métrica agrega trabajos de MapReduce únicamente. No aplica para otra carga de trabajo en EMR. |
| La cantidad de bytes leídos de Amazon S3. Esta métrica agrega trabajos de MapReduce únicamente y no se aplica a otras cargas de trabajo en EMR. |
| El porcentaje de almacenamiento HDFS utilizado actualmente. |
| La cantidad de bytes leídos de HDFS. |
| El número de bytes escritos en HDFS. |
| La cantidad de bloques en los que HDFS no tiene réplicas. Estos podrían ser bloques corruptos. |
| El número total actual de lectores y escritores informados por todos los DataNodes en un clúster. |
| La cantidad de tiempo que tardó en completarse la copia de seguridad anterior. Esta métrica se establece independientemente de si la última copia de seguridad completada se realizó correctamente o falló. Mientras la copia de seguridad está en curso, esta métrica devuelve la cantidad de minutos después de que comenzó la copia de seguridad. Esta métrica solo se reporta para el clúster HBase. |
| La cantidad de minutos transcurridos después de que se inició la última copia de seguridad exitosa de HBase en su clúster. Esta métrica solo se reporta para el clúster HBase. |
Las siguientes métricas aparecen en la muestra dependiendo de la versión Hadoop del recurso.
Hadoop 1 AMI métricas
Nombre | Descripción |
---|---|
| La cantidad de trabajos en el clúster que se están ejecutando actualmente. |
| La cantidad de trabajos en el clúster que fallaron. |
| El número de tareas de mapa en ejecución para cada trabajo. Si tiene un programador instalado y varios trabajos en ejecución, se generan varios gráficos. |
| El número de tareas de mapa restantes para cada trabajo. Si tiene un programador instalado y varios trabajos en ejecución, se generan varios gráficos. Una tarea de mapa restante es aquella que no se encuentra en ninguno de los siguientes estados: |
| La capacidad de tarea de mapa no utilizada. Esto se calcula como la cantidad máxima de tareas de mapas para un clúster determinado, menos la cantidad total de tareas de mapas que se ejecutan actualmente en ese clúster. |
| La proporción entre el total de tareas de mapas restantes y el total de espacios de mapas disponibles en el clúster. |
| El número de tareas reducidas en ejecución para cada trabajo. Si tiene un programador instalado y varios trabajos en ejecución, se generan varios gráficos. |
| El número de tareas reducidas en ejecución para cada trabajo. Si tiene un programador instalado y varios trabajos en ejecución, se generan varios gráficos. |
| No utilizados reducen la capacidad de la tarea. Esto se calcula como la capacidad máxima de tareas de reducción para un clúster determinado, menos la cantidad de tareas de reducción que se ejecutan actualmente en ese clúster. |
| El número de nodos de tareas en funcionamiento. Los puntos de datos para esta métrica se informan solo cuando existe un grupo de instancias correspondiente. |
| La cantidad de nodos centrales que esperan ser asignados. Es posible que todos los nodos de tareas solicitados no estén disponibles de inmediato; esta métrica informa las solicitudes pendientes. Los puntos de datos para esta métrica se informan solo cuando existe un grupo de instancias correspondiente. |
| El porcentaje de rastreadores de tareas que son funcionales. |
| Si falló la última copia de seguridad. Esto se establece en 0 de forma predeterminada y se actualiza a 1 si falló el intento de copia de seguridad anterior. Esta métrica solo se reporta para el clúster HBase. |
Hadoop 2 AMI métricas
Nombre | Descripción |
---|---|
| El número de contenedor de recursos asignado por ResourceManager. |
| El número de contenedor de recursos asignado por ResourceManager. |
| El número de contenedores en la cola que aún no se han asignado. |
| La proporción de contenedores pendientes a contenedores asignados. |
| El número de solicitudes enviadas a YARN que se han completado. |
| El número de solicitudes enviadas a YARN que no se completaron. |
| El número de solicitudes enviadas a YARN que han sido eliminadas. |
| El número de solicitudes enviadas a YARN que están en estado pendiente. |
| El número de aplicaciones enviadas a YARN que se están ejecutando. |
| El número de solicitudes enviadas a YARN. |
| La cantidad de nodos actualmente disponibles para los trabajos de MapReduce. |
| La cantidad de nodos que actualmente ejecutan tareas o trabajos de MapReduce. |
| La cantidad de nodos asignados a MapReduce que se han marcado en estado PERDIDO. |
| La cantidad de nodos disponibles para los trabajos de MapReduce marcados en un estado NO SALUDABLE. |
| La cantidad de nodos asignados a la aplicación MapReduce que se han marcado en estado DECOMMISSIONED. |
| La cantidad de nodos disponibles para MapReduce que se han reiniciado y marcado en un estado REBOOTED. |
| La cantidad de bloques que HDFS informa como corruptos. |
| La cantidad total de memoria en el clúster. |
| La cantidad de memoria reservada. |
| La cantidad de memoria disponible para asignar. |
| La cantidad de memoria asignada al clúster. |
| El porcentaje de memoria restante disponible para YARN |
| La cantidad de bloques que deben replicarse una o más veces. |
| El estado de la replicación de bloques: bloques que se replican, antigüedad de las solicitudes de replicación y solicitudes de replicación fallidas. |
| La cantidad de capacidad restante del disco HDFS. |
| Si falló la última copia de seguridad. Esto se establece en 0 de forma predeterminada y se actualiza a 1 si falló el intento de copia de seguridad anterior. Esta métrica solo se reporta para el clúster HBase. |