La integración New Relic Infrastructure ahora incluye una integración para AWS Sagemaker, enviando sus datos métricos a New Relic.
Este documento explica la característica de la integración, cómo activarla y qué datos se pueden reportar.
Característica
Recopile y envíe telemetry data a New Relic desde su Sagemaker utilizando nuestra integración. monitor sus servicios, consulte los datos entrantes y cree un panel para observar todo de un vistazo.
Activar la integración
Para habilitar esta integración, consulte cómo conectar los servicios de AWS a New Relic.
Buscar y utilizar datos
Para encontrar la métrica de tu integración, ve a one.newrelic.com > Metrics and events y filtra por aws.sagemaker
.
Datos métricos
Esta integración New Relic Infrastructure recopila los siguientes datos de Amazon Sagemaker:
Datos métricos de Sagemaker
Métrica (mín, máx, promedio, recuento, suma) | Unidad | Descripción |
---|---|---|
| Contar | El número de solicitudes de InvokeEndpoint enviadas a un extremo del modelo. |
| Contar | El número de invocaciones enviadas a un modelo, normalizado por InstanceCount en cada ProductionVariant. |
| Microsegundos | El intervalo de tiempo agregado al tiempo necesario para responder a una solicitud de cliente mediante los gastos generales de SageMaker. |
| Microsegundos | El intervalo de tiempo que tarda un modelo en responder a una solicitud de API de SageMaker. |
| Contar | El número de solicitudes de InvokeEndpoint en las que el modelo devolvió un código de respuesta HTTP 4xx. |
| Contar | El número de solicitudes de InvokeEndpoint en las que el modelo devolvió un código de respuesta HTTP 5xx. |
| Contar | El número de solicitudes de invocación de modelo que no dieron como resultado una respuesta HTTP 2XX. |
Todos los datos importados de Sagemaker tienen una dimensión: EndpointName
Datos extremos métricos de Sagemaker
Métrica (mín, máx, promedio, recuento, suma) | Unidad | Descripción |
---|---|---|
| Por ciento | El porcentaje de memoria que utiliza el contenedor en una instancia. Para las variantes extremas, el valor es la suma de la utilización de la memoria del contenedor primario y suplementario en la instancia. |
| Por ciento | El porcentaje de espacio en disco utilizado por el contenedor en una instancia. Para las variantes extremas, el valor es la suma de la utilización del espacio en disco del contenedor primario y suplementario en la instancia. |
| Por ciento | La suma de la utilización de cada núcleo de CPU individual. Para variantes extremas, el valor es la suma de la utilización de CPU del contenedor primario y suplementario en la instancia. |
| Por ciento | El porcentaje de memoria GPU utilizada por el contenedor en una instancia. Para las variantes extremas, el valor es la suma de la utilización de la memoria GPU del contenedor primario y suplementario en la instancia. |
| Por ciento | El porcentaje de unidades de GPU que utiliza el contenedor en una instancia. Para variantes extremas, el valor es la suma de la utilización de GPU del contenedor primario y suplementario en la instancia. |
Todos los datos importados desde Sagemaker extremo tienen una dimensión: Host
Sagemaker Formación Empleos datos métricos
Métrica (mín, máx, promedio, recuento, suma) | Unidad | Descripción |
---|---|---|
| Por ciento | El porcentaje de memoria que utiliza el contenedor en una instancia. Para trabajo de entrenamiento, el valor es la utilización de la memoria del contenedor del algoritmo en la instancia. |
| Por ciento | El porcentaje de espacio en disco utilizado por el contenedor en una instancia. Para trabajo de entrenamiento, el valor es la utilización del espacio en disco del contenedor del algoritmo en la instancia. |
| Por ciento | La suma de la utilización de cada núcleo de CPU individual. Para trabajo de entrenamiento, el valor es la utilización de CPU del contenedor de algoritmos en la instancia. |
| Contar | Mide el número de errores de tren del trabajo de entrenamiento. |
Todos los datos importados de Sagemaker Training Jobs tienen una dimensión: Host
Crear alerta
Puede configurar para que le notifique si hay algún cambio. Por ejemplo, puede configurar una alerta para notificar a las partes relevantes sobre errores críticos o fatales.
Obtenga más información sobre cómo crear alertas aquí.