Integración de Amazon Sagemaker

La integración New Relic Infrastructure ahora incluye una integración para AWS Sagemaker, enviando sus datos métricos a New Relic.

Este documento explica la característica de la integración, cómo activarla y qué datos se pueden reportar.

Característica

Recopile y envíe telemetry data a New Relic desde su Sagemaker utilizando nuestra integración. monitor sus servicios, consulte los datos entrantes y cree un panel para observar todo de un vistazo.

Activar la integración

Para habilitar esta integración, consulte cómo conectar los servicios de AWS a New Relic.

Buscar y utilizar datos

Para encontrar la métrica de tu integración, ve a one.newrelic.com > Metrics and events y filtra por aws.sagemaker.

Datos métricos

Esta integración New Relic Infrastructure recopila los siguientes datos de Amazon Sagemaker:

Datos métricos de Sagemaker

Métrica (mín, máx, promedio, recuento, suma)	Unidad	Descripción
`Invocations`	Contar	El número de solicitudes de InvokeEndpoint enviadas a un extremo del modelo.
`InvocationsPerInstance`	Contar	El número de invocaciones enviadas a un modelo, normalizado por InstanceCount en cada ProductionVariant.
`OverheadLatency`	Microsegundos	El intervalo de tiempo agregado al tiempo necesario para responder a una solicitud de cliente mediante los gastos generales de SageMaker.
`ModelLatency`	Microsegundos	El intervalo de tiempo que tarda un modelo en responder a una solicitud de API de SageMaker.
`Invocation4XXErrors`	Contar	El número de solicitudes de InvokeEndpoint en las que el modelo devolvió un código de respuesta HTTP 4xx.
`Invocation5XXErrors`	Contar	El número de solicitudes de InvokeEndpoint en las que el modelo devolvió un código de respuesta HTTP 5xx.
`InvocationModelErrors`	Contar	El número de solicitudes de invocación de modelo que no dieron como resultado una respuesta HTTP 2XX.

Todos los datos importados de Sagemaker tienen una dimensión: EndpointName

Datos extremos métricos de Sagemaker

Métrica (mín, máx, promedio, recuento, suma)	Unidad	Descripción
`MemoryUtilization`	Por ciento	El porcentaje de memoria que utiliza el contenedor en una instancia. Para las variantes extremas, el valor es la suma de la utilización de la memoria del contenedor primario y suplementario en la instancia.
`DiskUtilization`	Por ciento	El porcentaje de espacio en disco utilizado por el contenedor en una instancia. Para las variantes extremas, el valor es la suma de la utilización del espacio en disco del contenedor primario y suplementario en la instancia.
`CPUUtilization`	Por ciento	La suma de la utilización de cada núcleo de CPU individual. Para variantes extremas, el valor es la suma de la utilización de CPU del contenedor primario y suplementario en la instancia.
`GPUMemoryUtilization`	Por ciento	El porcentaje de memoria GPU utilizada por el contenedor en una instancia. Para las variantes extremas, el valor es la suma de la utilización de la memoria GPU del contenedor primario y suplementario en la instancia.
`GPUUtilization`	Por ciento	El porcentaje de unidades de GPU que utiliza el contenedor en una instancia. Para variantes extremas, el valor es la suma de la utilización de GPU del contenedor primario y suplementario en la instancia.

Todos los datos importados desde Sagemaker extremo tienen una dimensión: Host

Sagemaker Formación Empleos datos métricos

Métrica (mín, máx, promedio, recuento, suma)	Unidad	Descripción
`MemoryUtilization`	Por ciento	El porcentaje de memoria que utiliza el contenedor en una instancia. Para trabajo de entrenamiento, el valor es la utilización de la memoria del contenedor del algoritmo en la instancia.
`DiskUtilization`	Por ciento	El porcentaje de espacio en disco utilizado por el contenedor en una instancia. Para trabajo de entrenamiento, el valor es la utilización del espacio en disco del contenedor del algoritmo en la instancia.
`CPUUtilization`	Por ciento	La suma de la utilización de cada núcleo de CPU individual. Para trabajo de entrenamiento, el valor es la utilización de CPU del contenedor de algoritmos en la instancia.
`TrainErrors`	Contar	Mide el número de errores de tren del trabajo de entrenamiento.

Todos los datos importados de Sagemaker Training Jobs tienen una dimensión: Host

Crear alerta

Puede configurar para que le notifique si hay algún cambio. Por ejemplo, puede configurar una alerta para notificar a las partes relevantes sobre errores críticos o fatales.

Obtenga más información sobre cómo crear alertas aquí.

Te ofrecemos esta traducción automática para facilitar la lectura.