La integración de New Relic incluye una integración para reportar su métrica Microsoft Azure Machine Learning y otros datos a New Relic. Este documento explica cómo activar la integración y describe los datos reportados.
Característica
New Relic recopila datos métricos del monitoreo de Azure para el servicio Azure Machine Learning. Azure Machine Learning es un servicio en la nube para acelerar y gestionar el ciclo de vida de proyectos de aprendizaje automático. Los profesionales del aprendizaje automático, los científicos de datos y los ingenieros pueden usarlo en su flujo de trabajo diario para entrenar y desplegar modelos o gestionar MLOps.
Usando New Relic, puedes:
- Vea la métrica de Azure Machine Learning en un panel prediseñado.
- Ejecute consultas personalizadas y visualice los datos.
- Cree condición de alerta para notificarle sobre cambios en los datos.
Activar la integración
Siga el procedimiento estándar de monitoreo de integración de Azure para activar su servicio de Azure en el monitoreo de infraestructura New Relic .
Configuración y sondeo
Puede cambiar la frecuencia de sondeo y filtrar datos usando las opciones de configuración.
New Relic consulta su servicio Azure Machine Learning a través del monitoreo de integración de Azure según un intervalo de sondeo predeterminado.
Buscar y utilizar datos
Para explorar sus datos de integración, vaya a one.newrelic.com/infra > Azure > (select an integration).
Datos métricos
Esta integración recoge los siguientes datos métricos:
Azure Machine Learning métrica
Espacios de trabajo
La siguiente tabla enumera las métricas disponibles para el tipo de recurso Microsoft.MachineLearningServices/workspaces
.
Métrica | Descripción |
---|---|
| Número de núcleos activos |
| Número de nodos activos. Estos son los nodos que ejecutan activamente un trabajo. |
| Número de ejecuciones en las que se solicitó la cancelación para este espacio de trabajo. |
| Número de ejecuciones canceladas para este espacio de trabajo. |
| Número de ejecuciones completadas correctamente para este espacio de trabajo. |
| Capacidad máxima de un nodo de CPU en milicores. |
| Utilización máxima de memoria de un nodo de CPU en megabytes. |
| Utilización de la memoria de un nodo de CPU en megabytes. |
| Porcentaje de utilización de memoria de un nodo de CPU. |
| Porcentaje de utilización en un nodo de CPU |
| Utilización de un nodo de CPU en milicores |
| Porcentaje de utilización de un nodo de CPU. |
| Espacio disponible en disco en megabytes. |
| Datos leídos del disco en megabytes |
| Espacio en disco utilizado en megabytes |
| Datos escritos en el disco en megabytes |
| Número de errores de ejecución en este espacio de trabajo |
| Número de ejecuciones fallidas para este espacio de trabajo |
| Datos leídos del disco en megabytes |
| Capacidad máxima de un dispositivo GPU en mili-GPU |
| Energía de intervalo en julios en un nodo GPU |
| Capacidad máxima de memoria de un dispositivo GPU en megabytes. |
| Porcentaje de utilización de memoria en un nodo GPU. |
| Utilización de la memoria de un dispositivo GPU en megabytes |
| Porcentaje de utilización de memoria de un dispositivo GPU |
| Porcentaje de utilización en un nodo GPU |
| Utilización de un dispositivo GPU en mili-GPU |
| Porcentaje de utilización de un dispositivo GPU |
| Datos de red recibidos a través de InfiniBand en megabytes |
| Datos de red enviados a través de InfiniBand en megabytes |
| Número de núcleos inactivos |
| Número de nodos inactivos |
| Número de núcleos salientes |
| Número de nodos salientes |
| Número de despliegues de modelo que fallaron en este espacio de trabajo |
| Número de despliegues de modelo iniciados en este espacio de trabajo |
| Número de despliegues de modelo que tuvieron éxito en este espacio de trabajo |
| Número de registros de modelos que fallaron en este espacio de trabajo |
| Número de registros de modelos que tuvieron éxito en este espacio de trabajo |
| Datos de red recibidos en megabytes. métricas se agregan en intervalos de un minuto |
| Datos de red enviados en megabytes. métricas se agregan en intervalos de un minuto. |
| Número de ejecuciones que no responden para este espacio de trabajo. |
| Número de ejecuciones en estado No iniciado para este espacio de trabajo |
| Número de núcleos preferenciales |
| Número de nodos preferenciales |
| Número de ejecuciones que se están preparando para este espacio de trabajo. |
| Número de ejecuciones que se están aprovisionando para este espacio de trabajo. |
| Número de ejecuciones que están en cola para este espacio de trabajo |
| Porcentaje de cuota utilizada |
| Número de ejecuciones en ejecución para este espacio de trabajo |
| Número de ejecuciones iniciadas para este espacio de trabajo |
| Recuento de errores de API de llamada de Azure Blob Storage. |
| Recuento de éxitos de la API de llamadas de Azure Blob Storage. |
| Número de núcleos totales |
| Número de nodos totales |
| Número de núcleos inutilizables |
| Número de nodos inutilizables |
| Número de advertencias de ejecución en este espacio de trabajo |
La siguiente tabla enumera las métricas disponibles para el tipo de recurso Microsoft.MachineLearningServices/workspaces/onlineEndpoints/deployments
.
Métrica | Descripción |
---|---|
| Porcentaje de utilización de memoria en una instancia |
| Porcentaje de utilización de CPU en una instancia |
| El número de eventos de recopilación de datos disminuyó por minuto. |
| El número de eventos de recopilación de datos procesados por minuto. |
| El número de instancias en el despliegue. |
| Porcentaje de utilización del disco en una instancia |
| Energía de intervalo en julios en un nodo GPU |
| Porcentaje de utilización de la memoria de la GPU en una instancia |
| Porcentaje de utilización de GPU en una instancia. |
| Latencia promedio de solicitud de P50 |
| Latencia promedio de solicitud de P90 |
| Latencia promedio de solicitud de P95 |
| La latencia promedio de solicitud P99 |
| El número de solicitudes enviadas a online implementadas en un minuto. |
La siguiente tabla enumera las métricas disponibles para el tipo de recurso Microsoft.MachineLearningServices/workspaces/onlineEndpoints
.
Métrica | Descripción |
---|---|
| El número total de conexiones TCP simultáneas activas desde clientes |
| El número de eventos de recopilación de datos disminuyó por minuto. |
| El número de eventos de recopilación de datos procesados por minuto. |
| Los bytes por segundo servidos para el extremo. |
| El número promedio de nuevas conexiones TCP por segundo establecidas desde los clientes. |
| El intervalo de tiempo completo promedio que se tarda en responder a una solicitud en milisegundos. |
| La latencia de solicitud P50 promedio agregada por todos los valores de latencia de solicitud recopilados durante el período de tiempo seleccionado |
| La latencia de solicitud P90 promedio agregada por todos los valores de latencia de solicitud recopilados durante el período de tiempo seleccionado |
| La latencia de solicitud P95 promedio agregada por todos los valores de latencia de solicitud recopilados durante el período de tiempo seleccionado |
| La latencia de solicitud P99 promedio agregada por todos los valores de latencia de solicitud recopilados durante el período de tiempo seleccionado |
| El número de solicitudes enviadas a online extremo en un minuto |