Azure Machine Learning através da integração do Azure Monitor

A integração da New Relic inclui uma integração para reportar sua métrica Microsoft Azure Machine Learning e outros dados para a New Relic. Este documento explica como ativar a integração e descreve os dados relatados.

Recurso

New Relic reúne dados métricos do Azure Monitor para o serviço Azure Machine Learning. Azure Machine Learning é um serviço na nuvem para acelerar e gerenciar o ciclo de vida do projeto de aprendizado de máquina. Profissionais de machine learning, cientistas de dados e engenheiros podem utilizá-lo em seu fluxo de trabalho do dia a dia para treinar e implantar modelos ou gerenciar MLOps

Usando o New Relic, você pode:

Veja as métricas do Azure Machine Learning em um painel pré-criado.
Execute uma consulta personalizada e visualize os dados.
Crie condição do alerta para notificá-lo sobre alterações nos dados.

Ativar integração

Siga o procedimento padrão de integração Azure Monitor para ativar seu serviço Azure no monitoramento de infraestrutura New Relic .

Configuração e polling

Você pode alterar a frequência de pesquisa e filtrar dados usando opções de configuração.

A New Relic consulta o serviço Azure Machine Learning através da integração do Azure Monitor de acordo com um intervalo de sondagem padrão.

Encontre e use dados

Para explorar seus dados de integração, acesse one.newrelic.com/infra > Azure > (select an integration).

Dados métricos

Esta integração recolhe os seguintes dados métricos:

Métrica do Azure Machine Learning

Espaços de trabalho

A tabela a seguir lista as métricas disponíveis para o tipo de recurso Microsoft.MachineLearningServices/workspaces .

Métrica	Descrição
`ActiveCores`	Número de núcleos ativos
`ActiveNodes`	Número de nós ativos. Estes são os nós que estão executando ativamente um trabalho.
`CancelRequestedRuns`	Número de execuções em que o cancelamento foi solicitado para este workspace.
`CancelledRuns`	Número de execuções canceladas para este espaço de trabalho.
`CompletedRuns`	Número de execuções concluídas com sucesso para este workspace.
`CpuCapacityMillicores`	Capacidade máxima de um nó de CPU em miliccores.
`CpuMemoryCapacityMegabytes`	Utilização máxima de memória de um nó de CPU em megabytes.
`CpuMemoryUtilizationMegabytes`	Utilização de memória de um nó de CPU em megabytes.
`CpuMemoryUtilizationPercentage`	Porcentagem de utilização de memória de um nó de CPU.
`CpuUtilization`	Porcentagem de utilização em um nó de CPU
`CpuUtilizationMillicores`	Utilização de um nó de CPU em milicóres
`CpuUtilizationPercentage`	Porcentagem de utilização de um nó de CPU.
`DiskAvailMegabytes`	Espaço disponível em disco em megabytes.
`DiskReadMegabytes`	Dados lidos do disco em megabytes
`DiskUsedMegabytes`	Espaço em disco usado em megabytes
`DiskWriteMegabytes`	Dados gravados no disco em megabytes
`Errors`	Número de erros de execução neste espaço de trabalho
`FailedRuns`	Número de execuções com falha neste workspace
`FinalizingRuns`	Dados lidos do disco em megabytes
`GpuCapacityMilliGPUs`	Capacidade máxima de um dispositivo GPU em mili-GPUs
`GpuEnergyJoules`	Energia de intervalo em Joules em um nó GPU
`GpuMemoryCapacityMegabytes`	Capacidade máxima de memória de um dispositivo GPU em megabytes.
`GpuMemoryUtilization`	Porcentagem de utilização de memória em um nó de GPU.
`GpuMemoryUtilizationMegabytes`	Utilização de memória de um dispositivo GPU em megabytes
`GpuMemoryUtilizationPercentage`	Porcentagem de utilização de memória de um dispositivo GPU
`GpuUtilization`	Porcentagem de utilização em um nó GPU
`GpuUtilizationMilliGPUs`	Utilização de um dispositivo GPU em mili-GPUs
`GpuUtilizationPercentage`	Porcentagem de utilização de um dispositivo GPU
`IBReceiveMegabytes`	Dados de rede recebidos pelo InfiniBand em megabytes
`IBTransmitMegabytes`	Dados de rede enviados pelo InfiniBand em megabytes
`IdleCores`	Número de núcleos ociosos
`IdleNodes`	Número de nós ociosos
`LeavingCores`	Número de núcleos que saem
`LeavingNodes`	Número de nós que saem
`ModelDeployFailed`	Número de implantação de modelo que falhou neste espaço de trabalho
`ModelDeployStarted`	Número de implantação de modelo iniciadas neste espaço de trabalho
`ModelDeploySucceeded`	Número de implantação de modelo que tiveram sucesso neste espaço de trabalho
`ModelRegisterFailed`	Número de registros de modelo que falharam neste workspace
`ModelRegisterSucceeded`	Número de registros de modelo bem-sucedidos neste espaço de trabalho
`NetworkInputMegabytes`	Dados de rede recebidos em megabytes. métricas são agregadas em intervalos de um minuto
`NetworkOutputMegabytes`	Dados de rede enviados em megabytes. métricas são agregadas em intervalos de um minuto.
`Not Responding Runs`	Número de execuções que não respondem a este espaço de trabalho.
`NotStartedRuns`	Número de execuções no estado Não Iniciado para este workspace
`PreemptedCores`	Número de núcleos preemptados
`PreemptedNodes`	Número de nós preemptados
`PreparingRuns`	Número de execuções que estão sendo preparadas para este workspace.
`Provisioning Runs`	Número de execuções que estão sendo provisionadas para este workspace.
`Queued Runs`	Número de execuções enfileiradas para este workspace
`QuotaUtilizationPercentage`	Porcentagem da cota utilizada
`Started Runs`	Número de execuções em execução neste espaço de trabalho
`Starting Runs`	Número de execuções iniciadas para este espaço de trabalho
`StorageAPIFailureCount`	Chamada de contagem de falhas de API do Armazenamento de Blobs do Azure.
`StorageAPISuccessCount`	Contagem de sucesso da chamada do Armazenamento de Blobs do Azure.
`TotalCores`	Número total de núcleos
`TotalNodes`	Número total de nós
`UnusableCores`	Número de núcleos inutilizáveis
`UnusableNodes`	Número de nós inutilizáveis
`Warnings`	Número de avisos de execução neste espaço de trabalho

A tabela a seguir lista as métricas disponíveis para o tipo de recurso Microsoft.MachineLearningServices/workspaces/onlineEndpoints/deployments .

Métrica	Descrição
`CpuMemoryUtilizationPercentage`	Porcentagem de utilização de memória em uma instância
`CpuUtilizationPercentage`	Porcentagem de utilização de CPU em uma instância
`DataCollectionErrorsPerMinute`	O número de eventos de coleta de dados descartados por minuto
`DataCollectionEventsPerMinute`	O número de eventos de coleta de dados processados por minuto.
`DeploymentCapacity`	O número de instância na implantação
`DiskUtilization`	Porcentagem de utilização de disco em uma instância
`GpuEnergyJoules`	Energia de intervalo em Joules em um nó GPU
`GpuMemoryUtilizationPercentage`	Porcentagem de utilização de memória da GPU em uma instância
`GpuUtilizationPercentage`	Porcentagem de utilização de GPU em uma instância.
`RequestLatency_P50`	A latência média da solicitação P50
`RequestLatency_P90`	A latência média da solicitação P90
`RequestLatency_P95`	A latência média da solicitação P95
`RequestLatency_P99`	A latência média da solicitação P99
`RequestsPerMinute`	O número de solicitações enviadas para implantação on-line em um minuto

A tabela a seguir lista as métricas disponíveis para o tipo de recurso Microsoft.MachineLearningServices/workspaces/onlineEndpoints .

Métrica	Descrição
`ConnectionsActive`	O número total de conexões TCP simultâneas ativas de clientes
`DataCollectionErrorsPerMinute`	O número de eventos de coleta de dados descartados por minuto
`DataCollectionEventsPerMinute`	O número de eventos de coleta de dados processados por minuto
`NetworkBytes`	Os bytes por segundo servidos para o endpoint
`NewConnectionsPerSecond`	O número médio de novas conexões TCP por segundo estabelecidas a partir de clientes
`RequestLatency`	O intervalo médio completo de tempo necessário para que uma solicitação seja respondida em milissegundos
`RequestLatency_P50`	A latência média da solicitação P50 agregada por todos os valores de latência da solicitação coletados durante o período selecionado
`RequestLatency_P90`	A latência média da solicitação P90 agregada por todos os valores de latência da solicitação coletados durante o período selecionado
`RequestLatency_P95`	A latência média da solicitação P95 agregada por todos os valores de latência da solicitação coletados durante o período selecionado
`RequestLatency_P99`	A latência média da solicitação P99 agregada por todos os valores de latência da solicitação coletados durante o período selecionado
`RequestsPerMinute`	O número de solicitações enviadas ao endpoint online em um minuto

Esta tradução de máquina é fornecida para sua comodidade.