A integração da New Relic inclui uma integração para reportar sua métrica Microsoft Azure Machine Learning e outros dados para New Relic. Este documento explica como ativar a integração e descreve os dados reportados.
Recurso
New Relic reúne dados métricos do Azure Monitor para o serviço Azure Machine Learning. Azure Machine Learning é um serviço na nuvem para acelerar e gerenciar o ciclo de vida do projeto de aprendizado de máquina. Profissionais de machine learning, cientistas de dados e engenheiros podem utilizá-lo em seu fluxo de trabalho do dia a dia para treinar e implantar modelos ou gerenciar MLOps
Usando o New Relic, você pode:
- Veja as métricas do Azure Machine Learning em um painel pré-criado.
- Execute uma consulta personalizada e visualize os dados.
- Crie condição do alerta para notificá-lo sobre alterações nos dados.
Ativar integração
Siga o procedimento padrão de integração Azure Monitor para ativar seu serviço Azure no monitoramento de infraestrutura New Relic .
Configuração e polling
Você pode alterar a frequência de pesquisa e filtrar dados usando opções de configuração.
A New Relic consulta o serviço Azure Machine Learning através da integração do Azure Monitor de acordo com um intervalo de sondagem padrão.
Encontre e use dados
Para explorar seus dados de integração, acesse one.newrelic.com/infra > Azure > (select an integration).
Dados métricos
Esta integração recolhe os seguintes dados métricos:
Métrica do Azure Machine Learning
Espaços de trabalho
A tabela a seguir lista as métricas disponíveis para o tipo de recurso Microsoft.MachineLearningServices/workspaces
.
Métrica | Descrição |
---|---|
| Número de núcleos ativos |
| Número de nós ativos. Estes são os nós que estão executando ativamente um trabalho. |
| Número de execuções em que o cancelamento foi solicitado para este workspace. |
| Número de execuções canceladas para este espaço de trabalho. |
| Número de execuções concluídas com sucesso para este workspace. |
| Capacidade máxima de um nó de CPU em miliccores. |
| Utilização máxima de memória de um nó de CPU em megabytes. |
| Utilização de memória de um nó de CPU em megabytes. |
| Porcentagem de utilização de memória de um nó de CPU. |
| Porcentagem de utilização em um nó de CPU |
| Utilização de um nó de CPU em milicóres |
| Porcentagem de utilização de um nó de CPU. |
| Espaço disponível em disco em megabytes. |
| Dados lidos do disco em megabytes |
| Espaço em disco usado em megabytes |
| Dados gravados no disco em megabytes |
| Número de erros de execução neste espaço de trabalho |
| Número de execuções com falha neste workspace |
| Dados lidos do disco em megabytes |
| Capacidade máxima de um dispositivo GPU em mili-GPUs |
| Energia de intervalo em Joules em um nó GPU |
| Capacidade máxima de memória de um dispositivo GPU em megabytes. |
| Porcentagem de utilização de memória em um nó de GPU. |
| Utilização de memória de um dispositivo GPU em megabytes |
| Porcentagem de utilização de memória de um dispositivo GPU |
| Porcentagem de utilização em um nó GPU |
| Utilização de um dispositivo GPU em mili-GPUs |
| Porcentagem de utilização de um dispositivo GPU |
| Dados de rede recebidos pelo InfiniBand em megabytes |
| Dados de rede enviados pelo InfiniBand em megabytes |
| Número de núcleos ociosos |
| Número de nós ociosos |
| Número de núcleos que saem |
| Número de nós que saem |
| Número de implantação de modelo que falhou neste espaço de trabalho |
| Número de implantação de modelo iniciadas neste espaço de trabalho |
| Número de implantação de modelo que tiveram sucesso neste espaço de trabalho |
| Número de registros de modelo que falharam neste workspace |
| Número de registros de modelo bem-sucedidos neste espaço de trabalho |
| Dados de rede recebidos em megabytes. métricas são agregadas em intervalos de um minuto |
| Dados de rede enviados em megabytes. métricas são agregadas em intervalos de um minuto. |
| Número de execuções que não respondem a este espaço de trabalho. |
| Número de execuções no estado Não Iniciado para este workspace |
| Número de núcleos preemptados |
| Número de nós preemptados |
| Número de execuções que estão sendo preparadas para este workspace. |
| Número de execuções que estão sendo provisionadas para este workspace. |
| Número de execuções enfileiradas para este workspace |
| Porcentagem da cota utilizada |
| Número de execuções em execução neste espaço de trabalho |
| Número de execuções iniciadas para este espaço de trabalho |
| Chamada de contagem de falhas de API do Armazenamento de Blobs do Azure. |
| Contagem de sucesso da chamada do Armazenamento de Blobs do Azure. |
| Número total de núcleos |
| Número total de nós |
| Número de núcleos inutilizáveis |
| Número de nós inutilizáveis |
| Número de avisos de execução neste espaço de trabalho |
A tabela a seguir lista as métricas disponíveis para o tipo de recurso Microsoft.MachineLearningServices/workspaces/onlineEndpoints/deployments
.
Métrica | Descrição |
---|---|
| Porcentagem de utilização de memória em uma instância |
| Porcentagem de utilização de CPU em uma instância |
| O número de eventos de coleta de dados descartados por minuto |
| O número de eventos de coleta de dados processados por minuto. |
| O número de instância na implantação |
| Porcentagem de utilização de disco em uma instância |
| Energia de intervalo em Joules em um nó GPU |
| Porcentagem de utilização de memória da GPU em uma instância |
| Porcentagem de utilização de GPU em uma instância. |
| A latência média da solicitação P50 |
| A latência média da solicitação P90 |
| A latência média da solicitação P95 |
| A latência média da solicitação P99 |
| O número de solicitações enviadas para implantação on-line em um minuto |
A tabela a seguir lista as métricas disponíveis para o tipo de recurso Microsoft.MachineLearningServices/workspaces/onlineEndpoints
.
Métrica | Descrição |
---|---|
| O número total de conexões TCP simultâneas ativas de clientes |
| O número de eventos de coleta de dados descartados por minuto |
| O número de eventos de coleta de dados processados por minuto |
| Os bytes por segundo servidos para o endpoint |
| O número médio de novas conexões TCP por segundo estabelecidas a partir de clientes |
| O intervalo médio completo de tempo necessário para que uma solicitação seja respondida em milissegundos |
| A latência média da solicitação P50 agregada por todos os valores de latência da solicitação coletados durante o período selecionado |
| A latência média da solicitação P90 agregada por todos os valores de latência da solicitação coletados durante o período selecionado |
| A latência média da solicitação P95 agregada por todos os valores de latência da solicitação coletados durante o período selecionado |
| A latência média da solicitação P99 agregada por todos os valores de latência da solicitação coletados durante o período selecionado |
| O número de solicitações enviadas ao endpoint online em um minuto |