A integração New Relic Infrastructure agora inclui uma integração para AWS Sagemaker, enviando seus dados métricos para New Relic.
Este documento explica o recurso de integração, como ativá-lo e quais dados podem ser reportados.
Recurso
Colete e envie dados de telemetria para o New Relic do seu Sagemaker usando nossa integração. monitor seus serviços, consulte os dados recebidos e crie um painel para observar tudo rapidamente.
Ativar integração
Para habilitar essa integração, veja como conectar os serviços da AWS ao New Relic.
Encontre e use dados
Para encontrar a métrica da sua integração, acesse one.newrelic.com > Metrics and events e filtre por aws.sagemaker
.
Dados métricos
Esta integração New Relic Infrastructure coleta os seguintes dados do Amazon Sagemaker:
Dados métricos do Sagemaker
Métrica (min, max, média, contagem, soma) | Unidade | Descrição |
---|---|---|
| Contar | O número de solicitações InvokeEndpoint enviadas para um endpoint modelo. |
| Contar | O número de invocações enviadas para um modelo, normalizadas por InstanceCount em cada ProductionVariant. |
| Microssegundos | O intervalo de tempo adicionado ao tempo necessário para responder a uma solicitação do cliente pelas despesas gerais do SageMaker. |
| Microssegundos | O intervalo de tempo que um modelo leva para responder a uma solicitação da API SageMaker. |
| Contar | O número de solicitações InvokeEndpoint em que o modelo retornou um código de resposta HTTP 4xx. |
| Contar | O número de solicitações InvokeEndpoint em que o modelo retornou um código de resposta HTTP 5xx. |
| Contar | O número de solicitações de invocação de modelo que não resultaram em resposta HTTP 2XX. |
Todos os dados importados do Sagemaker têm uma dimensão: EndpointName
Dados métricos do endpoint Sagemaker
Métrica (min, max, média, contagem, soma) | Unidade | Descrição |
---|---|---|
| Por cento | A porcentagem de memória usada pelo contêiner em uma instância. Para variantes endpoint , o valor é a soma da utilização de memória do contêiner primário e suplementar na instância. |
| Por cento | A porcentagem de espaço em disco usado pelo contêiner em uma instância utiliza. Para variantes endpoint , o valor é a soma da utilização do espaço em disco do contêiner primário e suplementar na instância. |
| Por cento | A soma da utilização de cada núcleo de CPU individual. Para variantes endpoint , o valor é a soma da utilização da CPU do contêiner primário e suplementar na instância. |
| Por cento | A porcentagem de memória GPU usada pelo contêiner em uma instância. Para variantes endpoint , o valor é a soma da utilização de memória da GPU do contêiner primário e suplementar na instância. |
| Por cento | A porcentagem de unidades de GPU usadas pelo contêiner em uma instância. Para variantes endpoint , o valor é a soma da utilização de GPU do contêiner primário e suplementar na instância. |
Todos os dados importados do endpoint Sagemaker têm uma dimensão: Host
Dados métricos de empregos de treinamento Sagemaker
Métrica (min, max, média, contagem, soma) | Unidade | Descrição |
---|---|---|
| Por cento | A porcentagem de memória usada pelo contêiner em uma instância. Para o trabalho de treinamento, o valor é a utilização da memória do algoritmo contêiner na instância. |
| Por cento | A porcentagem de espaço em disco usado pelo contêiner em uma instância utiliza. Para trabalho de treinamento, o valor é a utilização do espaço em disco do algoritmo contêiner na instância. |
| Por cento | A soma da utilização de cada núcleo de CPU individual. Para trabalho de treinamento, o valor é a utilização da CPU do algoritmo contêiner na instância. |
| Contar | Mede o número de erros de treinamento do trabalho de treinamento. |
Todos os dados importados do Sagemaker Training Jobs têm uma dimensão: Host
Criar alerta
Você pode configurar para notificá-lo se houver alguma alteração. Por exemplo, você pode configurar um alerta para notificar as partes relevantes sobre erros críticos ou fatais.
Saiba mais sobre como criar alertas aqui.