Nossa integração NVIDIA Triton monitora a implantação e gerenciamento do modelo de IA no ambiente de produção. Triton fornece uma solução flexível e escalável para implantar modelos de aprendizagem profunda, permitindo que a organização implante eficientemente o aplicativo de IA em uma variedade de plataformas de hardware, incluindo GPUs e CPUs.
Depois de configurar nossa integração NVIDIA Triton, fornecemos a você um dashboard para sua métrica NVIDIA Triton.
Instalar o agente de infraestrutura
Para usar a integração NVIDIA Triton, você também precisa instalar o agente de infraestrutura no mesmo host. O agente de infraestrutura monitora o próprio host, enquanto a integração que você instalará na próxima etapa amplia seu monitoramento com dados específicos do NVIDIA Triton.
Habilite a integração NVIDIA Triton com nri-prometheus
As métricas do servidor Triton são exibidas na URL http://localhost:8002/metrics
.
Dica
Para obter detalhes adicionais sobre a coleta de métricas do servidor Triton, consulte a documentação da NVIDIA
Para configurar a integração NVIDIA Triton, siga estas etapas:
Execute este comando para criar um arquivo chamado
nri-prometheus-config.yml
no diretório integração:bash$touch /etc/newrelic-infra/integrations.d/nri-prometheus-config.ymlAdicione o trecho a seguir ao arquivo
nri-prometheus-config.yml
para permitir que o agente capture dados do NVIDIA Triton:integrations:- name: nri-prometheusconfig:# When standalone is set to false nri-prometheus requires an infrastructure agent to work and send data. Defaults to truestandalone: false# When running with infrastructure agent emitters will have to include infra-sdkemitters: infra-sdk# The name of your cluster. It's important to match other New Relic products to relate the data.cluster_name: "YOUR_DESIRED_CLUSTER_NAME"targets:- description: NVIDIA Triton metrics listurls: ["http://localhost:8002/metrics"]# tls_config:# ca_file_path: "/etc/etcd/etcd-client-ca.crt"# cert_file_path: "/etc/etcd/etcd-client.crt"# key_file_path: "/etc/etcd/etcd-client.key"# Whether the integration should run in verbose mode or not. Defaults to falseverbose: false# Whether the integration should run in audit mode or not. Defaults to false.# Audit mode logs the uncompressed data sent to New Relic. Use this to log all data sent.# It does not include verbose mode. This can lead to a high log volume, use with careaudit: false# The HTTP client timeout when fetching data from endpoints. Defaults to 30s.# scrape_timeout: "30s"# Length in time to distribute the scraping from the endpointsscrape_duration: "5s"# Number of worker threads used for scraping targets.# For large clusters with many (>400) endpoints, slowly increase until scrape# time falls between the desired `scrape_duration`.# Increasing this value too much will result in huge memory consumption if too# many metrics are being scraped.# Default: 4# worker_threads: 4# Whether the integration should skip TLS verification or not. Defaults to falseinsecure_skip_verify: truetimeout: 10s
Configuração de logs NVIDIA Triton
Para configurar os logs do nvidia triton, siga as etapas descritas abaixo.
Execute este comando Docker para verificar o status do contêiner em execução:
bash$sudo docker psCopie o ID do contêiner para o contêiner nvidia-triton e execute este comando:
bash$sudo docker logs -f <container_id> &> /tmp/triton.log &Depois, verifique se há um arquivo de log chamado
triton.log
localizado no diretório/tmp/
.
Encaminhando os logs do NVIDIA Triton para New Relic
Você pode usar nosso encaminhamento de logs para encaminhar os logs do NVIDIA Triton para New Relic. Em máquinas Linux, seu arquivo de log denominado logging.yml
deve estar neste caminho:
$cd /etc/newrelic-infra/logging.d/
Depois de encontrar o arquivo de log no caminho acima, inclua este script no arquivo logging.yml
:
logs: - name: triton.log file: /tmp/triton.log attributes: logtype: triton_logs
Reinicie o agente do New Relic Infrastructure
Execute este comando para reiniciar seu agente de infraestrutura:
$sudo systemctl restart newrelic-infra.service
Em alguns minutos, seu servidor NVIDIA Triton enviará métricas para one.newrelic.com.
Encontre seus dados
Você pode escolher nosso modelo dashboard pré-construído chamado NVIDIA Triton
para monitor a métrica do seu servidor NVIDIA Triton. Siga estas etapas para usar nosso modelo dashboard pré-construído:
Acesse one.newrelic.com > + Integrations & Agents e digite NVIDIA Triton.
No Dashboards, clique em NVIDIA Triton.
Clique em Edit se quiser alterar a conta na janela pop-up aberta.
Clique em Setup NVIDIA Triton ou Skip this step se você já configurou esta fonte de dados.
Clique em View dashboard e veja seus dados do NVIDIA Triton no New Relic.
Você pode encontrar seu dashboard personalizado do NVIDIA Triton na interface Dashboards. Consulte nossa seção dashboard para obter mais informações.
Aqui está uma consulta NRQL para verificar a memória da CPU NVIDIA Triton:
SELECT latest(nv_cpu_memory_total_bytes) / 1e+6 AS 'memory (MB)' FROM Metric
Qual é o próximo?
Para saber mais sobre como construir uma consulta NRQL e gerar um painel, confira estes documentos:
- Introdução ao criador de consulta para criação de consultas básicas e avançadas.
- Introdução aos dashboards para personalizar seu dashboard e realizar diversas ações.
- Gerencie seu dashboard para ajustar o modo de exibição do seu painel ou para adicionar mais conteúdo ao seu dashboard.