Integração NVIDIA Triton

Nossa integração NVIDIA Triton monitora a implantação e gerenciamento do modelo de IA no ambiente de produção. Triton fornece uma solução flexível e escalável para implantar modelos de aprendizagem profunda, permitindo que a organização implante eficientemente o aplicativo de IA em uma variedade de plataformas de hardware, incluindo GPUs e CPUs.

Depois de configurar nossa integração NVIDIA Triton, fornecemos a você um dashboard para sua métrica NVIDIA Triton.

Instalar o agente de infraestrutura

Para usar a integração NVIDIA Triton, você também precisa instalar o agente de infraestrutura no mesmo host. O agente de infraestrutura monitora o próprio host, enquanto a integração que você instalará na próxima etapa amplia seu monitoramento com dados específicos do NVIDIA Triton.

Habilite a integração NVIDIA Triton com `nri-prometheus`

As métricas do servidor Triton são exibidas na URL http://localhost:8002/metrics.

Dica

Para obter detalhes adicionais sobre a coleta de métricas do servidor Triton, consulte a documentação da NVIDIA

Para configurar a integração NVIDIA Triton, siga estas etapas:

Execute este comando para criar um arquivo chamado nri-prometheus-config.yml no diretório integração:
bash
```
$touch /etc/newrelic-infra/integrations.d/nri-prometheus-config.yml
```
Adicione o trecho a seguir ao arquivo nri-prometheus-config.yml para permitir que o agente capture dados do NVIDIA Triton:
```
integrations:
  - name: nri-prometheus
    config:
      # When standalone is set to false nri-prometheus requires an infrastructure agent to work and send data. Defaults to true
      standalone: false

      # When running with infrastructure agent emitters will have to include infra-sdk
      emitters: infra-sdk

      # The name of your cluster. It's important to match other New Relic products to relate the data.
      cluster_name: "YOUR_DESIRED_CLUSTER_NAME"

      targets:
        - description: NVIDIA Triton metrics list
          urls: ["http://localhost:8002/metrics"]

      #     tls_config:
      #     ca_file_path: "/etc/etcd/etcd-client-ca.crt"
      #     cert_file_path: "/etc/etcd/etcd-client.crt"
      #      key_file_path: "/etc/etcd/etcd-client.key"

      # Whether the integration should run in verbose mode or not. Defaults to false
      verbose: false

      # Whether the integration should run in audit mode or not. Defaults to false.
      # Audit mode logs the uncompressed data sent to New Relic. Use this to log all data sent.
      # It does not include verbose mode. This can lead to a high log volume, use with care
      audit: false

      # The HTTP client timeout when fetching data from endpoints. Defaults to 30s.
      # scrape_timeout: "30s"

      # Length in time to distribute the scraping from the endpoints
      scrape_duration: "5s"

      # Number of worker threads used for scraping targets.
      # For large clusters with many (&gt;400) endpoints, slowly increase until scrape
      # time falls between the desired `scrape_duration`.
      # Increasing this value too much will result in huge memory consumption if too
      # many metrics are being scraped.
      # Default: 4
      # worker_threads: 4

      # Whether the integration should skip TLS verification or not. Defaults to false
      insecure_skip_verify: true
    timeout: 10s
```

Configuração de logs NVIDIA Triton

Para configurar os logs do nvidia triton, siga as etapas descritas abaixo.

Execute este comando Docker para verificar o status do contêiner em execução:
bash
```
$sudo docker ps
```
Copie o ID do contêiner para o contêiner nvidia-triton e execute este comando:
bash
```
$sudo docker logs -f <container_id> &> /tmp/triton.log &
```
Depois, verifique se há um arquivo de log chamado triton.log localizado no diretório /tmp/ .

Encaminhando os logs do NVIDIA Triton para New Relic

Você pode usar nosso encaminhamento de logs para encaminhar os logs do NVIDIA Triton para New Relic. Em máquinas Linux, seu arquivo de log denominado logging.yml deve estar neste caminho:

bash

$cd /etc/newrelic-infra/logging.d/

Depois de encontrar o arquivo de log no caminho acima, inclua este script no arquivo logging.yml :

logs:
  - name: triton.log
    file: /tmp/triton.log
    attributes:
      logtype: triton_logs

Reinicie o agente do New Relic Infrastructure

Execute este comando para reiniciar seu agente de infraestrutura:

bash

$sudo systemctl restart newrelic-infra.service

Em alguns minutos, seu servidor NVIDIA Triton enviará métricas para one.newrelic.com.

Encontre seus dados

Você pode escolher nosso modelo dashboard pré-construído chamado NVIDIA Triton para monitor a métrica do seu servidor NVIDIA Triton. Siga estas etapas para usar nosso modelo dashboard pré-construído:

Acesse one.newrelic.com > Integrations & Agents e digite NVIDIA Triton.
No Dashboards, clique em NVIDIA Triton.
Clique em Edit se quiser alterar a conta na janela pop-up aberta.
Clique em Setup NVIDIA Triton ou Skip this step se você já configurou esta fonte de dados.
Clique em View dashboard e veja seus dados do NVIDIA Triton no New Relic.
Você pode encontrar seu dashboard personalizado do NVIDIA Triton na interface Dashboards. Consulte nossa seção dashboard para obter mais informações.
Aqui está uma consulta NRQL para verificar a memória da CPU NVIDIA Triton:
```
SELECT latest(nv_cpu_memory_total_bytes) / 1e+6 AS 'memory (MB)' FROM Metric
```

Qual é o próximo?

Para saber mais sobre como construir uma consulta NRQL e gerar um painel, confira estes documentos:

Introdução ao criador de consulta para criação de consultas básicas e avançadas.
Introdução aos dashboards para personalizar seu dashboard e realizar diversas ações.
Gerencie seu dashboard para ajustar o modo de exibição do seu painel ou para adicionar mais conteúdo ao seu dashboard.

Esta tradução de máquina é fornecida para sua comodidade.

Instalar o agente de infraestrutura .css-21sua1{background:none;border:none;width:0;padding:0;}

Habilite a integração NVIDIA Triton com nri-prometheus