Nossa integração de GPU AMD usa nosso agente de infraestrutura com a integração Flex, o que nos permite acessar o utilitário SMI da AMD.

Depois de configurar nossa integração de GPU AMD, você verá um dashboard para sua GPU métrica.
Ao instalar, você obterá um dashboard pré-construído contendo métricas cruciais de GPU:
- Utilização de GPU
- Uso e disponibilidade de memória
- Processos de computador ativos
- Frequências de relógio
- Monitoramento de temperatura
- Consumo de energia
- Estados de desempenho
- Informações dinâmicas e estáticas sobre cada dispositivo compatível
Instalar o agente de infraestrutura
Para capturar dados com o New Relic, instale nosso agente de infraestrutura. Nosso agente de infraestrutura coleta e ingere dados para que você possa monitorar o desempenho da sua GPU.
É possível instalar o agente de infraestrutura de duas maneiras diferentes:
- Nossa instalação guiada é uma ferramenta CLI que inspeciona seu sistema e instala o agente de infraestrutura junto com o aplicativo agente de monitoramento que melhor funciona para seu sistema. Para saber mais sobre como funciona nossa instalação guiada, consulte visão geral da instalação guiada.
- Se preferir instalar nosso agente de infraestrutura manualmente, siga o tutorial para instalação manual para Linux e Windows.
Instalar AMD SMI
Antes de configurar a integração do Flex, instale o utilitário SMI da AMD:
Ubuntu/Debian:
$# Add AMD GPU repository$wget -q -O - https://repo.radeon.com/rocm/rocm.gpg.key | sudo apt-key add -$echo 'deb [arch=amd64] https://repo.radeon.com/rocm/apt/debian/ ubuntu main' | sudo tee /etc/apt/sources.list.d/rocm.list$
$# Update and install$sudo apt update$sudo apt install amd-smi
RHEL/CentOS/Fedora:
$# Add AMD GPU repository$sudo tee /etc/yum.repos.d/rocm.repo <<EOF$[ROCm]$name=ROCm$baseurl=https://repo.radeon.com/rocm/yum/rpm$enabled=1$gpgcheck=1$gpgkey=https://repo.radeon.com/rocm/rocm.gpg.key$EOF$
$# Install AMD SMI$sudo yum install amd-smi
Importante
Após a instalação, certifique-se de que o binário amd-smi esteja acessível no PATH do seu sistema e que seu usuário tenha permissões adequadas para acessar dispositivos GPU.
Configurar integração Flex para GPUs AMD
Flex vem junto com o agente New Relic Infrastructure e pode ser integrado ao AMD SMI, um utilitário de linha de comando para monitorar dispositivos AMD GPU.
Siga estas etapas para configurar o Flex:
Crie um arquivo chamado
amd-smi-gpu-monitoring.yml
neste caminho:bash$sudo touch /etc/newrelic-infra/integrations.d/amd-smi-gpu-monitoring.ymlVocê também pode baixar do repositório git.
Atualize o arquivo
amd-smi-gpu-monitoring.yml
com a configuração de integração:Copie o conteúdo do arquivo (
.yml
) da configuração de monitoramento da GPU AMD SMI e cole-o no seu arquivo de configuração.
Confirme se as métricas da GPU estão sendo ingeridas
A configuração do Flex será detectada e executada automaticamente pelo agente de infraestrutura, não sendo necessário reiniciar o agente. Você pode confirmar que as métricas estão sendo ingeridas executando esta consulta NRQL:
SELECT * FROM AMDGpuSample
Monitor seu aplicativo
Você pode criar um dashboard personalizado para monitorar sua GPU AMD métrica. Aqui estão alguns exemplos de consultoria NRQL para você começar:
Utilização da GPU
SELECT average(gfx_activity_percent) FROM AMDGpuSample TIMESERIES AUTO FACET gpu_id
Uso de memória
SELECT average(vram_used_mb), average(vram_total_mb), average(vram_free_mb) FROM AMDGpuSample TIMESERIES AUTO FACET gpu_id
Monitoramento de temperatura
SELECT average(temp_edge_c), average(temp_hotspot_c), average(temp_mem_c) FROM AMDGpuSample TIMESERIES AUTO FACET gpu_id
Consumo de energia
SELECT average(socket_power_w), max(max_power_w) FROM AMDGpuSample TIMESERIES AUTO FACET gpu_id
Frequências de relógio
SELECT average(gfx_0_clk_mhz), average(mem_0_clk_mhz), average(fclk_0_clk_mhz) FROM AMDGpuSample TIMESERIES AUTO FACET gpu_id
Atividade de GPU por tipo
SELECT average(gfx_activity_percent), average(umc_activity_percent), average(mm_activity_percent) FROM AMDGpuSample TIMESERIES AUTO FACET gpu_id
Monitoramento de erro ECC
SELECT sum(ecc_total_correctable), sum(ecc_total_uncorrectable) FROM AMDGpuSample TIMESERIES AUTO FACET gpu_id
Desempenho PCIe
SELECT average(pcie_bandwidth_mb_s), average(pcie_current_bandwidth_sent), average(pcie_current_bandwidth_received) FROM AMDGpuSample TIMESERIES AUTO FACET gpu_id
Para criar um dashboard abrangente:
- Vá para one.newrelic.com e clique em Dashboards.
- Clique em Create a dashboard.
- Adicione gráficos usando a consulta NRQL fornecida acima.
- Personalize o layout do seu dashboard e salve-o.
Para obter documentos sobre como usar e editar o painel, consulte nossa documentação dashboard.
Resolução de problemas
Problemas e soluções comuns:
AMD SMI não encontrado:
- Certifique-se de que o AMD SMI esteja instalado corretamente e acessível em seu PATH
- Verifique o AMD SMI com:
amd-smi version
Erros de permissão negada:
- Certifique-se de que seu usuário tenha permissões adequadas para acessar dispositivos GPU
- Talvez seja necessário adicionar seu usuário ao grupo
render
:bash$sudo usermod -a -G render $USER - Saia e faça login novamente para que as alterações entrem em vigor
Nenhuma GPU detectada:
- Verifique se a GPU AMD foi detectada pelo sistema:
lspci | grep -i amd
- Verifique se o driver amdgpu está carregado:
lsmod | grep amdgpu
- Certifique-se de que sua GPU AMD seja compatível com AMD SMI
Métrica ausente:
- Algumas GPUs AMD mais antigas podem não suportar todos os sensores
- Verifique quais métricas estão disponíveis:
amd-smi metric --help
- Verifique a compatibilidade da GPU:
amd-smi list
Qual é o próximo?
Você pode adaptar a configuração do Flex para incluir ou excluir informações disponíveis no utilitário AMD SMI. As opções adicionais do AMD SMI incluem:
amd-smi list
- Listar dispositivos GPU disponíveisamd-smi static
- Informações estáticas da GPUamd-smi metric
- tempo real da GPU métricaamd-smi process
- Processar informações usando GPUamd-smi monitor
- Modo de monitoramento contínuo
Para saber mais sobre como criar uma consulta NRQL e gerar um painel, consulte estes documentos:
- Introdução ao criador de consulta para criação de consultas básicas e avançadas.
- Introdução aos dashboards para personalizar seu dashboard e realizar diversas ações.
- Gerencie seu dashboard para ajustar o modo de exibição ou para adicionar mais conteúdo ao dashboard.