Notre intégration GPU AMD utilise notre agent d'infrastructure avec l'intégration Flex, qui nous permet d'accéder à l'utilitaire SMI d'AMD.

Après avoir configuré notre intégration GPU AMD, vous verrez un dashboard pour vos métriques GPU.
Lors de l'installation, vous obtiendrez un dashboard prédéfini contenant des mesures GPU cruciales :
- Utilisation du GPU
- Utilisation et disponibilité de la mémoire
- Processus de calcul actifs
- Fréquences d'horloge
- Monitoring de la température
- Consommation d'énergie
- États de performance
- Informations dynamiques et statiques sur chaque périphérique pris en charge
Installer l' agent d'infrastructure
Pour capturer des données avec New Relic, installez notre agent d’infrastructure. Notre agent d'infrastructure collecte et ingère des données afin que vous puissiez suivre les performances de votre GPU.
Vous pouvez installer l' agent d'infrastructure de deux manières différentes :
- Notre guide d'installation est un outil CLI qui inspecte votre système et installe l'agent infrastructure aux côtés de l'agent monitoring des applications qui fonctionne le mieux pour votre système. Pour en savoir plus sur le fonctionnement de notre guide d'installation, reportez-vous à la présentation du guide d'installation.
- Si vous préférez installer notre agent d'infrastructure manuellement, suivez le tutoriel d'installation manuelle pour Linux, Windows.
Installer AMD SMI
Avant de configurer l'intégration Flex, installez l'utilitaire SMI d'AMD :
Ubuntu/Debian :
$# Add AMD GPU repository$wget -q -O - https://repo.radeon.com/rocm/rocm.gpg.key | sudo apt-key add -$echo 'deb [arch=amd64] https://repo.radeon.com/rocm/apt/debian/ ubuntu main' | sudo tee /etc/apt/sources.list.d/rocm.list$
$# Update and install$sudo apt update$sudo apt install amd-smi
RHEL/CentOS/Fedora :
$# Add AMD GPU repository$sudo tee /etc/yum.repos.d/rocm.repo <<EOF$[ROCm]$name=ROCm$baseurl=https://repo.radeon.com/rocm/yum/rpm$enabled=1$gpgcheck=1$gpgkey=https://repo.radeon.com/rocm/rocm.gpg.key$EOF$
$# Install AMD SMI$sudo yum install amd-smi
Important
Après l'installation, assurez-vous que le binaire amd-smi est accessible dans le PATH de votre système et que votre utilisateur dispose des autorisations appropriées pour accéder aux périphériques GPU.
Configurer l'intégration Flex pour les GPU AMD
Flex est fourni avec l'agent New Relic Infrastructure et peut être intégré à AMD SMI, un utilitaire de ligne de commande permettant de surveiller les périphériques GPU AMD.
Suivez ces étapes pour configurer Flex :
Créez un fichier nommé
amd-smi-gpu-monitoring.yml
dans ce chemin :bash$sudo touch /etc/newrelic-infra/integrations.d/amd-smi-gpu-monitoring.ymlVous pouvez également télécharger depuis le référentiel git.
Mettre à jour le fichier
amd-smi-gpu-monitoring.yml
avec la configuration d'intégration :Copiez le contenu du fichier (
.yml
) de la configuration de surveillance du GPU AMD SMI et collez-le dans votre fichier de configuration.
Confirmer que les métriques GPU sont ingérées
La configuration Flex sera automatiquement détectée et exécutée par l'agent d'infrastructure, il n'est pas nécessaire de redémarrer l'agent. Vous pouvez confirmer que les métriques sont ingérées en exécutant cette requête NRQL :
SELECT * FROM AMDGpuSample
Monitorer votre application
Vous pouvez créer des dashboards personnalisés pour surveiller les métriques de votre GPU AMD. Voici quelques exemples de requêtes NRQL pour vous aider à démarrer :
Utilisation du GPU
SELECT average(gfx_activity_percent) FROM AMDGpuSample TIMESERIES AUTO FACET gpu_id
Utilisation de la mémoire
SELECT average(vram_used_mb), average(vram_total_mb), average(vram_free_mb) FROM AMDGpuSample TIMESERIES AUTO FACET gpu_id
Surveillance de la température
SELECT average(temp_edge_c), average(temp_hotspot_c), average(temp_mem_c) FROM AMDGpuSample TIMESERIES AUTO FACET gpu_id
Consommation d'énergie
SELECT average(socket_power_w), max(max_power_w) FROM AMDGpuSample TIMESERIES AUTO FACET gpu_id
Fréquences d'horloge
SELECT average(gfx_0_clk_mhz), average(mem_0_clk_mhz), average(fclk_0_clk_mhz) FROM AMDGpuSample TIMESERIES AUTO FACET gpu_id
Activité GPU par type
SELECT average(gfx_activity_percent), average(umc_activity_percent), average(mm_activity_percent) FROM AMDGpuSample TIMESERIES AUTO FACET gpu_id
Surveillance des erreurs ECC
SELECT sum(ecc_total_correctable), sum(ecc_total_uncorrectable) FROM AMDGpuSample TIMESERIES AUTO FACET gpu_id
Performances PCIe
SELECT average(pcie_bandwidth_mb_s), average(pcie_current_bandwidth_sent), average(pcie_current_bandwidth_received) FROM AMDGpuSample TIMESERIES AUTO FACET gpu_id
Pour créer un dashboard complet :
- Allez à one.newrelic.com et cliquez sur Dashboards.
- Cliquez sur Create a dashboard.
- Ajoutez des graphiques à l’aide de la requête NRQL fournie ci-dessus.
- Personnalisez la disposition de votre dashboard et enregistrez-la.
Pour obtenir des documents sur l'utilisation et la modification du tableau de bord, reportez-vous à notre documentation dashboard.
Dépannage
Problèmes courants et solutions :
AMD SMI non trouvé :
- Assurez-vous qu'AMD SMI est correctement installé et accessible dans votre PATH
- Vérifiez AMD SMI avec :
amd-smi version
Erreurs d'autorisation refusée :
- Assurez-vous que votre utilisateur dispose des autorisations appropriées pour accéder aux périphériques GPU
- Vous devrez peut-être ajouter votre utilisateur au groupe
render
:bash$sudo usermod -a -G render $USER - Déconnectez-vous et log -vous pour que les modifications prennent effet
Aucun GPU détecté :
- Vérifiez que le GPU AMD est détecté par le système :
lspci | grep -i amd
- Vérifiez si le pilote amdgpu est chargé :
lsmod | grep amdgpu
- Assurez-vous que votre GPU AMD est pris en charge par AMD SMI
Métriques manquantes :
- Certains anciens GPU AMD peuvent ne pas prendre en charge tous les capteurs
- Vérifiez quelles métriques sont disponibles :
amd-smi metric --help
- Vérifier la compatibilité du GPU :
amd-smi list
Quelle est la prochaine étape ?
Vous pouvez adapter la configuration Flex pour inclure ou exclure des informations disponibles à partir de l'utilitaire AMD SMI. Les options AMD SMI supplémentaires incluent :
amd-smi list
- Liste des périphériques GPU disponiblesamd-smi static
- Informations GPU statiquesamd-smi metric
- temps réels métriques GPUamd-smi process
- Traiter les informations à l'aide du GPUamd-smi monitor
- Mode monitoring continue
Pour en savoir plus sur la création de requêtes NRQL et la génération de tableaux de bord, reportez-vous à ces documents :
- Introduction au générateur de requêtes pour créer des requêtes basiques et avancées.
- Introduction au dashboard pour personnaliser votre dashboard et effectuer différentes actions.
- Gérez votre dashboard pour ajuster votre mode d'affichage ou pour ajouter plus de contenu à votre dashboard.