L'intégration Databricks est une application autonome qui collecte des données de télémétrie à partir de la plateforme d'intelligence de données Databricks, à utiliser pour le dépannage et l'optimisation des charges de travail Databricks.
L'intégration collecte les types de télémétrie suivants :
- Métriques des applications Apache Spark, telles que les métriques de mémoire et de CPU des exécuteurs Spark, les durées des tâches Spark, les durées et les métriques d'E/S des étapes et des tâches Spark, et les métriques de mémoire et de disque des RDD Spark
- Métriques d'exécution des tâches Databricks Lakeflow, telles que les durées, les heures de début et de fin, ainsi que les codes et types de terminaison pour les exécutions de tâches et de jobs.
- Mises à jour des métriques du pipeline déclaratif Databricks Lakeflow, telles que les durées, les heures de début et de fin, et l'état d'achèvement des mises à jour et des flux.
- Logs d'événements du pipeline déclaratif Databricks Lakeflow
- Métriques de requête Databricks, y compris les temps d'exécution et les métriques d'E/S de requête.
- Métriques et logs d'intégrité du cluster Databricks, tels que la mémoire et les métriques CPU du pilote et des workers, ainsi que les logs du pilote et de l'exécuteur.
- Données de consommation et de coût Databricks qui peuvent être utilisées pour afficher la consommation DBU et les coûts Databricks estimés.
Installer l'intégration
L'intégration Databricks est destinée à être déployée sur le nœud du pilote d'un cluster Databricks polyvalent, de tâche ou de pipeline. Pour déployer l'intégration de cette manière, suivez les étapes pour déployer l'intégration sur un cluster Databricks.
L'intégration Databricks peut également être déployée à distance sur un environnement hôte pris en charge. Pour déployer l'intégration de cette manière, suivez les étapes pour déployer l'intégration à distance.
Vérifier l'installation
Une fois que l'intégration Databricks a fonctionné pendant quelques minutes, utilisez le générateur de requêtes dans New Relic pour exécuter la requête suivante, en remplaçant [YOUR_CLUSTER_NAME] par le nom du cluster Databricks où l'intégration a été installée (notez que si le nom de votre cluster inclut ', vous devez l'échapper avec \) :
SELECT uniqueCount(executorId) AS Executors FROM SparkExecutorSample WHERE databricksClusterName = '[YOUR_CLUSTER_NAME]'
Le résultat de la requête doit être un nombre supérieur à zéro.
Importer les exemples de dashboards (facultatif)
Pour vous aider à démarrer avec la télémétrie collectée, installez nos dashboards pré-construits à l'aide de l'installation guidée.
Alternativement, vous pouvez installer les dashboards pré-construits en suivant les instructions trouvées dans Importer les exemples de tableaux de bord.
En savoir plus
Pour en savoir plus sur l'intégration Databricks, consultez le dépôt officiel de l'intégration New Relic Databricks.