Intégration Databricks

L'intégration Databricks est un projet communautaire open source qui offre un ensemble complet de capacités de collecte de télémétrie dans votre environnement Databricks. Ces capacités vous garantissent de disposer de toutes les données contextuelles dont vous avez besoin pour une analyse et une optimisation approfondies.

L'intégration collecte les types de télémétrie suivants :

Métriques des applications Apache Spark, telles que les métriques de mémoire et de CPU des exécuteurs Spark, les durées des tâches Spark, les durées et les métriques d'E/S des étapes et des tâches Spark, et les métriques de mémoire et de disque des RDD Spark
Métriques d'exécution des tâches Databricks Lakeflow, telles que les durées, les heures de début et de fin, ainsi que les codes et types de terminaison pour les exécutions de tâches et de jobs.
Mises à jour des métriques du pipeline déclaratif Databricks Lakeflow, telles que les durées, les heures de début et de fin, et l'état d'achèvement des mises à jour et des flux.
Logs d'événements du pipeline déclaratif Databricks Lakeflow
Métriques de requête Databricks, y compris les temps d'exécution et les métriques d'E/S de requête.
Métriques et logs d'intégrité du cluster Databricks, tels que la mémoire et les métriques CPU du pilote et des workers, ainsi que les logs du pilote et de l'exécuteur.
Données de consommation et de coût Databricks qui peuvent être utilisées pour afficher la consommation DBU et les coûts Databricks estimés.

Installer l'intégration

L'intégration Databricks est destinée à être déployée sur le nœud du pilote d'un cluster Databricks polyvalent, de tâche ou de pipeline. Pour déployer l'intégration de cette manière, suivez les étapes pour déployer l'intégration sur un cluster Databricks.

L'intégration Databricks peut également être déployée à distance sur un environnement hôte pris en charge. Pour déployer l'intégration de cette manière, suivez les étapes pour déployer l'intégration à distance.

Vérifier l'installation

Une fois que l'intégration Databricks a fonctionné pendant quelques minutes, utilisez le générateur de requêtes dans New Relic pour exécuter la requête suivante, en remplaçant [YOUR_CLUSTER_NAME] par le nom du cluster Databricks où l'intégration a été installée (notez que si le nom de votre cluster inclut ', vous devez l'échapper avec \) :

SELECT uniqueCount(executorId) AS Executors FROM SparkExecutorSample WHERE databricksClusterName = '[YOUR_CLUSTER_NAME]'

Le résultat de la requête doit être un nombre supérieur à zéro.

Importer les exemples de dashboards (facultatif)

Pour vous aider à démarrer avec la télémétrie collectée, installez nos dashboards pré-construits à l'aide de l'installation guidée.

Alternativement, vous pouvez installer les dashboards pré-construits en suivant les instructions trouvées dans Importer les exemples de tableaux de bord.

En savoir plus

Pour en savoir plus sur l'intégration Databricks, consultez le dépôt officiel de l'intégration New Relic Databricks.

Cette traduction automatique est fournie pour votre commodité.

Installer l'intégration .css-21sua1{background:none;border:none;width:0;padding:0;}

Vérifier l'installation

Importer les exemples de dashboards (facultatif)

En savoir plus

Installer l'intégration