Ce guide vous aide à résoudre les problèmes courants du gateway Pipeline Control. Les problèmes sont organisés par symptôme pour vous aider à identifier et résoudre rapidement les problèmes.
Problèmes d'installation
Capacités de l'utilisateur insuffisantes
Problème: Vous ne disposez pas des autorisations nécessaires associées à Org Product Admin et Organization Manager.
Symptômes:
- Message d'erreur indiquant "Vous ne disposez pas des capacités requises au niveau de l'organisation pour configurer l'authentification de l'agent"
- Impossible de terminer le processus d'installation du gateway
Solution:
- Contactez le ou les administrateurs de votre compte pour obtenir un rôle incluant les capacités nécessaires à la création d'identités système
- Consultez la documentation sur les permissions des utilisateurs pour obtenir des conseils
Version du chart Helm obsolète
Problème: Le script en ligne de commande pour installer le chart Helm échoue car votre version locale de Helm est obsolète.
Symptômes:
- Le script d'installation Helm échoue avec des erreurs de compatibilité de version
- Messages d'erreur indiquant la nécessité d'une mise à jour de Helm
Solution:
- Mettez à jour votre installation locale de Helm vers la dernière version pour garantir la compatibilité avec le script d'installation
- Suivez les instructions du message d'erreur pour mettre à jour Helm
Problèmes de transmission de données
Ces problèmes surviennent lorsque les données ne peuvent pas circuler de vos agents ou producteurs de télémétrie vers le gateway, ou du gateway vers New Relic.
Échecs de résolution DNS
Problème: Les agents ne peuvent pas se connecter au gateway en raison d'erreurs de résolution DNS.
Symptômes:
- Les agents ne peuvent pas atteindre le point de terminaison du gateway
- Erreurs de connexion dans les logs de l'Agent
Solution:
- Accédez aux logs de l'agent (via l'interface utilisateur ou directement) et recherchez les erreurs de connexion
- Consultez votre administrateur réseau pour ajuster les configurations DNS en fonction de votre infrastructure et de votre topologie réseau
- Consultez la documentation de l'agent pour plus de détails
Problèmes de certificat SSL
Problème: Il y a un problème avec la configuration du certificat SSL entre l'agent et le gateway.
Symptômes:
- Erreurs de connexion SSL dans les logs de l'agent
- Échecs de validation de certificat
- Erreurs de négociation TLS
Solution:
- Vérifiez les logs de l'agent pour détecter des erreurs de connexion SSL.
- Assurez-vous que les certificats SSL sont correctement configurés et valides, en tenant compte de votre infrastructure et de votre topologie réseau.
- Vérifier les dates d'expiration des certificats et la chaîne de certification
- Consultez Configuration DNS et certificat pour plus de détails
Mauvaise configuration du gateway
Problème: Les données atteignent le gateway mais ne parviennent pas à être publiées dans New Relic.
Symptômes:
- Le gateway reçoit des données des agents mais rien n'apparaît dans New Relic
- Pods ne parvenant pas à démarrer ou redémarrant de façon répétée
Solution:
- Vérifiez les métriques de requêtes sortantes et d'erreurs du gateway
- Examinez les métriques des règles en échec pour identifier les problèmes de configuration
- Inspecter les logs des pods qui ne démarrent pas
- Corrigez les paramètres de configuration du gateway et assurez-vous que tous les pods sont opérationnels.
- Vérifier que la clé de licence New Relic est correctement configurée
Producteur de télémétrie ou protocole non pris en charge
Problème: Les données sont envoyées depuis une API ou un protocole non pris en charge.
Symptômes:
- Le gateway renvoie le code d'état
501(Non implémenté) - Aucune donnée n'apparaît dans New Relic malgré la connexion réussie de l'agent
Solution:
- Vérifiez la compatibilité avec les protocoles pris en charge par New Relic (OTLP, protocoles de l'agent New Relic)
- Si vous utilisez un protocole non pris en charge, soumettez une demande de fonctionnalité pour obtenir sa prise en charge.
- Configurer le producteur de télémétrie pour envoyer les données directement à New Relic comme solution de contournement temporaire
Règle destructive supprimant toutes les données
Problème: Une règle rejette toutes les données, les empêchant d'atteindre New Relic.
Symptômes:
- Les données cessent d'apparaître dans New Relic après le déploiement d'une règle
- Les métriques de données rejetées indiquent que des volumes élevés sont filtrés.
Solution:
- Vérifiez les métriques de données rejetées dans le dashboard de monitoring du gateway.
- Vérifiez les configurations de vos filtres et processeurs d'échantillonnage
- Modifiez ou supprimez la règle destructive pour permettre le flux de données
- Testez les règles dans un environnement hors production avant le déploiement
Données manquantes après ingestion
Problème: Des données sont manquantes dans le backend New Relic après l'ingestion.
Symptômes:
- Lacunes dans les données de télémétrie
- Traces ou enregistrements de log incomplets
Solution:
- Examinez les métriques d'erreur et vérifiez les délais d'attente côté client.
- Évaluer les signes d'épuisement des ressources (CPU, mémoire, réseau)
- Consultez l'état de New Relic pour les problèmes de plateforme
- Examiner les logs du gateway durant la période concernée
Problèmes de réception de données
Ces problèmes surviennent lorsque le gateway fonctionne mais ne reçoit pas de données des producteurs de télémétrie.
Mauvaise configuration du producteur de télémétrie
Problème: Le producteur de télémétrie est mal configuré, ce qui fait qu'aucune donnée de télémétrie n'est envoyée au gateway.
Symptômes:
- Le gateway est en cours d'exécution et saine mais ne reçoit aucune donnée
- Les données de monitoring du gateway sont présentes, mais aucune télémétrie applicative.
Solution:
- Accédez aux logs du producteur pour identifier les erreurs de configuration
- Vérifiez que l'URL du point de terminaison du gateway est correctement configurée dans l'agent ou le producteur
- Assurez-vous que le port du gateway est accessible depuis le producteur
- Reportez-vous à la documentation de l'API, de l'agent ou du producteur de télémétrie approprié pour connaître les étapes de configuration correctes
- Consultez Modifier la configuration de l'agent pour obtenir des conseils
Limitation de débit de New Relic
Problème: Vous atteignez les limites de débit de vos données de télémétrie.
Symptômes:
- Le client HTTP du gateway reçoit des codes de statut 429 de l'API New Relic
- Événements créés dans votre compte indiquant une limitation de débit
- Les données apparaissent par intermittence ou avec du retard
Solution:
- Vérifiez les codes de réponse du client HTTP du gateway pour les codes d'état 429
- Passez en revue les événements créés dans votre compte indiquant une limitation de débit
- Reportez-vous à la documentation sur la limitation de débit pour obtenir des conseils sur la gestion et l'ajustement des débits de données télémétriques
- Envisagez d'utiliser des processeurs d'échantillonnage pour réduire le volume de données
Problèmes de performance et de santé
Ces problèmes affectent les performances du gateway, l'utilisation des ressources et la latence des données.
Épuisement des ressources
Problème: Le cluster a épuisé ses ressources CPU ou mémoire.
Symptômes:
- Le cluster apparaît comme non sain sur la page du gateway
- Les pods sont en attente ou échouent au démarrage
- Le pod plante ou redémarre
- Erreurs de mémoire insuffisante (OOM) dans les logs
Solution:
- Utilisez l'interface utilisateur Kubernetes pour visualiser les événements de pod et les jobs en attente afin d'identifier les contraintes de ressources.
- Augmentez la taille des pools de nœuds ou ajustez les limites de ressources (CPU et mémoire) et les demandes pour les pods
- Vérifiez les limites du fournisseur de cloud pour le nombre de nœuds actifs et ajustez les configurations si nécessaire.
- Consultez les conseils de dimensionnement et de mise à l'échelle pour dimensionner correctement votre déploiement
Retards d'arrivée des données (latence supérieure au SLA)
Problème: Les données ne sont pas reçues dans les délais prévus.
Symptômes:
- Les données arrivent dans New Relic mais avec un retard important
- Les métriques de latence affichent des valeurs élevées
- Les files d'attente de traitement s'engorgent
Solution:
- Vérifiez les métriques de latence pour identifier les retards dans la transmission de données
- Augmenter le nombre minimal de pods de gateway pour améliorer la capacité de traitement et réduire la latence
- Vérifier la configuration de la mise à l'échelle automatique pour s'assurer qu'elle répond à la charge de manière appropriée
- Envisagez de mettre en place l'échantillonnage pour réduire le volume de données pendant les périodes de pointe
Problèmes de monitoring et de diagnostic
Ces problèmes affectent la capacité du gateway à envoyer ses propres données de monitoring à New Relic.
Clé de licence invalide
Problème: Le gateway est configuré avec une clé de licence non valide ou ayant fait l'objet d'une rotation.
Symptômes:
- Aucune donnée de monitoring du gateway n'apparaît dans New Relic
- Erreurs 403 provenant du pipeline de monitoring interne et de l'exportateur d'utilisation dans les logs du gateway
- Les données de l'agent atteignent New Relic avec succès, mais pas les métriques du gateway
Solution:
- Accédez directement aux logs du gateway pour vérifier le problème. Recherchez les erreurs 403 provenant du pipeline de monitoring interne et de l'exportateur d'usage, mais pas pour les données de l'agent
- Assurez-vous que la clé de licence est valide et correctement configurée
- Mettez à jour la clé dans la configuration de votre gateway si nécessaire
- Redéployez le gateway après avoir mis à jour la clé de licence
Règle cloud affectant les données de monitoring du gateway
Problème: Les métriques produites par le gateway sont involontairement rejetées par une règle cloud.
Symptômes:
- Les données de monitoring du gateway apparaissent initialement mais s'arrêtent ensuite
- Les données d'utilisation des règles cloud indiquent que les métriques du gateway sont rejetées
Solution:
- Examinez les données d'utilisation des règles cloud pour identifier toute baisse involontaire
- Modifier la configuration de la règle cloud pour exclure les métriques de gateway du rejet
- Assurez-vous que les règles cloud disposent de conditions appropriées pour éviter le rejet de métriques d'infrastructure.
Limitation de débit sur l'API de métriques
Problème: Vous avez peut-être dépassé la limite de requêtes de l'API de métriques, entraînant l'échec des requêtes ultérieures du gateway avec des codes de réponse 429.
Symptômes:
- Codes de réponse 429 dans les logs du gateway
- Les données de monitoring du gateway apparaissent par intermittence
- Limitation du débit des événements dans votre compte
Solution:
- Vérifiez les événements de limitation de débit liés à l'API de métriques OpenTelemetry dans votre compte
- Passez en revue la cardinalité et le volume des métriques de votre compte
- Consultez la documentation sur la limitation de débit pour obtenir des conseils sur la gestion et l'ajustement des taux de requêtes
Problèmes de workflow de configuration et de déploiement
Ces problèmes affectent le workflow de l'interface utilisateur de Pipeline Control et le processus de déploiement des configurations de gateway.
L'interface utilisateur de Pipeline Control n'affiche aucune donnée
Problème: Vous ne voyez aucune donnée de gateway dans l'interface utilisateur Pipeline Control.
Symptômes:
- Le gateway est opérationnelle et envoie des données de monitoring à New Relic
- L'interface utilisateur de Pipeline Control apparaît vide ou n'affiche aucune information sur le gateway
- Impossible d'afficher ou de modifier la configuration du gateway
Solution:
- Vérifiez le menu déroulant du compte dans l'interface de Pipeline Control pour vous assurer que le bon compte est sélectionné.
- Assurez-vous de consulter All accounts ou le compte spécifique associé à la clé de licence du gateway
- Vérifiez que la clé de licence utilisée par le gateway correspond au compte que vous consultez dans l'interface utilisateur.
Les modifications de configuration ne prennent pas effet
Problème: Vous avez apporté des modifications à la configuration du gateway dans l'interface utilisateur, mais elles ne sont pas appliquées.
Symptômes:
- Configuration du pipeline ou paramètres du processeur modifiés mais le traitement des données n'a pas changé
- Les règles attendues ne filtrent ni ne transforment les données
- Les modifications apparaissent dans l'interface utilisateur mais pas dans le comportement du gateway
Solution:
- Vérifiez la page des mises à jour dans l'interface utilisateur de Pipeline Control pour les déploiements en attente
- N'oubliez pas que les modifications sont mises en attente jusqu'à ce qu'elles soient explicitement déployées via Fleet Control/Agent Control
- Cliquez sur Deploy pour pousser les modifications de configuration en attente vers vos clusters de gateways
- Vérifier que le déploiement se termine avec succès et que les pods redémarrent avec la nouvelle configuration
- Vérifiez les logs du pod du gateway pour rechercher des erreurs de validation de configuration lors du déploiement.
Les modifications de configuration ont disparu
Problème: Les modifications de configuration ont disparu de l'interface après l'enregistrement.
Symptômes:
- Modifications apportées aux pipelines ou aux processeurs mais elles n'apparaissent pas dans l'interface utilisateur
- La liste des mises à jour n'affiche pas les modifications récentes
- Les modifications semblent avoir été perdues
Solution:
- Vérifiez si plusieurs utilisateurs modifient la configuration du gateway simultanément
- Condition de concurrence de l'API: lorsque plusieurs utilisateurs envoient simultanément des mises à jour de configuration, les modifications peuvent s'écraser mutuellement.
- Consultez la page des mises à jour pour voir quelles modifications ont bien été enregistrées
- Coordonnez-vous avec les membres de l'équipe pour éviter les modifications simultanées de la même configuration de gateway
- Rétablir les modifications perdues
- Contactez le support New Relic si des conditions de concurrence surviennent fréquemment
Non-concordance du schéma de données
Problème: Votre filtre ou processeur de transformation ne correspond pas aux données ou ne les modifie pas comme prévu car l'attribut n'existe pas au niveau du gateway.
Symptômes:
- Les conditions de filtrage ne correspondent pas aux données auxquelles vous vous attendez
- Les instructions de transformation ne trouvent pas d'attributs à modifier
- Le processeur fonctionne lors des tests avec les données NRDB, mais pas au niveau du gateway
- Les attributs comme
entity.guid,appNameouentityGuidne sont pas accessibles
Solution:
- Comprenez que les attributs disponibles dans NRDB peuvent ne pas exister au niveau du gateway avant l'enrichissement
- Consultez les différences de schéma de données du gateway pour voir quels attributs sont indisponibles au niveau du gateway
- Utilisez des attributs qui existent dans la télémétrie brute envoyée par vos agents ou collecteurs
- Pour filtrer en fonction d'attributs enrichis (comme
entity.guidouappName), envisagez plutôt d'utiliser les règles cloud, qui traitent les données après enrichissement - Vérifiez que votre syntaxe OTTL est correcte pour accéder aux attributs (par ex.
attributes["key"]vs accès direct aux champs)
Erreurs de déploiement de ConfigMap
Problème: Une ConfigMap Kubernetes a été mise à jour avec une erreur, empêchant les pods de gateway de démarrer.
Symptômes:
- Les pods du gateway ne redémarrent pas après le déploiement de la configuration
- Les Pods sont à l'état CrashLoopBackOff ou Error
- Le gateway devient non saine après l'application de modifications de configuration
- Erreurs de validation de la configuration dans les logs des pods
Solution:
- Vérifiez l'état et les logs du pod pour détecter des erreurs de configuration :bash$kubectl get pods -n newrelic$kubectl logs <pod-name> -n newrelic
- Recherchez des erreurs de syntaxe YAML ou des configurations de processeur non valides
- Vérifiez que le contenu de la ConfigMap correspond au schéma attendu :bash$kubectl get configmap -n newrelic -o yaml
- Revenir à la configuration fonctionnelle précédente :bash$kubectl rollout undo deployment/<deployment-name> -n newrelic
- Corrigez l'erreur de configuration dans l'interface utilisateur de Pipeline Control ou directement dans la ConfigMap
- Redéployer la configuration corrigée
- Vérifiez que les pods redémarrent correctement après l'application du correctif.
Commandes de diagnostic
Utilisez ces commandes pour collecter des informations de diagnostic lors du dépannage des problèmes de gateway :
Vérifier le statut du pod
$kubectl get pods -n newrelicAfficher les logs du pod
$kubectl logs <pod-name> -n newrelicVérifier l'utilisation des ressources du pod
$kubectl top pods -n newrelicVoir les événements du pod
$kubectl describe pod <pod-name> -n newrelicVérifier la configuration du gateway
$kubectl get configmap -n newrelic -o yamlVérifier le statut du déploiement
$kubectl rollout status deployment/<deployment-name> -n newrelicProchaines étapes
Si vous rencontrez toujours des problèmes après avoir suivi ce guide de dépannage :
- Consultez la documentation sur la configuration du gateway pour vérifier votre configuration
- Consultez les recommandations de dimensionnement et de mise à l'échelle pour assurer une allocation appropriée des ressources
- Vérifiez la configuration de votre équilibreur de charge si vous en utilisez un
- Contactez le support New Relic avec les informations de diagnostic recueillies à l'aide des commandes ci-dessus