Esta guía le ayuda a solucionar problemas comunes con el gateway de Pipeline Control. Los problemas están organizados por síntoma para ayudarlo a identificar y resolver problemas rápidamente.
Problemas de instalación
Capacidades de usuario insuficientes
Problema: No tiene los permisos necesarios asociados a Org Product Admin y Organization Manager.
Síntomas:
- Mensaje de error que indica "No tiene las capacidades a nivel de organización necesarias para configurar la autenticación del agente"
- No se puede completar el proceso de instalación de la puerta de enlace
Solución:
- Comuníquese con el/los administrador(es) de su cuenta para que se le otorgue un rol que incluya las capacidades necesarias para la creación de identidades del sistema.
- Consulte la documentación de permisos de usuario para obtener orientación
Versión del chart de Helm desactualizada
Problema: El script de línea de comandos para instalar el chart de Helm falla porque su versión local de Helm está desactualizada.
Síntomas:
- El script de instalación de Helm falla con errores de compatibilidad de versiones
- Mensajes de error que indican la necesidad de una actualización de Helm
Solución:
- Actualice su instalación local de Helm a la última versión para garantizar la compatibilidad con el script de instalación
- Siga las instrucciones del mensaje de error para actualizar Helm
Problemas de transmisión de datos
Estos problemas ocurren cuando los datos no pueden fluir desde sus agentes o productores de telemetría al gateway, o desde el gateway a New Relic.
Fallas de resolución de DNS
Problema: Los agentes no pueden conectarse a la puerta de enlace debido a errores de resolución de DNS.
Síntomas:
- Los agentes no pueden comunicarse con el endpoint de la puerta de enlace
- Errores de conexión en los logs del agente
Solución:
- Acceda a los logs del agente (a través de la UI o directamente) y busque errores de conexión
- Consulte a su administrador de red para ajustar las configuraciones de DNS según su infraestructura y topología de red
- Consulte la documentación del agente para obtener más detalles
Problemas de certificados SSL
Problema: Hay un problema con la configuración del certificado SSL entre el agente y el gateway.
Síntomas:
- Errores de conexión SSL en los logs del agente
- Fallas de validación de certificados
- Errores de negociación TLS
Solución:
- Revise los logs del agente en busca de errores de conexión SSL
- Asegúrese de que los certificados SSL estén configurados correctamente y sean válidos, considerando su infraestructura y topología de red.
- Verifique las fechas de vencimiento del certificado y la cadena de certificados
- Consulte configuración de DNS y certificados para obtener más detalles
Configuración incorrecta de la puerta de enlace
Problema: Los datos llegan al gateway pero fallan al publicarse en New Relic.
Síntomas:
- El Gateway recibe datos de los agentes, pero no aparece nada en New Relic
- Pods que fallan al iniciar o se reinician repetidamente
Solución:
- Verifique las métricas de errores y solicitudes salientes del gateway
- Revise las métricas de reglas fallidas para identificar problemas de configuración
- Inspeccionar los logs de los pods que no se inician
- Corrija la configuración del gateway y asegúrese de que todos los pods estén operativos
- Verifique que la clave de licencia de New Relic esté configurada correctamente
Productor o protocolo de telemetría no compatible
Problema: Los datos se envían desde una API o protocolo no compatible.
Síntomas:
- El Gateway devuelve el código de estado
501(No implementado) - No aparecen datos en New Relic a pesar de la conexión exitosa del agente
Solución:
- Verifique la compatibilidad con los protocolos admitidos por New Relic (OTLP, protocolos del agente de New Relic)
- Si utiliza un protocolo no compatible, envíe una solicitud de función para obtener soporte.
- Configure el productor de telemetría para enviar datos directamente a New Relic como una solución temporal
Regla destructiva que descarta todos los datos
Problema: Una regla está descartando todos los datos, impidiendo que lleguen a New Relic.
Síntomas:
- Los datos dejan de aparecer en New Relic después de la implementación de reglas
- Las métricas de descarte de datos muestran que se están filtrando grandes volúmenes.
Solución:
- Verifique las métricas de datos descartados en el dashboard de monitoreo del gateway
- Revise sus configuraciones de filtro y procesador de muestreo
- Modifique o elimine la regla destructiva para permitir el flujo de datos
- Pruebe las reglas en un entorno de no producción antes de implementarlas.
Datos faltantes después de la ingesta
Problema: Faltan datos en el backend de New Relic después de la ingesta.
Síntomas:
- Brechas en los datos de telemetría
- Trazas o logs de log incompletos
Solución:
- Revise las métricas de errores y verifique si hay tiempos de espera del lado del cliente
- Evalúe los signos de agotamiento de recursos (CPU, memoria, red)
- Consulte el estado de New Relic para ver problemas de la plataforma.
- Examine los logs de la puerta de enlace durante el período de tiempo afectado
Problemas de recepción de datos
Estos problemas ocurren cuando el gateway se está ejecutando pero no recibe datos de los productores de telemetría.
Configuración incorrecta del productor de telemetría
Problema: El productor de telemetría está configurado incorrectamente, lo que provoca que no se envíen datos de telemetría a la puerta de enlace.
Síntomas:
- El Gateway se está ejecutando y está en buen estado, pero no recibe datos
- Los datos de monitoreo del Gateway están presentes, pero no hay telemetría de la aplicación
Solución:
- Acceda a los logs del productor para identificar errores de configuración
- Verifique que la URL del endpoint de la puerta de enlace esté configurada correctamente en el agente o productor.
- Asegúrese de que el puerto del gateway sea accesible desde el productor
- Consulte la documentación correspondiente de la API, el agente o el productor de telemetría para conocer los pasos de configuración correctos.
- Consulte Modificar la configuración del agente para obtener orientación
Limitación de tasas de New Relic
Problema: Está alcanzando los límites de tasa en sus datos de telemetría.
Síntomas:
- El cliente HTTP de Gateway recibe códigos de estado 429 de la API de New Relic
- Eventos creados en su cuenta que indican limitación de tasa
- Los datos aparecen de forma intermitente o con retrasos
Solución:
- Verifique los códigos de respuesta del cliente HTTP del gateway en busca de códigos de estado 429
- Revise los eventos creados en su cuenta que indican limitación de tasas
- Consulte la documentación sobre limitación de tasas para obtener orientación sobre cómo administrar y ajustar las tasas de datos de telemetría
- Considere utilizar procesadores de muestreo para reducir el volumen de datos
Problemas de rendimiento y salud
Estos problemas afectan el rendimiento de la puerta de enlace, la utilización de recursos y la latencia de los datos.
Agotamiento de recursos
Problema: El clúster ha agotado sus recursos de CPU o memoria.
Síntomas:
- El clúster se muestra como no saludable en la página de la puerta de enlace
- Los Pods están pendientes o fallan al iniciar
- El Pod falla o se reinicia
- Errores de memoria insuficiente (OOM) en los logs
Solución:
- Utilice la interfaz de usuario de Kubernetes para ver eventos de pods y trabajos pendientes para identificar restricciones de recursos
- Aumente los tamaños de los grupos de nodos o ajuste los límites de recursos y las solicitudes (CPU y memoria) para los pods
- Verifique los límites del proveedor de la nube para la cantidad de nodos activos y ajuste las configuraciones según sea necesario
- Consulte la guía de dimensionamiento y escalamiento para dimensionar correctamente su despliegue
Retrasos en la llegada de datos (latencia superior al SLA)
Problema: Los datos no se están recibiendo dentro del plazo esperado.
Síntomas:
- Los datos llegan a New Relic pero con un retraso significativo
- Las métricas de latencia muestran valores altos
- Las colas de procesamiento se están saturando
Solución:
- Revise las métricas de latencia para identificar retrasos en la transmisión de datos
- Aumente el número mínimo de pods de gateway para mejorar la capacidad de procesamiento y reducir la latencia
- Revise la configuración de autoescalado para garantizar que responda a la carga adecuadamente.
- Considere implementar el muestreo para reducir el volumen de datos durante los períodos pico
Problemas de monitoreo y diagnóstico
Estos problemas afectan la capacidad del gateway para enviar sus propios datos de monitoreo a New Relic.
Clave de licencia inválida
Problema: El gateway está configurado con una clave de licencia no válida o una que ha sido rotada.
Síntomas:
- No aparecen datos de monitoreo de gateway en New Relic
- Errores 403 del pipeline de monitoreo interno y del exportador de uso en los logs del gateway
- Los datos del agente llegan a New Relic correctamente, pero las métricas del gateway no
Solución:
- Acceda directamente a los logs de la puerta de enlace para verificar el problema. Busque errores 403 del pipeline de monitoreo interno y del exportador de uso, pero no de los datos del agente.
- Asegúrese de que la clave de licencia sea válida y esté configurada correctamente
- Actualice la clave en la configuración de su gateway si es necesario
- Vuelva a implementar el gateway después de actualizar la clave de licencia
Regla de nube que afecta los datos de monitoreo de la puerta de enlace
Problema: Las métricas producidas por el gateway están siendo descartadas involuntariamente por una regla en la nube.
Síntomas:
- Los datos de monitoreo del Gateway aparecen inicialmente, pero luego se detienen
- Los datos de uso de las reglas de la nube muestran que se están descartando métricas de la puerta de enlace
Solución:
- Revise los datos de uso de las reglas de nube para identificar cualquier caída no intencionada
- Modifique la configuración de la regla de nube para excluir las métricas de gateway de ser descartadas
- Asegúrese de que las reglas de nube tengan las condiciones adecuadas para evitar descartar métricas de infraestructura
Limitación de tasa en la API de métricas
Problema: Es posible que haya excedido el límite de solicitudes a la API de métricas, lo que provoca que las solicitudes posteriores desde el gateway fallen con códigos de respuesta 429.
Síntomas:
- Códigos de respuesta 429 en los logs del gateway
- Los datos de monitoreo del gateway aparecen intermitentemente
- Limitación de tasa de eventos en su cuenta
Solución:
- Compruebe si hay eventos de limitación de velocidad relacionados con la API de métricas de OpenTelemetry en su cuenta
- Revise la cardinalidad y el volumen de métricas de su cuenta
- Consulte la documentación sobre la limitación de tasas para obtener orientación sobre cómo administrar y ajustar las tasas de solicitudes
Problemas del flujo de trabajo de configuración y despliegue
Estos problemas afectan el flujo de trabajo de la interfaz de usuario de Pipeline Control y el proceso de despliegue de las configuraciones de gateway.
La interfaz de usuario de Pipeline Control no muestra datos
Problema: No puede ver datos del gateway en la IU de Pipeline Control.
Síntomas:
- El Gateway está operativo y enviando datos de monitoreo a New Relic
- La IU de Pipeline Control aparece vacía o no muestra información del gateway
- No se puede ver ni editar la configuración del gateway
Solución:
- Verifique el menú desplegable de cuenta en la interfaz de usuario de Pipeline Control para asegurarse de que la cuenta correcta esté seleccionada.
- Asegúrese de estar viendo All accounts o la cuenta específica asociada a la clave de licencia del gateway
- Verifique que la clave de licencia utilizada por el gateway coincida con la cuenta que está viendo en la UI
Los cambios de configuración no surten efecto
Problema: Ha realizado cambios en la configuración del gateway en la interfaz de usuario, pero no se están aplicando.
Síntomas:
- Se modificó la configuración del pipeline o los ajustes del procesador, pero el procesamiento de datos no ha cambiado
- Las reglas esperadas no están filtrando ni transformando datos
- Los cambios aparecen en la interfaz de usuario pero no en el comportamiento del gateway
Solución:
- Revise la página de actualizaciones en la IU de Pipeline Control para ver las implementaciones pendientes
- Recuerde que los cambios permanecen en fase de preparación hasta que se despliegan explícitamente a través de Fleet Control/Agent Control.
- Haga clic en Deploy para enviar los cambios de configuración pendientes a sus clústeres de gateway
- Verifique que el despliegue se complete correctamente y que los pods se reinicien con la nueva configuración.
- Verifique los logs del pod de gateway para detectar errores de validación de configuración durante el despliegue
Los cambios de configuración desaparecieron
Problema: Los cambios de configuración desaparecieron de la interfaz de usuario después de guardar.
Síntomas:
- Se realizaron cambios en pipelines o procesadores, pero no aparecen en la interfaz de usuario
- La lista de actualizaciones no muestra las modificaciones recientes
- Parece que los cambios se han perdido
Solución:
- Verifique si varios usuarios están editando la configuración del gateway simultáneamente
- Condición de carrera de la API: Cuando varios usuarios envían actualizaciones de configuración simultáneamente, los cambios pueden sobrescribirse entre sí
- Revise la página de actualizaciones para ver qué cambios se guardaron realmente
- Coordine con los miembros del equipo para evitar ediciones simultáneas en la misma configuración del gateway
- Rehacer los cambios perdidos
- Contacte al soporte de New Relic si las condiciones de carrera ocurren con frecuencia
Discrepancia en el esquema de datos
Problema: Su filtro o procesador de transformación no coincide con los datos ni los modifica según lo esperado porque el atributo no existe a nivel de gateway.
Síntomas:
- Las condiciones de filtro no coinciden con los datos con los que espera que coincidan
- Las declaraciones de transformación no encuentran atributos para modificar
- El procesador funciona en las pruebas con datos de NRDB, pero no en la puerta de enlace
- Atributos como
entity.guid,appNameoentityGuidno son accesibles
Solución:
- Comprenda que los atributos disponibles en NRDB pueden no existir en el gateway antes del enriquecimiento
- Consulte las diferencias del esquema de datos del gateway para ver qué atributos no están disponibles en el gateway
- Utiliza atributos que existen en la telemetría sin procesar enviada por tus agentes o recopiladores
- Para filtrar basándose en atributos enriquecidos (como
entity.guidoappName), considere usar reglas de nube en su lugar, que procesan los datos después del enriquecimiento - Verifique que su sintaxis OTTL sea correcta para acceder a los atributos (p. ej.,
attributes["key"]vs. acceso directo a campos)
Errores de despliegue de ConfigMap
Problema: Un ConfigMap de Kubernetes se actualizó con un error, impidiendo que los pods de gateway se inicien.
Síntomas:
- Los pods de Gateway fallan al reiniciarse después de la implementación de la configuración
- Los Pods están en estado CrashLoopBackOff o Error
- El Gateway se vuelve no saludable después de enviar cambios de configuración
- Errores de validación de configuración en los logs de pods
Solución:
- Verifique el estado y los logs del pod para detectar errores de configuración:bash$kubectl get pods -n newrelic$kubectl logs <pod-name> -n newrelic
- Busque errores de sintaxis YAML o configuraciones de procesador no válidas
- Verifique que el contenido del ConfigMap coincida con el esquema esperado:bash$kubectl get configmap -n newrelic -o yaml
- Revierta a la configuración funcional anterior:bash$kubectl rollout undo deployment/<deployment-name> -n newrelic
- Corrija el error de configuración en la Pipeline Control UI o directamente en el ConfigMap
- Vuelva a desplegar la configuración corregida
- Verifique que los pods se reinicien correctamente después de aplicar la corrección
Comandos de diagnóstico
Utilice estos comandos para recopilar información de diagnóstico al solucionar problemas de la puerta de enlace:
Verificar el estado del pod
$kubectl get pods -n newrelicVer logs del pod
$kubectl logs <pod-name> -n newrelicVerificar el uso de recursos del pod
$kubectl top pods -n newrelicVer eventos del pod
$kubectl describe pod <pod-name> -n newrelicVerificar la configuración de la puerta de enlace
$kubectl get configmap -n newrelic -o yamlVerificar el estado del despliegue
$kubectl rollout status deployment/<deployment-name> -n newrelicPróximos pasos
Si continúa teniendo problemas después de seguir esta guía de solución de problemas:
- Revise la documentación de configuración del gateway para verificar su configuración
- Consulta la guía de dimensionamiento y escalamiento para garantizar una asignación de recursos adecuada
- Verifique la configuración del balanceador de carga si utiliza uno
- Comuníquese con el Soporte de New Relic con la información de diagnóstico recopilada de los comandos anteriores