Este guia ajuda você a solucionar problemas comuns com o gateway do Pipeline Control. Os problemas são organizados por sintoma para ajudar você a identificar e resolver problemas rapidamente.
Problemas de instalação
Capacidades do usuário insuficientes
Problema: Você não possui as permissões necessárias associadas ao Administrador de Produto da Organização e ao Gerente da Organização.
Sintomas:
- Mensagem de erro informando "Você não tem as capacidades de nível organizacional necessárias para configurar a autenticação do agente"
- Não foi possível concluir o processo de instalação do gateway
Solução:
- Entre em contato com o(s) administrador(es) da sua conta para receber uma função que inclua as capacidades necessárias para a criação de identidade do sistema
- Consulte a documentação de permissões de usuário para obter orientações
Versão do Helm chart desatualizada
Problema: O script de linha de comando para instalar o chart do Helm falha porque sua versão local do Helm está desatualizada.
Sintomas:
- O script de instalação do Helm falha com erros de compatibilidade de versão
- Mensagens de erro indicando a necessidade de uma atualização do Helm
Solução:
- Atualize sua instalação local do Helm para a versão mais recente para garantir a compatibilidade com o script de instalação
- Siga as instruções na mensagem de erro para atualizar o Helm
Problemas de transmissão de dados
Esses problemas ocorrem quando os dados não conseguem fluir dos seus agentes ou produtores de telemetria para o gateway, ou do gateway para a New Relic.
Falhas de resolução de DNS
Problema: Os agentes não conseguem se conectar ao gateway devido a erros de resolução de DNS.
Sintomas:
- Os agentes não conseguem alcançar o endpoint do gateway
- Erros de conexão nos logs do agente
Solução:
- Acesse os logs do agente (via UI ou diretamente) e procure por erros de conexão
- Consulte o administrador de rede para ajustar as configurações de DNS com base em sua infraestrutura e topologia de rede
- Consulte a documentação do agente para mais detalhes
Problemas de certificado SSL
Problema: Há um problema com a configuração do certificado SSL entre o agente e o gateway.
Sintomas:
- Erros de conexão SSL nos logs do agente
- Falhas de validação de certificado
- Erros de handshake TLS
Solução:
- Verifique os logs do agente para erros de conexão SSL
- Certifique-se de que os certificados SSL estejam configurados corretamente e válidos, considerando sua infraestrutura e topologia de rede
- Verifique as datas de expiração do certificado e a cadeia de certificados
- Consulte configuração de DNS e certificado para mais detalhes
Configuração incorreta do gateway
Problema: Os dados chegam ao gateway, mas falham ao publicar no New Relic.
Sintomas:
- O Gateway recebe dados dos agentes, mas nada aparece no New Relic
- Pods falhando ao iniciar ou reiniciando repetidamente
Solução:
- Verifique as métricas de requisições de saída e de erros do gateway
- Analise as métricas de regras com falha para identificar problemas de configuração
- Inspecione os logs de pods que não estão iniciando
- Corrija as configurações do gateway e garanta que todos os pods estejam operacionais
- Verifique se a chave de licença da New Relic está configurada corretamente
Produtor de telemetria ou protocolo não suportado
Problema: Os dados são enviados de uma API ou protocolo não suportado.
Sintomas:
- O Gateway retorna o código de status
501(Não Implementado) - Nenhum dado aparece no New Relic, apesar da conexão bem-sucedida do agente
Solução:
- Verifique a compatibilidade com os protocolos suportados pela New Relic (OTLP, protocolos do agente New Relic)
- Se estiver usando um protocolo não suportado, envie uma solicitação de recurso para obter suporte
- Configure o produtor de telemetria para enviar dados diretamente ao New Relic como uma solução de contorno temporária
Regra destrutiva descartando todos os dados
Problema: Uma regra está descartando todos os dados, impedindo que cheguem ao New Relic.
Sintomas:
- Os dados param de aparecer no New Relic após a implantação de regras
- Métricas de descarte de dados mostram altos volumes sendo filtrados
Solução:
- Verifique as métricas de descarte de dados no dashboard de monitoramento do gateway
- Revise suas configurações de filtro e processador de amostragem
- Modifique ou remova a regra destrutiva para permitir o fluxo de dados
- Teste as regras em um ambiente de não produção antes de implantar
Dados ausentes após a ingestão
Problema: Dados estão faltando no backend da New Relic após a ingestão.
Sintomas:
- Lacunas nos dados de telemetria
- Rastreamentos ou registros de log incompletos
Solução:
- Revise as métricas de erro e verifique se há timeouts do lado do cliente
- Avalie sinais de esgotamento de recursos (CPU, memória, rede)
- Verifique o status da New Relic para problemas na plataforma
- Examine os logs do gateway durante o período afetado
Problemas de recebimento de dados
Esses problemas ocorrem quando o gateway está em execução, mas não está recebendo dados dos produtores de telemetria.
Configuração incorreta do produtor de telemetria
Problema: O produtor de telemetria está configurado incorretamente, resultando em nenhum dado de telemetria sendo enviado ao gateway.
Sintomas:
- O Gateway está em execução e saudável, mas não recebe dados
- Dados de monitoramento do gateway estão presentes, mas sem telemetria de aplicação
Solução:
- Acesse os logs do produtor para identificar erros de configuração
- Verifique se a URL do endpoint do gateway está configurada corretamente no agente ou no produtor
- Certifique-se de que a porta do gateway esteja acessível a partir do produtor
- Consulte a documentação apropriada da API, do agente ou do produtor de telemetria para as etapas de configuração corretas
- Consulte Modificar a configuração do agente para obter orientações
Limitação de taxa da New Relic
Problema: Você está atingindo limites de taxa em seus dados de telemetria.
Sintomas:
- O cliente HTTP do Gateway recebe códigos de status 429 da API da New Relic
- Eventos criados na sua conta indicando limitação de taxa
- Os dados aparecem de forma intermitente ou com atrasos
Solução:
- Verifique os códigos de resposta do cliente HTTP do gateway em busca de códigos de status 429
- Analise os eventos criados na sua conta indicando limitação de taxa
- Consulte a documentação sobre limitação de taxa para obter orientações sobre como gerenciar e ajustar as taxas de dados de telemetria
- Considere usar processadores de amostragem para reduzir o volume de dados
Problemas de desempenho e integridade
Esses problemas afetam o desempenho do gateway, a utilização de recursos e a latência de dados.
Esgotamento de recursos
Problema: O cluster esgotou seus recursos de CPU ou memória.
Sintomas:
- O cluster aparece como não íntegro na página do gateway
- Pods estão pendentes ou falhando ao iniciar
- Pod falha ou reinicia
- Erros de memória insuficiente (OOM) nos logs
Solução:
- Use a interface do usuário do Kubernetes para visualizar eventos de pod e jobs pendentes para identificar restrições de recursos
- Aumente os tamanhos do pool de nós ou ajuste os limites de recursos e as solicitações (CPU e memória) para os pods
- Verifique os limites do provedor de nuvem para o número de nós ativos e ajuste as configurações conforme necessário
- Analise as orientações de dimensionamento e escalabilidade para dimensionar corretamente sua implantação
Atrasos na chegada de dados (latência além do SLA)
Problema: Os dados não estão sendo recebidos dentro do prazo esperado.
Sintomas:
- Os dados chegam ao New Relic, mas com atraso significativo
- Métricas de latência mostram valores altos
- As filas de processamento estão congestionadas
Solução:
- Verifique as métricas de latência para identificar atrasos na transmissão de dados
- Aumente o número mínimo de pods de gateway para melhorar a capacidade de processamento e reduzir a latência
- Revise a configuração de escalonamento automático para garantir que ela responda à carga adequadamente
- Considere implementar amostragem para reduzir o volume de dados durante períodos de pico
Problemas de monitoramento e diagnóstico
Esses problemas afetam a capacidade do gateway de enviar seus próprios dados de monitoramento para a New Relic.
Chave de licença inválida
Problema: O gateway está configurado com uma chave de licença inválida ou uma que foi rotacionada.
Sintomas:
- Nenhum dado de monitoramento do gateway aparece no New Relic
- Erros 403 do pipeline de monitoramento interno e do exportador de uso nos logs do gateway
- Os dados do agente chegam ao New Relic com sucesso, mas as métricas do gateway não
Solução:
- Acesse os logs do gateway diretamente para verificar o problema. Procure erros 403 do pipeline de monitoramento interno e do exportador de uso, mas não de dados do agente
- Certifique-se de que a chave de licença é válida e está configurada corretamente
- Atualize a chave na configuração do seu gateway se necessário
- Reimplante o gateway após atualizar a chave de licença
Regra de nuvem afetando dados de monitoramento do gateway
Problema: Métricas produzidas pelo gateway estão sendo descartadas não intencionalmente por uma regra de nuvem.
Sintomas:
- Os dados de monitoramento do Gateway aparecem inicialmente, mas param em seguida
- Dados de uso da regra de nuvem mostram métricas do gateway sendo descartadas
Solução:
- Analise os dados de uso das regras de nuvem para identificar quedas não intencionais
- Modifique a configuração da regra de nuvem para excluir as métricas de gateway do descarte
- Garanta que as regras de nuvem tenham condições adequadas para evitar o descarte de métricas de infraestrutura
Limitação de taxa na API de métricas
Problema: Você pode ter excedido o limite de requisições para a API de métricas, fazendo com que as requisições subsequentes do gateway falhem com códigos de resposta 429.
Sintomas:
- Códigos de resposta 429 nos logs do gateway
- Dados de monitoramento do Gateway aparecem intermitentemente
- Limitação de taxa de eventos na sua conta
Solução:
- Verifique se há eventos de limitação de taxa relacionados à API de métricas do OpenTelemetry na sua conta
- Revise a cardinalidade e o volume de métricas da sua conta
- Consulte a documentação de limitação de taxa para obter orientações sobre o gerenciamento e ajuste das taxas de requisição
Problemas no fluxo de trabalho de configuração e implantação
Esses problemas afetam o fluxo de trabalho da UI do Pipeline Control e o processo de implantação para configurações de gateway.
A UI do Pipeline Control não exibe dados
Problema: Você não consegue ver nenhum dado do gateway na UI do Pipeline Control.
Sintomas:
- O Gateway está operacional e enviando dados de monitoramento para a New Relic
- A UI do Pipeline Control aparece vazia ou não exibe informações do gateway
- Não é possível visualizar ou editar a configuração do gateway
Solução:
- Verifique o menu suspenso da conta na UI do Pipeline Control para garantir que a conta correta esteja selecionada
- Certifique-se de que você está visualizando All accounts ou a conta específica associada à chave de licença do gateway
- Verifique se a chave de licença usada pelo gateway corresponde à conta que você está visualizando na UI
Alterações de configuração não surtindo efeito
Problema: Você fez alterações na configuração do gateway na interface do usuário, mas elas não estão sendo aplicadas.
Sintomas:
- Modificou a configuração do pipeline ou as configurações do processador, mas o processamento de dados não mudou
- Regras esperadas não estão filtrando ou transformando dados
- As alterações aparecem na UI, mas não no comportamento do gateway
Solução:
- Verifique a página de atualizações na interface do Pipeline Control para implantações pendentes
- Lembre-se de que as alterações são preparadas até serem explicitamente implantadas via Fleet Control/Agent Control
- Clique em Deploy para enviar as alterações de configuração pendentes para seus clusters de gateway
- Verifique se a implantação foi concluída com sucesso e se os pods reiniciaram com a nova configuração
- Verifique os logs do pod do gateway para erros de validação de configuração durante a implantação
Alterações de configuração desapareceram
Problema: As alterações de configuração desapareceram da interface após salvar.
Sintomas:
- Fez alterações nos pipelines ou processadores, mas eles não aparecem na interface
- A lista de atualizações não mostra modificações recentes
- As alterações parecem ter sido perdidas
Solução:
- Verifique se vários usuários estão editando a configuração do gateway simultaneamente
- Condição de corrida da API: Quando vários usuários enviam atualizações de configuração simultaneamente, as alterações podem sobrescrever umas às outras
- Verifique a página de atualizações para ver quais alterações foram realmente salvas
- Coordene com os membros da equipe para evitar edições simultâneas na mesma configuração de gateway
- Refazer quaisquer alterações perdidas
- Entre em contato com o suporte da New Relic se condições de corrida ocorrerem com frequência
Incompatibilidade de esquema de dados
Problema: Seu processador de filtro ou transformação não está correspondendo ou modificando os dados como esperado porque o atributo não existe no nível do gateway.
Sintomas:
- As condições de filtro não correspondem aos dados que você espera que correspondam
- As instruções de transformação não encontram atributos para modificar
- O processador funciona em testes com dados do NRDB, mas não no gateway
- Atributos como
entity.guid,appNameouentityGuidnão estão acessíveis
Solução:
- Entenda que os atributos disponíveis no NRDB podem não existir no gateway antes do enriquecimento
- Analise as diferenças de esquema de dados do gateway para ver quais atributos estão indisponíveis no gateway
- Use atributos que existem na telemetria bruta enviada por seus agentes ou coletores
- Para filtrar com base em atributos enriquecidos (como
entity.guidouappName), considere usar regras de nuvem, que processam dados após o enriquecimento - Verifique se sua sintaxe OTTL está correta para acessar atributos (por exemplo,
attributes["key"]vs acesso direto ao campo)
Erros de implantação do ConfigMap
Problema: Um ConfigMap do Kubernetes foi atualizado com um erro, impedindo que os pods de gateway iniciassem.
Sintomas:
- Pods do Gateway falham ao reiniciar após a implantação da configuração
- Os Pods estão no estado CrashLoopBackOff ou Error
- O Gateway fica não íntegro após o envio de alterações de configuração
- Erros de validação de configuração nos logs do pod
Solução:
- Verifique o status e os logs do pod para erros de configuração:bash$kubectl get pods -n newrelic$kubectl logs <pod-name> -n newrelic
- Procure erros de sintaxe YAML ou configurações de processador inválidas
- Verifique se o conteúdo do ConfigMap corresponde ao esquema esperado:bash$kubectl get configmap -n newrelic -o yaml
- Reverta para a configuração funcional anterior:bash$kubectl rollout undo deployment/<deployment-name> -n newrelic
- Corrija o erro de configuração na interface do Pipeline Control ou diretamente no ConfigMap
- Reimplante a configuração corrigida
- Verifique se os pods reiniciam com sucesso após aplicar a correção
Comandos de diagnóstico
Use estes comandos para coletar informações de diagnóstico ao solucionar problemas de gateway:
Verificar o status do pod
$kubectl get pods -n newrelicVisualizar logs do pod
$kubectl logs <pod-name> -n newrelicVerificar o uso de recursos do pod
$kubectl top pods -n newrelicVisualizar eventos do pod
$kubectl describe pod <pod-name> -n newrelicVerifique a configuração do gateway
$kubectl get configmap -n newrelic -o yamlVerificar status da implantação
$kubectl rollout status deployment/<deployment-name> -n newrelicPróximos passos
Se você continuar enfrentando problemas após seguir este guia de solução de problemas:
- Revise a documentação de configuração do gateway para verificar sua configuração
- Verifique as orientações de dimensionamento e escalabilidade para garantir a alocação adequada de recursos
- Verifique sua configuração de balanceador de carga se estiver usando um
- Entre em contato com o suporte da New Relic com as informações de diagnóstico coletadas nos comandos acima