このガイドは、Pipeline Control ゲートウェイの一般的な問題のトラブルシューティングに役立ちます。問題は症状別に整理されており、問題を迅速に特定して解決するのに役立ちます。
設置の問題
ユーザー能力が不十分
問題: 組織製品管理者および組織マネージャーに関連付けられた必要な権限がありません。
症状:
- 「エージェント認証を設定するために必要な組織レベルの機能がありません」というエラーメッセージが表示される
- ゲートウェイの設置プロセスを完了できません
解決:
- アカウントの管理者にシステムアイデンティティの作成に必要な権限を含むロールを付与してもらいます。
- ガイダンスについては、ユーザー権限のドキュメントを参照してください。
古いHelmチャートバージョン
問題: Helmのローカル バージョンが古いため、 Helmチャートをインストールするコマンドライン スクリプトが失敗します。
症状:
- Helmがバージョン互換性エラーで失敗する
- Helmアップデートの必要性を示すエラーメッセージ
解決:
- インストレーション スクリプトとの互換性を確保するには、ローカルのHelmインストレーションを最新バージョンに更新してください。
- エラーメッセージの指示に従ってHelmをアップグレードしてください
データ転送の問題
これらの問題は、データがエージェントまたはテレメトリープロデューサーからゲートウェイに、またはゲートウェイからNew Relicに流れることができない場合に発生します。
DNS解決の失敗
問題: DNS 解決エラーのため、エージェントはゲートウェイに接続できません。
症状:
- エージェントがゲートウェイエンドポイントに到達できない
- エージェントログの接続エラー
解決:
- エージェント ログにアクセスし (UI 経由または直接)、接続エラーを検索します。
- ネットワーク アドミニストレーターに相談して、インフラストラクチャとネットワーク トポロジに基づいて DNS 設定を調整してください。
- 詳細についてはエージェントのドキュメントを参照してください
SSL証明書の問題
問題: エージェントとゲートウェイ間の SSL 証明書設定に問題があります。
症状:
- エージェントログのSSL接続エラー
- 証明書検証の失敗
- TLSハンドシェイクエラー
解決:
- エージェントログでSSL接続エラーを確認する
- インフラストラクチャとネットワークトポロジを考慮して、SSL証明書が正しく構成され、有効であることを確認します。
- 証明書の有効期限と証明書チェーンを確認する
- 詳細については、 DNSと証明書の設定を参照してください。
ゲートウェイの設定ミス
問題: データはゲートウェイに到達しますが、New Relic に公開できません。
症状:
- ゲートウェイはエージェントからデータを受信しますが、New Relicには何も表示されません
- ポッドが起動に失敗するか、繰り返し再起動する
解決:
- ゲートウェイからの送信リクエストとエラーのメトリクスを確認する
- 失敗したルールのメトリクスを確認して設定の問題を特定する
- 起動していないポッドのログを検査する
- ゲートウェイ構成設定を修正し、すべてのポッドが動作していることを確認します
- New Relicライセンスキーが正しく構成されていることを確認します
サポートされていないテレメトリー プロデューサーまたはプロトコル
問題: サポートされていない API またはプロトコルからデータが送信されます。
症状:
- ゲートウェイは
501ステータス コードを返します (実装されていません) - エージェント接続が成功したにもかかわらず、New Relicにデータが表示されない
解決:
- New Relic がサポートするプロトコル (OTLP、New Relic エージェント プロトコル) との互換性を確認します。
- サポートされていないプロトコルを使用している場合は、サポートのために機能リクエストを提出してください。
- 一時的な回避策として、テレメトリープロデューサーがデータを直接New Relicに送信するように構成します。
すべてのデータを削除する破壊的なルール
問題: ルールによってすべてのデータがドロップされ、New Relic に到達できなくなります。
症状:
- ルールのデプロイメント後、 New Relicにデータが表示されなくなる
- ドロップデータのメトリクスは、大量のデータがフィルタリングされていることを示しています
解決:
- ゲートウェイ監視ダッシュボードでドロップデータメトリクスを確認
- フィルタとサンプリングプロセッサの設定を確認する
- データフローを許可するために破壊的なルールを変更または削除する
- デプロイの前に本番環境以外の環境でルールをテストする
取り込み後にデータが欠落
問題: 取り込み後に New Relic バックエンドでデータが失われます。
症状:
- テレメトリーデータのギャップ
- 不完全なトレースまたはログ記録
解決:
- エラー メトリクスを確認し、クライアント側のタイムアウトを確認します。
- リソース枯渇の兆候を評価する(CPU、メモリ、ネットワーク)
- プラットフォームの問題がないかNew Relic のステータスを確認する
- 影響を受けた期間中のゲートウェイログを調べる
データ受信の問題
これらの問題は、ゲートウェイが実行中であるが、テレメトリー プロデューサーからデータを受信していない場合に発生します。
テレメトリープロデューサーの設定ミス
問題: テレメトリー プロデューサーの構成が間違っているため、テレメトリー データがゲートウェイに送信されません。
症状:
- ゲートウェイは実行中で正常ですが、データを受信しません
- ゲートウェイ監視データは存在しますが、アプリケーションテレメトリーがありません
解決:
- プロデューサー ログにアクセスして設定エラーを特定する
- エージェントまたはプロデューサーでゲートウェイエンドポイント URL が正しく設定されていることを確認します。
- ゲートウェイポートがプロデューサーから到達可能であることを確認する
- 正しい設定手順については、適切なAPI 、エージェント、またはテレメトリー プロデューサーのドキュメントを参照してください。
- ガイダンスについては、「エージェント設定の変更」を参照してください。
New Relicからのレート制限
問題: テレメトリーデータのレート制限に達しています。
症状:
- ゲートウェイHTTPクライアントはNew Relic APIから429ステータスコードを受け取ります
- アカウントにレート制限を示すイベントが作成されました
- データが断続的または遅延して表示される
解決:
- ゲートウェイ HTTP クライアント応答コードで 429 ステータス コードを確認します。
- アカウントで作成されたレート制限を示すイベントを確認します
- テレメトリーデータ レートの管理および調整に関するガイダンスについては、レート制限に関するドキュメントを参照してください。
- データ量を削減するためにサンプリングプロセッサの使用を検討する
パフォーマンスと健康の問題
これらの問題は、ゲートウェイのパフォーマンス、リソース使用率、およびデータ レイテンシに影響を与えます。
資源枯渇
問題: クラスターの CPU またはメモリ リソースが使い果たされました。
症状:
- ゲートウェイページでCluster異常と表示される
- ポッドが保留中または起動に失敗しています
- ポッドがクラッシュまたは再起動する
- ログ内のメモリ不足 (OOM) エラー
解決:
- Kubernetes UI を使用してポッドイベントと保留中のジョブを表示し、リソース制約を特定します。
- ノード プール サイズを増やすか、Pod のリソース制限 (CPU およびメモリ) requestsを調整します。
- cloudプロバイダーのアクティブノード数の制限を確認し、必要に応じて設定を調整します。
- サイズとスケーリングのガイダンスを確認して、デプロイメントのサイズを適切に調整してください
データ到着遅延(SLAを超えるレイテンシ)
問題: 予想された時間枠内にデータが受信されません。
症状:
- データはNew Relicに到着するが、大幅な遅延が発生する
- レイテンシ メトリクスが高い値を示す
- 処理キューが滞っています
解決:
- レイテンシ メトリクスをチェックしてデータ送信の遅延を特定する
- ゲートウェイポッドの最小数を増やして処理能力を高め、レイテンシを削減します。
- 自動スケーリングの設定を確認し、負荷に適切に対応できることを確認します。
- ピーク時のデータ量を削減するためにサンプリングを実施することを検討してください
監視と診断の問題
これらの問題は、ゲートウェイが独自の監視データを New Relic に送信する機能に影響します。
無効なライセンスキー
問題: ゲートウェイが無効なライセンスキー、またはローテーションされたライセンスキーで構成されています。
症状:
- New Relicにゲートウェイ監視データが表示されない
- ゲートウェイ ログ内の内部監視パイプラインと使用状況エクスポーターからの 403 エラー
- エージェント データはNew Relicに正常に到達しますが、ゲートウェイ メトリクスには到達しません
解決:
- 問題を確認するには、ゲートウェイ ログに直接アクセスしてください。内部監視パイプラインと使用状況エクスポーターからの 403 エラーを探しますが、エージェント データは探しません。
- ライセンスキーが有効であり、正しく設定されていることを確認してください
- 必要に応じてゲートウェイ設定のキーを更新してください
- ライセンスキーを更新した後、ゲートウェイを再展開します
ゲートウェイ監視データに影響を与えるクラウドルール
問題: ゲートウェイによって生成されたメトリクスが、 cloudルールによって意図せずドロップされます。
症状:
- ゲートウェイ監視データは最初は表示されますが、その後停止します
- クラウド ルールの使用状況データは、ゲートウェイ メトリクスがドロップされていることを示しています
解決:
- cloudルールの使用状況データを確認し、意図しないドロップを特定します
- ゲートウェイ メトリクスをドロップから除外するようにcloudルール設定を変更する
- インフラストラクチャ メトリクスのドロップを回避するために、 cloudルールに適切な条件があることを確認する
メトリクス API のレート制限
問題: メトリクスAPIに対するリクエスト制限を超えたため、ゲートウェイからの後続のrequests 429 応答コードで失敗する可能性があります。
症状:
- ゲートウェイログの429応答コード
- ゲートウェイ監視データが断続的に表示される
- アカウント内のレート制限イベント
解決:
- アカウント内のOpenTelemetryメトリクスAPIに関連するレート制限イベントを確認してください
- アカウントのメトリクス カーディナリティとボリュームを確認します。
- リクエストレートの管理と調整に関するガイダンスについては、レート制限のドキュメントを参照してください。
設定とデプロイメントのワークフローの問題
これらの問題はPipeline Control UIワークフローとゲートウェイ設定のデプロイメント プロセスに影響します。
Pipeline Control UIデータが表示されない
問題: Pipeline Control UIにゲートウェイ データが表示されません。
症状:
- ゲートウェイは動作しており、監視データを New Relic に送信しています
- Pipeline Control UI空になるか、ゲートウェイ情報が表示されない
- ゲートウェイ設定を表示または編集できない
解決:
- Pipeline Control UIのアカウント ドロップダウンをチェックして、正しいアカウントが選択されていることを確認します。
- All accounts [すべてのアカウント]またはゲートウェイライセンスキーに関連付けられた特定のアカウントが表示されていることを確認してください
- ゲートウェイで使用されているライセンスキーが、UI で表示されているアカウントと一致していることを確認します。
設定の変更が有効にならない
問題: UIでゲートウェイ設定を変更しましたが、適用されません。
症状:
- パイプライン構成またはプロセッサ設定を変更したが、データ処理は変更されていない
- 期待されるルールはデータのフィルタリングや変換を行っていない
- 変更はUIに表示されますが、ゲートウェイの動作には表示されません
解決:
- 保留中のデプロイメントについては、Pipeline Control UI の更新ページを確認してください。
- 変更は、 Fleet Control / Agent Controlを介して明示的にデプロイされるまでステージングされることに注意してください。
- Deploy [デプロイ]をクリックして、保留中の設定変更をゲートウェイにプッシュします。
- デプロイメントが正常に完了し、新しい設定で Pod が再起動されることを確認します。
- デプロイメント中にゲートウェイの Pod ログで設定検証エラーを確認してください
設定変更が消えた
問題: 保存後に設定の変更がUIから消えてしまいます。
症状:
- パイプラインまたはプロセッサに変更を加えたが、UI に表示されない
- 更新リストに最近の変更が表示されない
- 変更は失われたようだ
解決:
- 複数のユーザーが同時にゲートウェイ設定を編集していないか確認する
- API競合状態: 複数のユーザーが同時に設定更新を送信すると、変更が互いに上書きされる可能性があります。
- 更新ページを確認して、実際に保存された変更内容を確認します
- 同じゲートウェイ設定の同時編集を避けるため、チームメンバーと調整する
- 失われた変更をやり直す
- 競合状態が頻繁に発生する場合は、 New Relic サポートにお問い合わせください。
データスキーマの不一致
問題: ゲートウェイ レベルに属性が存在しないため、フィルターまたは変換プロセッサが期待どおりにデータを一致または変更しません。
症状:
- フィルター条件が期待するデータと一致しない
- 変換ステートメントは変更する属性を見つけられません
- プロセッサはNRDBデータを使用したテストでは動作しますが、ゲートウェイでは動作しません
entity.guid、appName、entityGuidなどの属性にはアクセスできません
解決:
- NRDB で利用可能な属性は、エンリッチメント前にゲートウェイに存在しない可能性があることを理解します。
- ゲートウェイのデータ スキーマの違いを確認し、ゲートウェイで使用できない属性を確認します。
- エージェントまたはコレクターから送信された生のテレメトリーに存在するプロパティを使用します
- エンリッチされた属性(
entity.guidやappNameなど)に基づいてフィルタリングする場合は、エンリッチ後にデータを処理するクラウド ルールの使用を検討してください。 - 属性にアクセスするための OTTL 構文が正しいことを確認してください (例:
attributes["key"]と直接フィールド アクセス)
ConfigMap デプロイメント エラー
問題: Kubernetes ConfigMap がエラーで更新されたため、ゲートウェイ ポッドが起動できません。
症状:
- 設定デプロイメント後に Gateway Pod が再起動に失敗する
- ポッドはCrashLoopBackOffまたはエラー状態です
- 設定変更をプッシュした後、ゲートウェイが不健全になる
- Pod ログの設定検証エラー
解決:
- ポッドのステータスと設定エラーのログを確認します。bash$kubectl get pods -n newrelic$kubectl logs <pod-name> -n newrelic
- YAML構文エラーまたは無効なプロセッサ設定を探す
- ConfigMap の内容が期待されるスキーマと一致していることを確認します。bash$kubectl get configmap -n newrelic -o yaml
- 以前の動作設定にロールバックします。bash$kubectl rollout undo deployment/<deployment-name> -n newrelic
- Pipeline Control UIまたはConfigMapで直接設定エラーを修正します
- 修正した設定を再デプロイする
- 修正を適用した後、ポッドが正常に再起動することを確認します
診断コマンド
ゲートウェイの問題をトラブルシューティングするときに診断情報を収集するには、次のコマンドを使用します。
ポッドのステータスを確認する
$kubectl get pods -n newrelicポッドログを表示する
$kubectl logs <pod-name> -n newrelicポッドのリソース使用状況を確認する
$kubectl top pods -n newrelicポッドイベントを表示する
$kubectl describe pod <pod-name> -n newrelicゲートウェイの設定を確認する
$kubectl get configmap -n newrelic -o yamlデプロイメントステータスを確認する
$kubectl rollout status deployment/<deployment-name> -n newrelic次のステップ
このトラブルシューティング ガイドに従っても問題が解決しない場合は、次の手順を実行します。
- ゲートウェイ設定ドキュメントを参照して設定を確認してください
- 適切なリソース割り当てを確実にするために、サイズとスケーリングのガイダンスを確認します。
- ロード バランサーを使用している場合は、ロード バランサーの設定を確認します。
- 上記のコマンドから収集した診断情報をNew Relicサポートに連絡してください。