この機械翻訳は、参考として提供されています。

英語版と翻訳版に矛盾がある場合は、英語版が優先されます。詳細については、このページを参照してください。

問題を作成する

Amazon EMRモニタリング統合

重要

AWS CloudWatch Metric Streams統合を有効にして、カスタムネームスペースを含むAWSサービスからのすべてのCloudWatchメトリクスをモニターします。個別の統合は、もはや推奨されるオプションではありません。

New Relic インフラストラクチャ インテグレーション には、 Amazon EMR (Elastic MapReduce) のデータを New Relic にレポートするためのインテグレーションがあります。このドキュメントでは、この統合を有効にする方法と、レポート可能なデータについて説明します。

特徴

EMR のデータを New Relic から直接監視したり、アラートを出したりすることができ、データの照会やダッシュボードの作成も可能です。

統合をアクティブ化する

この統合を有効にするには、標準の手順に従ってAWSサービスをNewRelicに接続します。

構成とポーリング

構成オプションを使用して、ポーリング頻度とフィルターデータを変更できます。

デフォルトのポーリング Amazon EMRインテグレーションの情報です。

  • New Relicのポーリング間隔:5分
  • 解像度5分ごとに1データポイント

統合データの検索

インテグレーション データを使用するには、 one.newrelic.com > All capabilities > Infrastructure > AWSに移動して、EMR インテグレーション リンクの 1 つを選択します。

providerの値がElasticMapReduceClusterの場合、ElasticMapReduceClusterSample イベントタイプを使用してデータのクエリと調査を行えます。

メトリックデータ

この統合では、次の Amazon EMR データが収集されます。使用例と追加情報については、 Amazon の EMR ドキュメントを参照してください。

名前

説明

isIdle

クラスタが仕事をしなくなったが、まだ生きていて料金が発生していることを示す。タスクが実行されておらず、ジョブも実行されていない場合は1に、それ以外は0に設定されます。

この値は 5 分間隔でチェックされ、値 1 は、チェック時にクラスターがアイドル状態であったことのみを示し、5 分間全体にわたってアイドル状態であったことを示すものではありません。 推奨事項: 誤検知を回避するには、この値が 5 分間のチェックで 1 回以上連続して 1 になった場合に警告閾値を上げます。 たとえば、この値が 30 分以上 1 であった場合は、この値に対して集計を発生させます。

coreNodesRunning

稼働しているコアノードの数。この指標のデータポイントは、対応するインスタンスグループが存在する場合にのみ報告されます。

coreNodesPending

割り当てられるのを待っているコアノードの数。要求されたすべてのコア・ノードがすぐに利用できるとは限らないため、この指標では保留中の要求が報告されます。このメトリックのデータポイントは、対応するインスタンスグループが存在する場合にのみ報告されます。

liveDataNodesPercentage

Hadoopからの作業を受けているデータノードの割合。

s3WrittenBytes

Amazon S3に書き込まれたバイト数。このメトリックは、MapReduceジョブのみを集約します。EMR上の他のワークロードには適用されません。

s3ReadBytes

Amazon S3から読み込んだバイト数。この指標は、MapReduceジョブのみを集計したもので、EMR上の他のワークロードには適用されません。

hdfsUtilizationPercentage

現在使用されているHDFSストレージの割合です。

hdfsReadBytes

HDFSから読み込んだバイト数です。

hdfsWrittenBytes

HDFSに書き込まれたバイト数です。

missingBlocks

HDFSにレプリカが存在しないブロックの数です。破損したブロックの可能性があります。

totalLoad

クラスタ内のすべてのDataNodesから報告された、現在のリーダーとライターの合計数。

mostRecentBackupDurationMinutes

前回のバックアップが完了するまでにかかった時間です。この指標は、最後に完了したバックアップが成功したか失敗したかにかかわらず設定されます。

バックアップが進行中の場合、このメトリックはバックアップ開始後の分数を返します。この指標は、HBaseクラスターでのみ報告されます。

timeSinceLastSuccessfulBackupMinutes

クラスターでHBaseのバックアップが最後に成功してからの経過分数。この指標は、HBaseクラスターでのみ報告されます。

サンプルでは、リソースのHadoopバージョンに応じて、以下のメトリクスが表示されます。

Hadoop 1 AMIのメトリクス

名前

説明

jobsRunning

クラスタ内で現在実行されているジョブの数です。

jobsFailed

クラスタ内で障害が発生したジョブの数。

mapTasksRunning

各ジョブの実行中のマップタスクの数です。スケジューラーがインストールされていて、複数のジョブが実行されている場合は、複数のグラフが生成されます。

mapTasksRemaining

各ジョブの残りのマップタスクの数。スケジューラーがインストールされていて、複数のジョブが実行されている場合、複数のグラフが生成されます。残りのマップタスクは、 RunningKilled 、またはCompletedのいずれの状態でもないタスクです。

mapSlotsOpen

未使用のマップタスクの容量です。これは、あるクラスターの最大マップタスク数から、そのクラスターで現在実行されているマップタスクの合計数を差し引いたものです。

remainingMapTasksPerSlot

クラスタで利用可能な総マップスロットに対する、残りの総マップタスクの割合です。

reduceTasksRunning

各ジョブの実行中のReduceタスクの数です。スケジューラーがインストールされていて、複数のジョブが実行されている場合は、複数のグラフが生成されます。

reduceTasksRemaining

各ジョブの実行中のReduceタスクの数です。スケジューラーがインストールされていて、複数のジョブが実行されている場合は、複数のグラフが生成されます。

reduceSlotsOpen

未使用のリダクタスク容量。これは、特定のクラスターの最大リダクタスク容量から、そのクラスターで現在実行されているリダクタスクの数を差し引いたものです。

taskNodesRunning

稼働しているタスク・ノードの数。この指標のデータ・ポイントは、対応するインスタンス・グループが存在する場合にのみ報告されます。

taskNodesPending

割り当てられるのを待っているコアノードの数です。要求されたすべてのタスク・ノードがすぐに利用できるとは限らないため、このメトリックは保留中の要求を報告します。このメトリックのデータ・ポイントは、対応するインスタンス・グループが存在する場合にのみ報告されます。

liveTaskTrackersPercentage

タスクトラッカーが機能している割合。

backupFailed

最後のバックアップが失敗したかどうか。これはデフォルトでは0に設定され、前回のバックアップの試みが失敗した場合は1に更新されます。この指標はHBaseクラスターでのみ報告されます。

Hadoop 2 AMI メトリクス

名前

説明

containerAllocated

ResourceManagerによって割り当てられたリソースコンテナの数です。

containerReserved

ResourceManagerによって割り当てられたリソースコンテナの数です。

containerPending

キューにある、まだ割り当てられていないコンテナの数。

containerPendingRatio

割り当てられたコンテナに対する保留中のコンテナの比率。

appsCompleted

YARNに提出されたアプリケーションのうち、完了したものの数。

appsFailed

YARNに提出されたアプリケーションのうち、完了に失敗した数。

appsKilled

YARNに提出されたアプリケーションのうち、キルされたものの数。

appsPending

YARNに送信されたアプリケーションのうち、保留状態にあるものの数。

appsRunning

YARNに提出されたアプリケーションのうち、実行中のものの数。

appsSubmitted

YARNに提出されたアプリケーションの数。

mrTotalNodes

MapReduceジョブで現在利用可能なノード数。

mrActiveNodes

現在、MapReduceタスクやジョブを実行しているノードの数。

mrLostNodes

MapReduceに割り当てられたノードのうち、LOST状態と判定されたノードの数。

mrUnhealthyNodes

UNHEALTHYの状態でマークされたMapReduceジョブが利用できるノードの数です。

mrDecommissionedNodes

MapReduceアプリケーションに割り当てられたノードのうち、DECOMMISSIONED状態と判定されたノードの数。

mrRebootedNodes

MapReduceが利用できるノードのうち、再起動してREBOOTEDの状態になっているノードの数。

corruptBlocks

HDFSが破損していると報告したブロックの数です。

memoryTotalBytes

クラスタ内のメモリの総量です。

memoryReservedBytes

確保されたメモリーの量です。

memoryAvailableBytes

割り当て可能なメモリの量です。

memoryAllocatedBytes

クラスタに割り当てられたメモリの量です。

yarnMemoryAvailablePercentage

YARNが使用できる残りのメモリの割合

underReplicatedBlocks

1回以上の複製が必要なブロックの数です。

dfsPendingReplicationBlocks

ブロックレプリケーションの状態:レプリケートされているブロック、レプリケーション要求の年齢、レプリケーション要求の失敗など。

capacityRemainingBytes

HDFSのディスク容量の残量です。

hbaseBackupFailed

最後のバックアップが失敗したかどうか。これはデフォルトでは0に設定され、前回のバックアップの試みが失敗した場合は1に更新されます。この指標はHBaseクラスターでのみ報告されます。