Amazon EMRモニタリング統合

重要

AWS CloudWatch Metric Streams統合を有効にして、カスタムネームスペースを含むAWSサービスからのすべてのCloudWatchメトリクスをモニターします。個別の統合は、もはや推奨されるオプションではありません。

New Relic インフラストラクチャ統合には、 Amazon EMR (Elastic MapReduce)データを New Relic にレポートするための統合が含まれます。このドキュメントでは、この統合を有効にする方法と、レポートできるデータについて説明します。

特徴

EMR のデータを New Relic から直接監視したり、アラートを出したりすることができ、データの照会やダッシュボードの作成も可能です。

統合をアクティブ化する

この統合を有効にするには、標準の手順に従ってAWSサービスをNewRelicに接続します。

構成とポーリング

構成オプションを使用して、ポーリング頻度とフィルターデータを変更できます。

デフォルトのポーリング Amazon EMRインテグレーションの情報です。

New Relicのポーリング間隔：5分
解像度5分ごとに1データポイント

統合データの検索

インテグレーションデータを使用するには、 one.newrelic.com > All capabilities > Infrastructure > AWSに移動して、EMR インテグレーションリンクの 1 つを選択します。

providerの値がElasticMapReduceClusterの場合、ElasticMapReduceClusterSample イベントタイプを使用してデータのクエリと調査を行えます。

メトリックデータ

この統合では、次の Amazon EMR データが収集されます。使用例と追加情報については、 Amazon の EMR ドキュメントを参照してください。

名前	説明
`isIdle`	クラスタが仕事をしなくなったが、まだ生きていて料金が発生していることを示す。タスクが実行されておらず、ジョブも実行されていない場合は1に、それ以外は0に設定されます。この値は 5 分間隔でチェックされ、値 1 は、チェック時にクラスターがアイドル状態であったことのみを示し、5 分間全体にわたってアイドル状態であったことを示すものではありません。推奨事項: 誤検知を回避するには、この値が 5 分間のチェックで 1 回以上連続して 1 になった場合に警告閾値を上げます。たとえば、この値が 30 分以上 1 であった場合は、この値に対して集計を発生させます。
`coreNodesRunning`	稼働しているコアノードの数。この指標のデータポイントは、対応するインスタンスグループが存在する場合にのみ報告されます。
`coreNodesPending`	割り当てられるのを待っているコアノードの数。要求されたすべてのコア・ノードがすぐに利用できるとは限らないため、この指標では保留中の要求が報告されます。このメトリックのデータポイントは、対応するインスタンスグループが存在する場合にのみ報告されます。
`liveDataNodesPercentage`	Hadoopからの作業を受けているデータノードの割合。
`s3WrittenBytes`	Amazon S3に書き込まれたバイト数。このメトリックは、MapReduceジョブのみを集約します。EMR上の他のワークロードには適用されません。
`s3ReadBytes`	Amazon S3から読み込んだバイト数。この指標は、MapReduceジョブのみを集計したもので、EMR上の他のワークロードには適用されません。
`hdfsUtilizationPercentage`	現在使用されているHDFSストレージの割合です。
`hdfsReadBytes`	HDFSから読み込んだバイト数です。
`hdfsWrittenBytes`	HDFSに書き込まれたバイト数です。
`missingBlocks`	HDFSにレプリカが存在しないブロックの数です。破損したブロックの可能性があります。
`totalLoad`	クラスタ内のすべてのDataNodesから報告された、現在のリーダーとライターの合計数。
`mostRecentBackupDurationMinutes`	前回のバックアップが完了するまでにかかった時間です。この指標は、最後に完了したバックアップが成功したか失敗したかにかかわらず設定されます。バックアップが進行中の場合、このメトリックはバックアップ開始後の分数を返します。この指標は、HBaseクラスターでのみ報告されます。
`timeSinceLastSuccessfulBackupMinutes`	クラスターでHBaseのバックアップが最後に成功してからの経過分数。この指標は、HBaseクラスターでのみ報告されます。

サンプルでは、リソースのHadoopバージョンに応じて、以下のメトリクスが表示されます。

Hadoop 1 AMIのメトリクス

名前	説明
`jobsRunning`	クラスタ内で現在実行されているジョブの数です。
`jobsFailed`	クラスタ内で障害が発生したジョブの数。
`mapTasksRunning`	各ジョブの実行中のマップタスクの数です。スケジューラーがインストールされていて、複数のジョブが実行されている場合は、複数のグラフが生成されます。
`mapTasksRemaining`	各ジョブの残りのマップタスクの数。スケジューラーがインストールされていて、複数のジョブが実行されている場合、複数のグラフが生成されます。残りのマップタスクは、 `Running` 、 `Killed` 、または`Completed`のいずれの状態でもないタスクです。
`mapSlotsOpen`	未使用のマップタスクの容量です。これは、あるクラスターの最大マップタスク数から、そのクラスターで現在実行されているマップタスクの合計数を差し引いたものです。
`remainingMapTasksPerSlot`	クラスタで利用可能な総マップスロットに対する、残りの総マップタスクの割合です。
`reduceTasksRunning`	各ジョブの実行中のReduceタスクの数です。スケジューラーがインストールされていて、複数のジョブが実行されている場合は、複数のグラフが生成されます。
`reduceTasksRemaining`	各ジョブの実行中のReduceタスクの数です。スケジューラーがインストールされていて、複数のジョブが実行されている場合は、複数のグラフが生成されます。
`reduceSlotsOpen`	未使用のリダクタスク容量。これは、特定のクラスターの最大リダクタスク容量から、そのクラスターで現在実行されているリダクタスクの数を差し引いたものです。
`taskNodesRunning`	稼働しているタスク・ノードの数。この指標のデータ・ポイントは、対応するインスタンス・グループが存在する場合にのみ報告されます。
`taskNodesPending`	割り当てられるのを待っているコアノードの数です。要求されたすべてのタスク・ノードがすぐに利用できるとは限らないため、このメトリックは保留中の要求を報告します。このメトリックのデータ・ポイントは、対応するインスタンス・グループが存在する場合にのみ報告されます。
`liveTaskTrackersPercentage`	タスクトラッカーが機能している割合。
`backupFailed`	最後のバックアップが失敗したかどうか。これはデフォルトでは0に設定され、前回のバックアップの試みが失敗した場合は1に更新されます。この指標はHBaseクラスターでのみ報告されます。

Hadoop 2 AMI メトリクス

名前	説明
`containerAllocated`	ResourceManagerによって割り当てられたリソースコンテナの数です。
`containerReserved`	ResourceManagerによって割り当てられたリソースコンテナの数です。
`containerPending`	キューにある、まだ割り当てられていないコンテナの数。
`containerPendingRatio`	割り当てられたコンテナに対する保留中のコンテナの比率。
`appsCompleted`	YARNに提出されたアプリケーションのうち、完了したものの数。
`appsFailed`	YARNに提出されたアプリケーションのうち、完了に失敗した数。
`appsKilled`	YARNに提出されたアプリケーションのうち、キルされたものの数。
`appsPending`	YARNに送信されたアプリケーションのうち、保留状態にあるものの数。
`appsRunning`	YARNに提出されたアプリケーションのうち、実行中のものの数。
`appsSubmitted`	YARNに提出されたアプリケーションの数。
`mrTotalNodes`	MapReduceジョブで現在利用可能なノード数。
`mrActiveNodes`	現在、MapReduceタスクやジョブを実行しているノードの数。
`mrLostNodes`	MapReduceに割り当てられたノードのうち、LOST状態と判定されたノードの数。
`mrUnhealthyNodes`	UNHEALTHYの状態でマークされたMapReduceジョブが利用できるノードの数です。
`mrDecommissionedNodes`	MapReduceアプリケーションに割り当てられたノードのうち、DECOMMISSIONED状態と判定されたノードの数。
`mrRebootedNodes`	MapReduceが利用できるノードのうち、再起動してREBOOTEDの状態になっているノードの数。
`corruptBlocks`	HDFSが破損していると報告したブロックの数です。
`memoryTotalBytes`	クラスタ内のメモリの総量です。
`memoryReservedBytes`	確保されたメモリーの量です。
`memoryAvailableBytes`	割り当て可能なメモリの量です。
`memoryAllocatedBytes`	クラスタに割り当てられたメモリの量です。
`yarnMemoryAvailablePercentage`	YARNが使用できる残りのメモリの割合
`underReplicatedBlocks`	1回以上の複製が必要なブロックの数です。
`dfsPendingReplicationBlocks`	ブロックレプリケーションの状態：レプリケートされているブロック、レプリケーション要求の年齢、レプリケーション要求の失敗など。
`capacityRemainingBytes`	HDFSのディスク容量の残量です。
`hbaseBackupFailed`	最後のバックアップが失敗したかどうか。これはデフォルトでは0に設定され、前回のバックアップの試みが失敗した場合は1に更新されます。この指標はHBaseクラスターでのみ報告されます。

この機械翻訳は、参考として提供されています。

重要