New Relic インフラストラクチャの統合 には、AWS Sagemaker の統合が含まれ、メトリクス データを New Relic に送信します。
このドキュメントは、インテグレーションの機能、有効化する方法、および報告可能なデータについて説明するものです。
特徴
当社の統合を使用して、 Sagemaker からテレメトリ データを収集し、New Relic に送信します。サービスを監視し、受信データをクエリし、ダッシュボードを構築してすべてを一目で観察します。
統合をアクティブ化する
この統合を有効にするには、 AWS のサービスを New Relic に接続する方法を参照してください。
データを見つけて使用する
インテグレーションのメトリクスを見つけるには、 one.newrelic.com > Metrics and eventsに移動してaws.sagemaker
でフィルタリングします。
メトリックデータ
この New Relic インフラストラクチャ統合は、次の Amazon Sagemaker データを収集します。
Sagemaker メトリックデータ
メトリック (最小、最大、平均、カウント、合計) | ユニット | 説明 |
---|---|---|
| Count | モデル エンドポイントに送信された InvokeEndpoint リクエストの数。 |
| Count | 各 ProductionVariant の InstanceCount によって正規化された、モデルに送信された呼び出しの数。 |
| マイクロ秒 | SageMaker オーバーヘッドによってクライアントリクエストに応答するのにかかる時間に追加される時間間隔。 |
| マイクロ秒 | モデルが SageMaker API リクエストに応答するまでにかかる時間間隔。 |
| Count | モデルが 4xx HTTP 応答コードを返した InvokeEndpoint リクエストの数。 |
| Count | モデルが 5xx HTTP 応答コードを返した InvokeEndpoint リクエストの数。 |
| Count | 2XX HTTP 応答が返されなかったモデル呼び出しリクエストの数。 |
Sagemaker からインポートされたすべてのデータには 1 つのディメンションがあります。 EndpointName
Sagemaker エンドポイントのメトリクス データ
メトリック (最小、最大、平均、カウント、合計) | ユニット | 説明 |
---|---|---|
| パーセント | インスタンス上のコンテナによって使用されるメモリの割合。エンドポイント バリアントの場合、値はインスタンス上のプライマリ コンテナと補助コンテナのメモリ使用量の合計です。 |
| パーセント | インスタンス上のコンテナーによって使用されるディスク領域の割合。エンドポイント バリアントの場合、値はインスタンス上のプライマリ コンテナと補助コンテナのディスク領域使用率の合計です。 |
| パーセント | 個々の CPU コアの使用率の合計。エンドポイント バリアントの場合、値はインスタンス上のプライマリ コンテナと補助コンテナの CPU 使用率の合計です。 |
| パーセント | インスタンス上のコンテナによって使用される GPU メモリの割合。エンドポイント バリアントの場合、値はインスタンス上のプライマリ コンテナと補助コンテナの GPU メモリ使用率の合計です。 |
| パーセント | インスタンス上のコンテナによって使用される GPU ユニットの割合。エンドポイント バリアントの場合、値はインスタンス上のプライマリ コンテナと補助コンテナの GPU 使用率の合計です。 |
Sagemaker Endpoints からインポートされたすべてのデータには 1 つのディメンションがあります。 Host
Sagemaker トレーニング ジョブのメトリクス データ
メトリック (最小、最大、平均、カウント、合計) | ユニット | 説明 |
---|---|---|
| パーセント | インスタンス上のコンテナによって使用されるメモリの割合。トレーニング ジョブの場合、値はインスタンス上のアルゴリズム コンテナーのメモリ使用率です。 |
| パーセント | インスタンス上のコンテナーによって使用されるディスク領域の割合。トレーニング ジョブの場合、値はインスタンス上のアルゴリズム コンテナのディスク領域使用率です。 |
| パーセント | 個々の CPU コアの使用率の合計。トレーニング ジョブの場合、値はインスタンス上のアルゴリズム コンテナーの CPU 使用率です。 |
| Count | トレーニング ジョブのトレーニング エラーの数を測定します。 |
Sagemaker トレーニング ジョブからインポートされたすべてのデータには、次の 1 つのディメンションがあります。 Host
アラートの作成
変更があった場合に通知するようにを設定できます。 たとえば、重大なエラーや致命的なエラーを関係者に通知するための集計を設定できます。
アラートの作成について詳しくは、こちらをご覧ください。