New Relic は Amazon Web Services (AWS) と統合し、 Amazon SageMakerメトリクスやその他のデータを New Relic に報告します。
この文書では、統合を有効にする方法と、報告されるデータについて説明します。
特徴
統合を使用して、Amazon SageMaker サービスからテレメトリーデータを収集し、 New Relicに送信します。 サービスを監視し、受信データを書き、ダッシュボードを構築してすべてを一目で観察します。
統合をアクティブ化する
この統合は、 CloudWatch Metric Streamsを通じて利用できます。
この統合を有効にするには、 AWSを介して サービスを に接続するNew Relic CloudWatch Metric Streams方法を参照してください。
データを見つけて使用する
インテグレーションのメトリクスを見つけるには、 one.newrelic.com > Metrics and eventsに移動してaws.sagemaker
でフィルタリングします。
メトリックデータ
このNew Relicインフラストラクチャ統合は、次の Amazon SageMaker データを収集します。
SageMaker メトリクス データ
メトリクス (最小、最大、平均、カウント、合計) | ユニット | 説明 |
---|---|---|
| Count | モデル エンドポイントに送信された InvokeEndpoint リクエストの数。 |
| Count | 各 ProductionVariant の InstanceCount によって正規化された、モデルに送信された呼び出しの数。 |
| マイクロ秒 | SageMaker オーバーヘッドによってクライアントリクエストに応答するのにかかる時間に追加される時間間隔。 |
| マイクロ秒 | モデルが SageMaker API リクエストに応答するまでにかかる時間間隔。 |
| Count | モデルが 4xx HTTP 応答コードを返した InvokeEndpoint リクエストの数。 |
| Count | モデルが 5xx HTTP 応答コードを返した InvokeEndpoint リクエストの数。 |
| Count | 2XX HTTP 応答が返されなかったモデル呼び出しリクエストの数。 |
SageMaker からインポートされたすべてのデータには 1 つのディメンションがあります。 EndpointName
Sagemaker エンドポイントのメトリクス データ
メトリクス (最小、最大、平均、カウント、合計) | ユニット | 説明 |
---|---|---|
| パーセント | インスタンス上のコンテナによって使用されるメモリの割合。エンドポイント バリアントの場合、値はインスタンス上のプライマリ コンテナと補助コンテナのメモリ使用量の合計です。 |
| パーセント | インスタンス上のコンテナーによって使用されるディスク領域の割合。エンドポイント バリアントの場合、値はインスタンス上のプライマリ コンテナと補助コンテナのディスク領域使用率の合計です。 |
| パーセント | 個々の CPU コアの使用率の合計。エンドポイント バリアントの場合、値はインスタンス上のプライマリ コンテナと補助コンテナの CPU 使用率の合計です。 |
| パーセント | インスタンス上のコンテナによって使用される GPU メモリの割合。エンドポイント バリアントの場合、値はインスタンス上のプライマリ コンテナと補助コンテナの GPU メモリ使用率の合計です。 |
| パーセント | インスタンス上のコンテナによって使用される GPU ユニットの割合。エンドポイント バリアントの場合、値はインスタンス上のプライマリ コンテナと補助コンテナの GPU 使用率の合計です。 |
SageMaker エンドポイントからインポートされたすべてのデータには 1 つのディメンションがあります。 Host
SageMaker トレーニング ジョブ メトリクス データ
メトリクス (最小、最大、平均、カウント、合計) | ユニット | 説明 |
---|---|---|
| パーセント | インスタンス上のコンテナによって使用されるメモリの割合。トレーニング ジョブの場合、値はインスタンス上のアルゴリズム コンテナーのメモリ使用率です。 |
| パーセント | インスタンス上のコンテナーによって使用されるディスク領域の割合。トレーニング ジョブの場合、値はインスタンス上のアルゴリズム コンテナのディスク領域使用率です。 |
| パーセント | 個々の CPU コアの使用率の合計。トレーニング ジョブの場合、値はインスタンス上のアルゴリズム コンテナーの CPU 使用率です。 |
| Count | トレーニング ジョブのトレーニング エラーの数を測定します。 |
SageMaker トレーニング ジョブからインポートされたすべてのデータには、1 つのディメンションがあります。 Host
アラートの作成
変更があった場合に通知するようにを設定できます。 たとえば、重大なエラーや致命的なエラーを関係者に通知するための集計を設定できます。
アラートの作成について詳しくは、こちらをご覧ください。