New Relic 인프라 통합에는 이제 지표 데이터를 New Relic으로 전송하는 AWS Sagemaker 통합이 포함됩니다.
이 문서에서는 통합 기능, 활성화 방법 및 보고할 수 있는 데이터에 대해 설명합니다.
특징
통합을 사용하여 Sagemaker 에서 원격 측정 데이터를 수집하고 New Relic으로 보냅니다. 서비스를 모니터링하고, 들어오는 데이터를 쿼리하고, 대시보드를 구축하여 모든 것을 한 눈에 관찰하세요.
통합 활성화
이 통합을 활성화하려면 AWS 서비스를 New Relic에 연결하는방법을 참조하십시오.
데이터 찾기 및 사용
통합 측정항목을 찾으려면 one.newrelic.com > Metrics and events 로 이동하고 aws.sagemaker
로 필터링하세요.
측정항목 데이터
이 New Relic 인프라 통합은 다음 Amazon Sagemaker 데이터를 수집합니다.
Sagemaker 메트릭 데이터
측정항목(최소, 최대, 평균, 개수, 합계) | 단위 | 설명 |
---|---|---|
| 세다 | 모델 엔드포인트로 전송된 InvokeEndpoint 요청 수입니다. |
| 세다 | 각 ProductionVariant에서 InstanceCount로 정규화된 모델로 전송된 호출 수입니다. |
| 마이크로초 | SageMaker 오버헤드로 클라이언트 요청에 응답하는 데 걸린 시간에 추가된 시간 간격입니다. |
| 마이크로초 | 모델이 SageMaker API 요청에 응답하는 데 걸리는 시간 간격입니다. |
| 세다 | 모델이 4xx HTTP 응답 코드를 반환한 InvokeEndpoint 요청 수입니다. |
| 세다 | 모델이 5xx HTTP 응답 코드를 반환한 InvokeEndpoint 요청 수입니다. |
| 세다 | 2XX HTTP 응답이 발생하지 않은 모델 호출 요청 수입니다. |
Sagemaker에서 가져온 모든 데이터에는 하나의 차원이 있습니다. EndpointName
Sagemaker Endpoints 지표 데이터
측정항목(최소, 최대, 평균, 개수, 합계) | 단위 | 설명 |
---|---|---|
| 퍼센트 | 인스턴스의 컨테이너에서 사용하는 메모리의 백분율입니다. 엔드포인트 변형의 경우 값은 인스턴스에 있는 기본 컨테이너와 보조 컨테이너의 메모리 사용량 합계입니다. |
| 퍼센트 | 인스턴스의 컨테이너가 사용하는 디스크 공간의 백분율입니다. 엔드포인트 변형의 경우 값은 인스턴스에 있는 기본 컨테이너와 보조 컨테이너의 디스크 공간 사용량 합계입니다. |
| 퍼센트 | 각 개별 CPU 코어의 사용률 합계입니다. 엔드포인트 변형의 경우 값은 인스턴스에 있는 기본 컨테이너와 보조 컨테이너의 CPU 사용률 합계입니다. |
| 퍼센트 | 인스턴스의 컨테이너에서 사용하는 GPU 메모리의 백분율입니다. 엔드포인트 변형의 경우 값은 인스턴스에 있는 기본 컨테이너와 보조 컨테이너의 GPU 메모리 사용량 합계입니다. |
| 퍼센트 | 인스턴스의 컨테이너에서 사용하는 GPU 단위의 백분율입니다. 엔드포인트 변형의 경우 값은 인스턴스에 있는 기본 및 보조 컨테이너의 GPU 사용률 합계입니다. |
Sagemaker Endpoints에서 가져온 모든 데이터에는 하나의 차원이 있습니다. Host
Sagemaker 교육 작업 메트릭 데이터
측정항목(최소, 최대, 평균, 개수, 합계) | 단위 | 설명 |
---|---|---|
| 퍼센트 | 인스턴스의 컨테이너에서 사용하는 메모리의 백분율입니다. 교육 작업의 경우 값은 인스턴스에서 알고리즘 컨테이너의 메모리 사용률입니다. |
| 퍼센트 | 인스턴스의 컨테이너가 사용하는 디스크 공간의 백분율입니다. 학습 작업의 경우 값은 인스턴스에 있는 알고리즘 컨테이너의 디스크 공간 사용률입니다. |
| 퍼센트 | 각 개별 CPU 코어의 사용률 합계입니다. 학습 작업의 경우 값은 인스턴스에 있는 알고리즘 컨테이너의 CPU 사용률입니다. |
| 세다 | 학습 작업의 학습 오류 수를 측정합니다. |
Sagemaker 교육 작업에서 가져온 모든 데이터에는 하나의 차원이 있습니다. Host
알림 생성
변경 사항이 있는 경우 알리도록 알림을 설정할 수 있습니다. 예를 들어 중요하거나 치명적인 오류를 관련 당사자에게 알리도록 경고를 설정할 수 있습니다.
여기에서 알림 생성에 대해 자세히 알아보세요.