스트리밍 플랫폼은 뉴렐릭으로 들어오는 데이터 스트림 또는 신호 에 존재하거나 누락된 데이터를 기반으로 인시던트를 확인합니다.
NRQL 조건 을 사용하여 알림을 받고자 하는 신호 부분을 제어할 수 있습니다. NRQL 조건은 스트리밍 알고리즘 에 의해 처리되는 데이터를 필터링합니다.
NRQL 조건을 통해 필터링된 데이터를 집계하는 세 가지 방법이 있습니다.
- 이벤트 흐름(기본값)
- 이벤트 타이머
- 운율
이 짧은 비디오는 세 가지 집계 방법을 설명합니다(5:31).
중요한 이유
스트리밍 경고가 작동하는 방식을 이해하면 NRQL 조건을 미세 조정하여 중요한 것에 대해 알림을 받는 데 도움이 됩니다.
NRQL WHERE 절의 조건과 일치하는 데이터만 경고됩니다. 프로세스의 각 단계에 대한 자세한 내용은 스트리밍 알림 프로세스 및 설명 을 참조하십시오.
데이터가 New Relic으로 스트리밍되면 NRQL 조건으로 필터링됩니다. 데이터를 평가하기 전에 NRQL 쿼리의 WHERE
절에서 정의한 기준을 충족해야 합니다. 사고에 대해 해당 데이터를 즉시 평가하는 대신 NRQL 경보 조건은 집계 창으로 알려진 기간 동안 데이터를 수집합니다. 추가 지연/타이머를 사용하면 창이 집계되기 전에 더 느린 데이터 포인트가 도착할 수 있습니다.
지연/타이머 시간이 경과하면 New Relic은 데이터를 단일 데이터 포인트로 집계합니다. 그런 다음 Alerts는 데이터 포인트를 조건의 임계값 기준과 비교하여 인시던트를 열어야 하는지 여부를 결정합니다.
데이터 포인트가 인시던트 기준을 충족하더라도 인시던트가 열리지 않을 수 있습니다. 데이터 포인트가 일정 기간 동안 일관되게 임계값 기준을 충족하는 경우에만 인시던트가 열립니다. 임계값 기간입니다. 데이터 포인트가 전체 임계값 기간을 초과하면 정책 설정에 따라 알림을 보냅니다.
이러한 구성 가능한 모든 지연을 통해 산발적이거나 누락된 데이터에 대한 경고를 받는 방법을 더 잘 제어할 수 있습니다.
스트리밍 알림 프로세스 및 설명
프로세스 | Description |
---|---|
스트리밍 데이터 | New Relic에 들어오는 모든 데이터. |
WHERE 절 | 들어오는 모든 스트리밍 데이터를 필터링합니다. 이 필터를 통과하는 데이터에 대한 경고만 모니터링합니다. |
집계 방법 | 데이터가 평가되기 전에 수집되는 방법을 제어하는 세 가지 방법 중 하나입니다. 그들은:
|
집계 창 | 이 기간에 해당하는 타임스탬프가 있는 데이터가 집계된 다음 평가됩니다. |
슬라이딩 윈도우 | 활성화하면 집계 창이 겹쳐서 더 부드러운 차트가 생성됩니다. 슬라이딩 기간을 사용하여 집계 기간이 겹치는 시간을 설정합니다. |
지연/타이머 | 집계가 발생하기 전에 모든 데이터 포인트가 집계 창에 도착했는지 확인하기 위한 시간 지연입니다. |
집계된 데이터 | 집계된 창의 데이터는 경고 평가를 위해 단일 데이터 요소로 축소됩니다. |
평가 | 데이터 포인트는 수신되는 각 집계 데이터 포인트에 의해 트리거되는 NRQL 조건에 의해 평가됩니다. |
임계 기간 | 인시던트 생성 여부를 결정하는 특정 기간. 지정된 NRQL 조건이 임계값 기간 동안 임계값 기준을 충족하면 인시던트가 발생합니다. 데이터 포인트에 데이터가 부족하면 사용자 지정 값이 삽입되어 격차를 채웁니다. |
집계 방법 선택
필요에 따라 세 가지 집계 방법 중에서 선택할 수 있습니다.
이벤트 흐름 (기본값)은 자주 그리고 대부분 순서대로 들어오는 데이터에 가장 적합합니다.
이벤트 타이머 는 클라우드 통합 데이터 또는 간헐적인 오류 로그와 같이 드물게 일괄적으로 도착하는 데이터에 가장 적합합니다.
케이던스 는 우리의 독창적이고 열등한 집계 방법입니다. 데이터 타임스탬프에 관계없이 New Relic의 내부 벽시계가 감지한 특정 시간 간격으로 데이터를 집계합니다.
다음은 집계 방법을 설명하는 짧은 비디오(5분 35초)입니다.
이벤트 흐름
이벤트 흐름은 첫 번째 데이터 포인트가 후속 창에 도착할 때 데이터 창을 집계합니다. 사용자 지정 지연은 현재 창의 집계를 트리거하기 위해 채우기 시작할 후속 창 데이터를 정의합니다. 사용자 지정 지연은 데이터가 도착하는 데 추가 시간을 제공합니다. 이 시간은 New Relic의 벽시계 시간이 아닌 데이터의 타임스탬프를 기반으로 합니다.
예를 들어 1분 및 3분 지연의 창 기간에서 CPU 사용량을 모니터링한다고 가정합니다.
CPU 사용량 데이터 포인트가 12:00pm에서 12:01pm 사이의 타임스탬프와 함께 들어오는 경우 이벤트 흐름은 데이터 포인트가 12:04pm에서 12:05pm 사이의 타임스탬프와 함께 나타날 때까지 해당 창을 집계하지 않습니다. 이벤트 흐름은 타임스탬프가 오후 12:04 이후인 첫 번째 데이터 포인트를 수신하면 집계할 12:00 - 12:01 데이터를 보냅니다.
주의
데이터 포인트가 65분 이상 간격으로 도착할 것으로 예상되는 경우 아래에 설명된 이벤트 타이머 방법을 사용하십시오.
이벤트 타이머
이벤트 흐름과 마찬가지로 이벤트 타이머는 해당 창에 대한 데이터가 도착할 때만 해당 창에 대한 데이터를 집계합니다. 집계 창에 대한 데이터 포인트가 도착하면 해당 창 전용 타이머가 카운트다운을 시작합니다. 타이머가 카운트다운되기 전에 더 이상 데이터가 도착하지 않으면 해당 창에 대한 데이터가 집계됩니다. 타이머가 카운트다운을 완료하기 전에 더 많은 데이터 포인트가 도착하면 타이머가 재설정됩니다.
예를 들어 매우 드물게 도착하는 CloudWatch 데이터를 모니터링한다고 가정합니다. 1분의 기간과 3분의 타이머를 사용하고 있습니다.
CloudWatch 데이터 포인트가 12:00pm에서 12:01pm 사이의 타임스탬프와 함께 들어오면 타이머가 카운트다운을 시작합니다. 해당 12:00-12:01 창에 대해 더 이상의 데이터 포인트가 표시되지 않으면 3분 후에 해당 기간이 집계됩니다.
12:00에서 12:01 사이의 타임스탬프가 있는 새 데이터 포인트가 도착하면 타이머가 재설정됩니다. 해당 창에 대한 더 많은 데이터 포인트가 도착할 때마다 계속 재설정됩니다. 타이머가 0에 도달할 때까지 집계를 위해 창을 보내지 않습니다.
이후 데이터 포인트에 대한 타이머가 이전 데이터 포인트보다 먼저 경과하면 이벤트 타이머 메서드는 이후 데이터 포인트를 집계하기 전에 이전 타이머가 경과할 때까지 기다립니다.
최상의 결과를 얻으려면 타이머가 창 지속 시간과 같거나 길어야 합니다. 타이머가 창 기간보다 짧고 데이터 흐름이 일관되지 않으면 모든 데이터 요소가 도착하기 전에 데이터가 평가될 수 있습니다. 이로 인해 잘못 알림을 받을 수 있습니다.
운율
다른 두 가지 방법 중 하나를 사용하는 것이 좋습니다.
케이던스는 우리의 오래된 스트리밍 집계 방법입니다. 이 방법은 New Relic의 벽시계 시간을 사용하여 데이터가 집계되고 평가되는 시기를 결정합니다. 데이터 포인트 타임스탬프가 도착할 때 이를 고려하지 않습니다.
스트리밍 알림 도구
스트리밍 알림은 수신되는 잘못된 알림을 줄이기 위해 평가되기 전에 데이터가 집계되는 방식을 더 잘 제어할 수 있는 도구 세트를 제공합니다. 그들은:
- 창 기간
- 지연/타이머
- 신호 감지 손실
- 틈 메우기
팁
이 문서에서는 개념적 수준에서 이러한 도구를 다룹니다. NRQL 경고 조건 생성 에서 이러한 도구를 사용하는 방법에 대한 직접적인 지침을 찾을 수 있습니다.
창 기간
신호 손실 감지를 보다 효과적으로 수행하고 불필요한 알림을 줄이기 위해 집계 창을 필요한 기간으로 사용자 지정할 수 있습니다.
집계 창 은 특정 시간 블록입니다. 데이터를 평가하기 전에 집계 창에서 데이터 요소를 함께 수집합니다. 이상치 데이터 포인트에는 집계할 데이터 포인트가 더 많아 평가를 위해 전송되는 집계 데이터 포인트에 미치는 영향이 줄어들기 때문에 집계 기간이 길수록 데이터를 매끄럽게 만들 수 있습니다. 데이터 포인트가 도착하면 타임스탬프를 사용하여 적절한 집계 창에 넣습니다.
집계 창을 30 seconds 에서 6 hours 사이의 값으로 설정할 수 있습니다. 기본값은 1 minute 입니다.
지연/타이머
지연/타이머 설정은 집계 창에서 데이터를 집계하기 전에 조건이 기다려야 하는 시간을 제어합니다.
이벤트 흐름 및 케이던스 방법은 지연을 사용합니다. 이벤트 타이머는 타이머를 사용합니다.
지연 기본값은 2 minutes 입니다. 타이머 기본값은 1 minute 이고 최소값은 5 seconds, 최대값은 20 minutes 입니다.
신호 감지 손실
신호 손실은 특정 기간 동안 NRQL 조건과 일치하는 데이터가 없을 때 발생합니다. 신호 손실은 여러 가지로 인해 발생합니다. NRQL 쿼리의 WHERE
절은 인시던트에 대해 평가되기 전에 데이터를 필터링할 수 있습니다. 또한 서비스 또는 엔터티가 오프라인 상태이거나 주기적인 작업 실행에 실패했으며 데이터가 New Relic으로 전송되지 않음을 의미할 수 있습니다.
불필요한 알림을 피하기 위해 신호 손실 사건에 대한 알림을 받기 전에 대기하는 시간을 선택할 수 있습니다. 신호 손실 감지를 사용하여 인시던트를 열고 신호가 손실될 때 알림을 받을 수 있습니다. 또는 신호 손실을 사용하여 임시 서비스 또는 오류 수와 같은 산발적 데이터에 대한 인시던트를 종료할 수 있습니다.
틈 메우기
간격 채우기를 사용하면 신호에 데이터가 없을 때 사용할 값을 사용자 지정할 수 있습니다. 데이터 스트림의 공백을 마지막으로 수신한 값, 정적 값으로 채우거나 아무 것도 하지 않고 공백을 그대로 둘 수 있습니다. 기본값은 None
입니다.
스트리밍 데이터의 갭은 네트워크 또는 호스트 문제로 인해 발생할 수 있으며, 신호가 희박하거나 오류 카운트와 같은 일부 신호에 문제가 있는 경우에만 데이터가 있을 수 있습니다. 알려진 값으로 간격을 채우면 경보 평가 프로세스에서 이러한 간격을 처리하고 신호 평가 손실에 영향을 미치는 방식을 결정할 수 있습니다.
팁
경보 시스템은 적극적으로 보고된 신호의 공백을 채웁니다. 이 신호 기록은 2시간 동안 활동이 없으면 삭제됩니다. 갭 채우기의 경우 이 비활성 기간 후에 수신된 데이터 포인트는 새 신호로 처리됩니다.
신호 손실 및 갭 채우기에 대해 자세히 알아보려면 이 지원 포럼 게시물 을 참조하십시오.