적용된 인텔리전스의 이상 탐지를 통해 New Relic은 비정상적인 행동을 즉시 팀에 알립니다. New Relic은 응용 인텔리전스를 사용하여 애플리케이션을 지속적으로 관찰합니다. 이 정보를 사용하여 애플리케이션의 기준 또는 예상 성능을 결정합니다. 행동이 기준선에서 벗어날 때마다 즉시 파악하고 팀에 경고하여 모든 오류를 신속하고 효율적으로 해결할 수 있습니다.
New Relic에는 사용자 지정 및 자동 의 두 가지 이상 탐지 유형이 있습니다. 팀이 모니터링하려는 각 상황에 적합한 이상 감지와 시스템에서 이상 감지를 구현하는 방법에 대해 알아보십시오.
팀이 시스템의 비정상적인 동작을 모니터링할 수 있는 이상 대시보드입니다.
우리가 변칙을 사용하는 방법
New Relic의 개발자들은 애플리케이션의 상태를 모니터링하는 것이 얼마나 중요한지 잘 알고 있습니다. 우리는 고객이 필요할 때마다 필요한 데이터에 액세스할 수 있기를 원하므로 시스템 성능에 이상이 있는 경우 팀에 경고해야 합니다. New Relic의 이상 탐지는 응용 인텔리전스를 사용하여 처리량, 오류율 및 대기 시간이라는 세 가지 주요 황금 신호를 모니터링합니다. 이상 탐지를 통해 개발자는 이러한 메트릭에 대한 기본 성능을 모니터링합니다.
따라서 어느 날 오후 응답 시간이 급증하여 고객이 홈페이지에 액세스하는 데 평소보다 오래 걸린다고 가정해 보겠습니다. 대기 시간 메트릭 데이터가 기준에서 벗어났기 때문에 변칙 검색은 이 변칙 동작에 플래그를 지정합니다. 이것은 반드시 문제가 있다는 것을 의미하는 것이 아니라 AI가 우리 시스템에 비정상적인 무언가를 등록했으며 우리가 더 자세히 살펴봐야 한다는 것을 나타냅니다.
우리는 몇 가지 방법으로 이러한 비정상적인 동작을 모니터링합니다. 먼저 우리 팀은 변칙 대시보드를 사용하여 무엇이 언제 변경되었는지 확인할 수 있습니다.
어떤 오류가 발생했고 그 이유는 무엇인지 더 잘 이해하려면 시스템 성능의 이상 현상을 살펴보십시오.
또한 Slack에서 전달될 이상 징후에 대한 알림을 설정하고 필요할 때 메시지를 전달하도록 웹후크를 설정했습니다.
New Relic UI에서 이상 현상에 대한 슬랙 또는 웹후크 알림을 설정하는 방법입니다.
이러한 이벤트는 쿼리, 사용자 정의 대시보드 생성 및 경고에도 사용할 수 있습니다. 이상 감지 구성(관심 있는 앱 그룹)을 설정한 후 이 구성을 소스로 추가할 수 있습니다. 그런 다음 이상 징후는 사건 인텔리전스를 통해 다른 데이터 소스와 자동으로 상관 관계가 지정됩니다.
이상 감지에는 자동 및 사용자 지정의 두 가지 유형이 있습니다.
자동 이상 징후 는 팀이 APM 모니터링 애플리케이션의 비정상적인 동작에 대해 학습할 수 있는 가장 효율적인 방법입니다. 자동 변칙 검색은 애플리케이션의 동작이 기준에서 벗어나는 순간 알림을 받을 수 있도록 팀에서 구현할 수 있는 자동 도구입니다. 자동 이상 현상을 사용하여 문제의 원인을 식별하고 적절한 조치를 취하여 시스템을 다시 원활하게 실행할 수 있습니다.
사용자 지정 이상 현상 을 통해 팀의 구성 가능성을 높일 수 있습니다. 맞춤형 이상 징후는 팀에 모든 NQRL 조건에 대해 경고하고 임계값을 조정 및 최적화할 수 있는 기능을 제공합니다. 사용자 지정 변칙은 또한 정적 경고와 동일한 고급 조정 설정을 사용하므로 팀에서 중요한 변칙 사건만 볼 수 있습니다.
옵션
자동화 수준
사용 시기
적용 범위
공전
완전히 구성 가능
모든 데이터에 대해 단일 임계값을 설정해야 하는 경우.
모든 엔티티, 모든 신호
이상(구성 가능)
반자동
데이터의 추세를 자동으로 학습하지만 임계값을 제어하려는 경우
모든 엔티티, 모든 신호
자동 이상
완전 자동
구성이 필요 없이 애플리케이션 및 서비스의 주요 메트릭 변경 사항을 폭넓게 이해하려는 경우. 데이터 추세 및 임계값은 기계 학습 엔진을 통해 자동으로 결정됩니다.
엔터티, 황금 신호
이상 설정
사용자 정의 또는 자동 이상 감지를 사용하여 시스템의 이상 동작을 모니터링하도록 선택한 후에는 팀에 비정상적인 동작에 대한 알림을 받고 데이터를 쿼리하고 이해할 수 있는지 확인해야 합니다. 사용자 정의 또는 자동 이상 감지를 선택하는 것은 중요하지 않으며 설정은 동일합니다.
알림을 받는 Slack 채널을 선택합니다. 기존 공개 또는 비공개 채널을 선택할 수 있습니다. 이렇게 하면 적용된 인텔리전스 Slack 애플리케이션을 선택한 채널에 추가하라는 워크플로우가 표시됩니다. 또는 이상 감지를 위한 새 채널을 생성하고 먼저 Slack에서 채널을 생성한 다음 해당 채널을 선택합니다.
팁
Slack 채널을 할당할 때 오류가 발생하면 New Relic AI Slack 애플리케이션이 Slack 작업 공간에 추가 되었는지 확인하십시오.
구성을 저장합니다.
구성 테이블에서 구성을 선택하여 언제든지 각 구성에 대한 애플리케이션을 수정할 수 있습니다.
웹후크와 함께 이상 감지 사용:
웹훅 을 선택합니다.
양식에 다음 정보를 입력합니다.
웹훅 URL을 제공하십시오.
선택적 사용자 정의 헤더를 제공하십시오.
사용자 지정 페이로드를 편집하거나 기본 페이로드를 사용하여 활성화하도록 선택합니다.
구성을 저장합니다.
구성 테이블에서 구성을 선택하여 언제든지 각 구성에 대한 애플리케이션을 수정할 수 있습니다.
entitiesData.typescontainsAPM Application 를 선택합니다.
entit_guid 을(를) 선택하여 원하는 항목을 선택합니다.
포함된 signalType 및 알림을 받을 신호를 선택합니다.
다음으로 선택한 대상 채널을 선택합니다.
노이즈를 줄이려면 Slack 또는 이메일과 같이 우선 순위가 낮은 알림 채널로 이상 징후를 보내는 것이 좋습니다.
Slack에서는 특정 애플리케이션에서 오는 탐지를 일시적 또는 영구적으로 음소거할 수 있습니다. 전체 채널을 일시적으로 음소거할 수도 있습니다. 이는 사건이 발생하거나 채널이 중단되어서는 안 되는 경우에 유용합니다.
Slack에서 음소거하려면 이 앱의 경고음소거 또는 모든 경고 음소거 를 선택한 다음 기간을 선택합니다. 음소거 기간이 완료되면 알림이 다시 시작됩니다.
응용 프로그램을 음소거하면 구성에서 영구적으로 제거됩니다. 다시 추가하려면 one.newrelic.com > Alerts & AI > Anomaly detection 으로 이동하여 편집할 구성을 선택합니다.
이상 감지 알림을 음소거해도 알림에는 영향을 미치지 않습니다.
각 이상 메시지에는 잠재적인 문제에 대해 자세히 알아보고 문제 해결을 시작하는 데 사용할 수 있는 몇 가지 주요 정보가 있습니다.
애플리케이션 이름 및 New Relic UI에 대한 자세한 정보 링크.
New Relic UI에서 이상 현상이 발생한 메트릭 및 세부 정보에 대한 링크.
이상 현상의 행동과 정도를 시각적으로 이해할 수 있도록 시간 경과에 따른 지표 그래프입니다.
이상, 업스트림 또는 다운스트림에서 발견된 이상, 기타 관련 신호에 고유한 주요 속성을 식별하는 응용 인텔리전스의 분석 페이지로 이동하는 분석 버튼입니다.
이상이 정상으로 돌아오면 피드백을 제공할 수 있는 옵션이 포함된 복구 알림을 보냅니다. 귀하의 피드백은 감지 품질을 개선하는 데 도움이 되는 정보를 개발 팀에 제공합니다. 처리량 이상에 대한 피드백의 경우 피드백을 기반으로 매시간 평가를 실행하여 보다 적합한 모델에 적합하도록 합니다. 도움이 되었다면 예 또는 아니요 를 선택할 수 있습니다.
Slack 또는 웹후크를 통해 정보를 제공하는 이상 징후에 대한 알림 외에도 경고 및 적용된 인텔리전스 개요 페이지 에서 이상 피드 를 통해 환경의 이상 징후에 대한 자세한 정보를 볼 수 있습니다. 이 탭은 선택한 계정의 모든 구성에서 발생한 모든 최근 이상 항목 목록을 제공하며 자세한 분석을 위해 이상 항목을 선택할 수 있습니다.
이상 피드에서 이상을 보는 것 외에도 이상은 다른 인시던트와 연관되고 문제로 그룹화됩니다. 변칙은 중요한 문제 주변에서 변경된 사항에 대한 컨텍스트를 제공합니다. 기본 이상 항목은 동일한 엔터티 유형의 인시던트와 상관 관계가 있습니다. 결정 을 사용하여 사용 사례에 고유한 상관관계를 추가할 수 있습니다.
변칙성은 다양한 New Relic 활동 스트림과 적용된 인텔리전스 변칙 피드에 표시됩니다. 비정상 가시성 설정을 사용하여 표시되는 항목을 사용자 정의할 수 있습니다(예: 활동 스트림에서 처리량 비정상을 숨기지만 비정상 피드에는 유지).
이러한 설정을 찾으려면 알림 및 AI 의 이상 감지 아래에서 설정 을 클릭합니다 .
이러한 설정 사용에 대한 참고 사항:
이러한 설정은 사용자 수준에서 적용됩니다. 변경 사항은 조직의 다른 사용자에게 영향을 미치지 않습니다.
AI 개요 및 변칙 탭 : AI 개요 및 변칙 탭 설정을 사용하여 AI 개요 및 변칙 탭 설정에서 변칙을 숨깁니다. 이러한 보기와 관련된 필터도 사용할 수 있습니다.
Global activity stream: 전역 활동 스트림 섹션을 사용하여 New Relic 홈페이지,
요약 및 Lookout.
이상 유형 : 여기에서 확인란을 사용하여 특정 유형의 이상을 숨깁니다. 예를 들어 활동 스트림과 AI 개요 및 이상 탭에서 이러한 유형의 이상을 숨기려면 웹 처리량 및 비웹 처리 이상을 선택 취소합니다. 여전히 보고되고 쿼리에 사용할 수 있습니다.
NRQL 을 사용하여 NrAiAnomaly 이벤트를 사용하여 이상 감지 데이터를 쿼리하고 차트로 작성할 수 있습니다. 예를 들어:
FROM NrAiAnomaly SELECT *
중요
이 데이터는 이전에 ProactiveDetection 이벤트에 첨부되었습니다. 해당 이벤트는 2021년 4월 7일에 지원 중단되었습니다. 사용자 정의 차트에서 ProactiveDetection 를 사용하는 경우 해당 쿼리를 NrAiAnomaly 를 사용하도록 변환해야 합니다.
다음은 이 이벤트에 연결된 중요한 속성입니다.
기인하다
설명
closeTime 타임스탬프
이상이 종료된 시간입니다. 예: 1615304100000 .
configurationType 끈
이벤트를 모니터링하는 구성 유형입니다. 하나 이상의 구성이 엔티티를 모니터링하는 경우 configuration 으로 설정됩니다. 그렇지 않으면 automatic 로 설정됩니다.
entity.accountId 숫자
엔티티가 속한 New Relic 계정 ID입니다.
entity.domain 숫자
항목의 도메인(현재는 APM 이지만 향후 기능에 따라 변경됨)
entity.guid 끈
엔터티의 GUID입니다. 이것은 NerdGraph를 통해 엔티티에 대한 데이터를 식별하고 검색하는 데 사용됩니다. entityGuid 과 동일합니다.
entityGuid 끈
엔터티의 GUID입니다. 이것은 NerdGraph를 통해 엔티티에 대한 데이터를 식별하고 검색하는 데 사용됩니다. entity.guid 과 동일합니다.
entity.name 끈
데이터가 비정상적인 것으로 확인된 엔터티의 이름입니다. entityName 과 동일합니다. 예: Laura's coffee service .
entityName 끈
데이터가 비정상적인 것으로 확인된 엔터티의 이름입니다. entity.name 과 동일합니다.
entity.type 끈
항목 유형(현재는 APPLICATION 만 있지만 향후 기능에 따라 변경됨)
evaluationType 끈
이것은 항상 anomaly 입니다.
event 끈
비정상적인 데이터의 시작( open )인지 끝( close )인지 나타냅니다.
openTime 타임스탬프
이상이 열린 시간입니다. 예: 1615303740000 .
signalType 끈
분석된 데이터 유형입니다. 예: error_rate 또는 response_time.non_web .
timestamp 타임스탬프
이벤트가 작성된 시간입니다.
title 끈
이상 현상에 대한 설명입니다. 예: Error rate was much higher than normal .
인시던트 인텔리전스와 이상 탐지를 통합하면 컨텍스트와 상관관계를 얻을 수 있습니다. 인시던트 인텔리전스에서 이 작업을 수행하는 방법에 대해 알아보려면 소스 구성 을 참조하십시오.
구성 내부에서 사고 인텔리전스에 연결을 선택할 수도 있습니다.
자동 이상 탐지는 HTTPS POST를 통해 이벤트 본문을 JSON 형식으로 보냅니다. 시스템은 엔드포인트가 성공적인 HTTP 코드(2xx)를 반환할 것으로 예상합니다. 웹후크를 사용하여 자동 이상 감지를 구성하는 경우 웹후크 본문 형식 및 JSON 스키마의 다음 예를 사용하십시오.
기인하다
설명
category 열거
분석된 데이터의 범주입니다.
범주에는 웹 처리량, 웹이 아닌 처리량, 웹 트랜잭션, 웹이 아닌 트랜잭션 및 오류 클래스가 포함됩니다.