자동 이상 감지는 귀하와 귀하의 팀이 시스템에서 비정상적인 동작을 감지하고 분석하는 가장 쉬운 방법입니다. 다음 방법을 사용하여 이 작업을 수행합니다.
이상 탐지는 에이전트가 보고한 메트릭 데이터를 모니터링하고 일반적인 애플리케이션 역학 모델을 구축하며 처리량, 응답 시간 및 오류라는 세 가지 주요 황금 신호에 중점을 둡니다.
이러한 황금 신호 중 하나가 비정상적인 동작을 보이면 시스템은 동작에 플래그를 지정하고 정상 동작으로의 복구를 추적합니다.
시스템은 데이터 변경 사항에 적응하고 새로운 데이터를 기반으로 모델을 지속적으로 업데이트합니다.
자동 켜기: 기본적으로 이상 탐지는 모든 사용자를 모니터링합니다. 귀하가 취해야 할 조치가 없습니다. 이상 현상이 감지되면 다양한 활동 스트림에 자동으로 표시되고 적용된 인텔리전스 이상 현상이 피드되며 NRQL을 통해 쿼리할 수 있습니다.
상관 관계 : 변칙은 결정 이라고도 하는 상관 논리에 연결됩니다. 상관 관계 논리에서 문제가 연결되어 있다고 판단하면 여러 인시던트에서 단일 문제가 생성됩니다. 문제 피드에서 이 상관 문제를 볼 수 있습니다. 이상은 문제가 발생한 시간에 변경된 사항에 대한 추가 컨텍스트를 제공하므로 팀에서 패턴을 쉽게 감지하고 문제를 진단할 수 있습니다.
알림 수신: New Relic이 처리량, 오류율 또는 응답 시간의 비정상적인 변화를 감지하면 팀에서 이 동작에 대한 알림을 받을 수 있습니다. 선택한 Slack 채널 또는 이메일 채널에 알림을 보내는 것이 좋습니다. 비정상적인 동작이 정상으로 돌아오면 복구 메시지가 전송됩니다. 알림을 받고 싶지 않은 경우에도 NRQL 쿼리를사용하여 데이터에 액세스할 수 있습니다.
이상 분석: 각 이상에 대해 Slack에서 이상 분석 페이지에 대한 링크를 제공합니다. 이 페이지는 변칙에 대한 자동 인사이트를 생성합니다. 이 페이지는 최근 이상 항목을 나열하는 이상 항목 탭에서도 사용할 수 있습니다. 이 페이지는 기존 이상 현상의 원인에 대한 설명을 제공하는 이상 감지 데이터.
Activity stream [활동 흐름]: New Relic 홈페이지 등 다양한 활동 흐름 내에서, 요약 페이지, 엔터티 목록 보기 및 New Relic Lookout을 사용하면 APM 모니터링 애플리케이션에서 관련된 이상 항목을 볼 수 있습니다. 활동 스트림에서 이상 이벤트를 클릭하면 해당 이상에 대한 분석 페이지가 나타납니다.
애플리케이션이 항상 이상 징후를 생성하는 것은 아니므로 탐지를 받지 못하는 것이 정상일 수 있습니다.
사용자 정의 또는 자동 이상 감지를 사용하여 시스템의 이상 동작을 모니터링하도록 선택한 후에는 팀에 비정상적인 동작에 대한 알림을 받고 데이터를 쿼리하고 이해할 수 있는지 확인해야 합니다. 사용자 정의 또는 자동 이상 감지를 선택하는 것은 중요하지 않으며 설정은 동일합니다.
최대 1,000개의 애플리케이션을 선택합니다. 처리량이 낮은 특정 응용 프로그램은 데이터 변동의 작은 양에 더 민감할 수 있으므로 비정상 탐지에 적합하지 않을 수 있습니다.
알림을 받을 측정항목을 선택하세요.
알림을 받을 방법을 선택합니다. Slack, Webhook 및 알림 없음 옵션이 있습니다.
Save configuration클릭합니다.
Slack에서 이상 감지 사용:
여유 를 선택합니다.
알림을 받는 Slack 채널을 선택합니다. 기존 공개 또는 비공개 채널을 선택할 수 있습니다. 이렇게 하면 적용된 인텔리전스 Slack 애플리케이션을 선택한 채널에 추가하라는 워크플로우가 표시됩니다. 또는 이상 감지를 위한 새 채널을 생성하고 먼저 Slack에서 채널을 생성한 다음 해당 채널을 선택합니다.
팁
Slack 채널을 할당할 때 오류가 발생하면 New Relic AI Slack 애플리케이션이 Slack 작업 공간에 추가 되었는지 확인하십시오.
구성을 저장합니다.
구성 테이블에서 구성을 선택하여 언제든지 각 구성에 대한 애플리케이션을 수정할 수 있습니다.
웹후크와 함께 이상 감지 사용:
웹훅 을 선택합니다.
양식에 다음 정보를 입력합니다.
웹훅 URL을 제공하십시오.
선택적 사용자 정의 헤더를 제공하십시오.
사용자 지정 페이로드를 편집하거나 기본 페이로드를 사용하여 활성화하도록 선택합니다.
구성을 저장합니다.
구성 테이블에서 구성을 선택하여 언제든지 각 구성에 대한 애플리케이션을 수정할 수 있습니다.
각 이상 메시지에는 잠재적인 문제에 대해 자세히 알아보고 문제 해결을 시작하는 데 사용할 수 있는 몇 가지 주요 정보가 있습니다.
애플리케이션 이름 및 New Relic UI에 대한 자세한 정보 링크.
New Relic UI에서 이상 현상이 발생한 메트릭 및 세부 정보에 대한 링크.
이상 현상의 행동과 정도를 시각적으로 이해할 수 있도록 시간 경과에 따른 지표 그래프입니다.
이상, 업스트림 또는 다운스트림에서 발견된 이상, 기타 관련 신호에 고유한 주요 속성을 식별하는 응용 인텔리전스의 분석 페이지로 이동하는 분석 버튼입니다.
이상 현상이 정상으로 돌아오면 피드백 제공 옵션과 함께 복구 알림을 보냅니다. 귀하의 피드백은 개발 팀에 감지 품질을 개선하는 데 도움이 되는 정보를 제공합니다. 처리량 이상에 대한 피드백이 제공되면 더 적합한 모델을 찾기 위해 피드백을 기반으로 매시간 평가가 실행됩니다. 저희가 도움을 드린 경우 Yes 또는 No선택할 수 있습니다.
Slack 또는 웹후크를 통해 정보를 제공하는 이상 징후에 대한 알림 외에도 경고 및 적용된 인텔리전스 개요 페이지 에서 이상 피드 를 통해 환경의 이상 징후에 대한 자세한 정보를 볼 수 있습니다. 이 탭은 선택한 계정의 모든 구성에서 발생한 모든 최근 이상 항목 목록을 제공하며 자세한 분석을 위해 이상 항목을 선택할 수 있습니다.
이상 피드에서 이상을 보는 것 외에도 이상은 다른 인시던트와 연관되고 문제로 그룹화됩니다. 변칙은 중요한 문제 주변에서 변경된 사항에 대한 컨텍스트를 제공합니다. 기본 이상 항목은 동일한 엔터티 유형의 인시던트와 상관 관계가 있습니다. 결정 을 사용하여 사용 사례에 고유한 상관관계를 추가할 수 있습니다.
변칙성은 다양한 New Relic 활동 스트림과 적용된 인텔리전스 변칙 피드에 표시됩니다. 비정상 가시성 설정을 사용하여 표시되는 항목을 사용자 정의할 수 있습니다(예: 활동 스트림에서 처리량 비정상을 숨기지만 비정상 피드에는 유지).
이러한 설정을 찾으려면 알림 및 AI 의 이상 감지 아래에서 설정 을 클릭합니다 .
이러한 설정 사용에 대한 참고 사항:
이러한 설정은 사용자 수준에서 적용됩니다. 변경 사항은 조직의 다른 사용자에게 영향을 미치지 않습니다.
AI 개요 및 변칙 탭 : AI 개요 및 변칙 탭 설정을 사용하여 AI 개요 및 변칙 탭 설정에서 변칙을 숨깁니다. 이러한 보기와 관련된 필터도 사용할 수 있습니다.
Global activity stream: 전역 활동 스트림 섹션을 사용하여 New Relic 홈페이지,
요약 및 Lookout.
이상 유형 : 여기에서 확인란을 사용하여 특정 유형의 이상을 숨깁니다. 예를 들어 활동 스트림과 AI 개요 및 이상 탭에서 이러한 유형의 이상을 숨기려면 웹 처리량 및 비웹 처리 이상을 선택 취소합니다. 여전히 보고되고 쿼리에 사용할 수 있습니다.
NRQL 을 사용하여 NrAiAnomaly 이벤트를 사용하여 이상 감지 데이터를 쿼리하고 차트로 작성할 수 있습니다. 예를 들어:
FROM NrAiAnomaly SELECT *
중요
이 데이터는 이전에 ProactiveDetection 이벤트에 첨부되었습니다. 해당 이벤트는 2021년 4월 7일에 지원 중단되었습니다. 사용자 정의 차트에서 ProactiveDetection 를 사용하는 경우 해당 쿼리를 NrAiAnomaly 를 사용하도록 변환해야 합니다.
다음은 이 이벤트에 연결된 중요한 속성입니다.
기인하다
설명
timestamp 타임스탬프
이벤트가 작성된 시간입니다.
anomalyId 숫자
이 사건이 New Relic 변칙에서 비롯된 경우 변칙 ID가 있습니다.
closeTime 타임스탬프
이상이 종료된 시간입니다. 예: 1615304100000 .
configurationType 끈
이벤트를 모니터링하는 구성 유형입니다. 하나 이상의 구성이 엔티티를 모니터링하는 경우 configuration 으로 설정됩니다. 그렇지 않으면 automatic 로 설정됩니다.
entity.accountId 숫자
엔티티가 속한 New Relic 계정 ID입니다.
entity.domain 열거
엔터티의 도메인입니다. 예: APM.
entity.domainId 끈
도메인 내에서 엔티티를 고유하게 식별하는 데 사용되는 ID입니다.
entity.guid 끈
엔터티의 GUID입니다. 이것은 NerdGraph를 통해 엔티티에 대한 데이터를 식별하고 검색하는 데 사용됩니다. entityGuid 과 동일합니다.
entity.name 끈
데이터가 비정상적인 것으로 확인된 엔터티의 이름입니다. entityName 과 동일합니다. 예: Laura's coffee service .
entity.type 끈
항목 유형(현재는 APPLICATION 만 있지만 향후 기능에 따라 변경됨)
entityGuid 끈
엔터티의 GUID입니다. 이것은 NerdGraph를 통해 엔티티에 대한 데이터를 식별하고 검색하는 데 사용됩니다. entity.guid 과 동일합니다.
entityName 끈
데이터가 비정상적인 것으로 확인된 엔터티의 이름입니다. entity.name 과 동일합니다.
evaluationType 끈
이것은 항상 anomaly 입니다.
event 끈
비정상적인 데이터의 시작( open )인지 끝( close )인지 나타냅니다.
openTime 타임스탬프
이상이 열린 시간입니다. 예: 1615303740000 .
signalType 끈
분석된 데이터 유형입니다. 예: error_rate 또는 response_time.non_web .
title 끈
이상 현상에 대한 설명입니다. 예: Error rate was much higher than normal .
인시던트 인텔리전스와 이상 탐지를 통합하면 컨텍스트와 상관관계를 얻을 수 있습니다. 인시던트 인텔리전스에서 이 작업을 수행하는 방법에 대해 알아보려면 소스 구성 을 참조하십시오.
구성 내부에서 사고 인텔리전스에 연결을 선택할 수도 있습니다.
자동 이상 탐지는 HTTPS POST를 통해 이벤트 본문을 JSON 형식으로 보냅니다. 시스템은 엔드포인트가 성공적인 HTTP 코드(2xx)를 반환할 것으로 예상합니다. 웹후크를 사용하여 자동 이상 감지를 구성하는 경우 웹후크 본문 형식 및 JSON 스키마의 다음 예를 사용하십시오.
기인하다
설명
category 열거
분석된 데이터의 범주입니다.
범주에는 웹 처리량, 웹이 아닌 처리량, 웹 트랜잭션, 웹이 아닌 트랜잭션 및 오류 클래스가 포함됩니다.