서비스 제공 공지 범위는 사용자 환경 및 비즈니스 운영에 영향을 미칠 수 있는 문제를 감지하기 위해 고객을 대상으로 하는 기능 및 서비스에 대한 모니터링 알림을 보장합니다.
이 점수카드 규칙에 관하여
이 서비스 제공 공지 적용 규칙은 비즈니스 업타임 성숙도 모델 의 레벨 1(반응형)의 일부입니다. 고객 관련 문제가 발생할 때 알림을 받을 수 있도록 애플리케이션과 서비스에 기본 알림이 구성되어 있는지 확인합니다.
이것이 중요한 이유: 서비스 제공 문제는 고객 경험과 사업 수익에 직접적인 영향을 미칩니다. 적절한 애플리케이션 알림이 없으면 고객이 문제를 보고할 때만 문제를 발견할 수 있으며, 이로 인해 서비스 중단 시간이 길어지고 고객 관계가 손상될 수 있습니다.
이 규칙의 작동 방식
이 규칙은 서비스 제공을 검토합니다. 그리고 공지 사항이 정의되어 있는지 확인합니다. 특히, 다음에 대한 알림을 찾습니다.
- APM-APPLICATION 회의: APM 에이전트의 백앤드 리그 및 서비스 모니터
- BROWSER-APPLICATION 엔터티: Frontend 웹 군대 모니터 by 로그 모니터링
- MOBILE-APPLICATION 회의: 모바일 모니터링을 통한 모바일 앱 모니터
- SYNTH-MONITOR 분해: 사용자를 시뮬레이션하는 합성 모니터
모니터 서비스 제공 부분에 공지 조건이 하나 이상 없으면 규칙이 실패합니다.
점수 이해하기
- 통과(녹색): 모든 서비스 제공 부분에는 하나 이상의 공지 조건이 정의되어 있습니다.
- 실패(빨간색): 하나 이상의 서비스 제공이 부족합니다. 공지 범위가 부족합니다.
- 대구, 목표: 고객을 대면하는 모든 서비스 및 서비스 전반에 걸쳐 100% 공지 적용 범위
이는 무엇을 의미합니까?
- 합격 점수: 고객에게 영향을 미치는 문제를 감지하기 위한 애플리케이션 모니터링 기반이 구축되었습니다.
- 실패 점수: 일부 애플리케이션이나 서비스는 팀에 알리지 않고도 실패할 수 있으며, 이는 잠재적으로 고객에게 영향을 미칠 수 있습니다.
서비스 제공 개선 방법 공지 범위
점수에 서비스 제공 알림이 누락된 것으로 표시되는 경우 다음 단계에 따라 포괄적인 적용 범위를 설정하세요.
1. 보장되지 않는 서비스 식별
- 실패한 부분 검토: 공지된 범위가 부족한 특정 기능이나 서비스를 식별합니다.
- 고객 영향에 따른 우선순위 지정: 고객 중심 애플리케이션과 수익에 중요한 서비스에 먼저 집중하세요.
- 서비스 중요도 평가: 즉각적인 경고와 지연된 경고가 필요한 서비스를 판별합니다.
2. 필수 서비스 제공 알림 설정
분리 유형에 따라 다음 중요 지표에 대한 알림을 구성합니다.
APM 애플리케이션 알림:
- 오류율: 오류율이 5분 동안 5%를 초과하는 경우
- 응답 시간: 평균 응답 시간이 허용 가능한 레버 값을 초과하는 경우 공지(예: >2초)
- 처리량: 요청량이 크게 감소하여 잠재적인 서비스 중단을 나타내는 경우 알림
- Apdex 점수: 사용자 만족도 점수가 허용 수준(예: 0.8 미만) 이하로 떨어질 때 알림
브라우저 애플리케이션 알림:
- JavaScript 오류: 프런트엔드 오류 발생 시 공지
- 페이지 로드 시간: 페이지 로드 시간이 사용자 환경을 초과하는 경우 공지, 이전 값
- Core Web Vitals: 공지 최대 콘텐츠 페인트 또는 누적 레이아웃 이동과 같은 지표가 저하될 때
- 사용자 세션: 활성 사용자 세션이 예기치 않게 중단되는 경우 공지
모바일 애플리케이션 알림:
- 충돌률: 앱 충돌률이 1~2%를 초과하는 경우
- 네트워크 오류: 네트워크 요청 실패가 급증할 때 알림
- 앱 등장 시간: 앱 시작 시간이 허용되지 않는 경우를 알려줍니다.
- 사용자 블록 합성: 주요 사용자 동작(로그인, 구매)이 자주 실패하는 경우 공지
합성 모니터 알림:
- 모니터 실패시 : 신세틱검사 실패시 즉시 공지
- 성능 저하: 합성 프로세서 시간이 크게 증가할 경우 공지
- 가용성: 업타임이 SLA 요구 사항(예: 99.9% 미만) 아래로 떨어지면 공지
- 다중 위치 오류: 동일한 문제가 여러 위치에서 나타나는 경우 공지
3. 알림을 효과적으로 구성하세요
적절한 레버 값을 설정하십시오:
- 과거 성능 데이터 및 비즈니스 요구 사항에 대한 기본 값
- 다양한 환경에 맞게 다른, Limit을 사용하세요(생산은 더 민감해야 함)
- 응답 시간 및 전설적인 내용을 설정할 때 사용자 환경에 미치는 영향을 고려하십시오.
적절한 평가 기간을 선택하세요.
- 중요한 사용자 관련 문제에는 더 짧은 창(2~5분)을 사용하세요.
- 시간이 필요한 추세를 파악하기 위해서는 더 긴 창(10~15분)을 사용하세요.
- 일시적인 변동에 따라 트리거되는 너무 짧은 창은 피하십시오.
4. 인사이드 대응 절차 수립
- 공지 채널 정의: Slack, PagerDuty 또는 이메일로 통합 설정
- 책임 팀 지정: 문제를 진단하고 해결할 수 있는 팀에 알림이 도달하도록 합니다.
- 에스컬레이션 경로 생성: SLA 기간 내에 알림이 확인되지 않을 경우 발생하는 상황을 정의합니다.
- 테스트 응답 절차: 팀이 실제로 SNMP 문제에 응답하고 해결할 수 있는지 확인
개선 측정
서비스 제공 공지 범위 개선 사항을 확인하려면 다음 지표를 추적하세요.
- 커버리지 비율 : 제작 및 서비스에 대한 100% 공지 커버리지를 위한 AI 모델링
- 평균감지시간(MTTD) ( 평균탐지시간(MTTD)): 알림이 고객에게 영향을 미치는 문제를 얼마나 빨리 식별하는지 측정합니다.
- 공지 정확성: 조치가 필요한 실제 문제를 나타내는 알림의 비율을 모니터링합니다.
- 고객에게 미치는 영향 감소: 더 빠른 감지로 인해 고객이 직면한 중단 시간이 단축되는지 추적합니다.
일반적인 시나리오 및 솔루션
보관용 또는 미사용용:
- 문제: 이전 애플리케이션이 모니터링에 계속 나타나지만 더 이상 고객에게 서비스를 제공하지 않습니다.
- 해결 방법: 모니터링에서 사용되지 않는 애플리케이션을 제거하거나 더 이상 사용되지 않는 것으로 태그를 지정하여 적용 범위 요구 사항에서 제외합니다.
개발 및 테스트 환경:
- 문제: 비프로덕션의 난잡함 공지 보도 지표
- 솔루션: 태그 또는 명명 규칙을 사용하여 환경을 분리하고 프로덕션 서비스에 적용 범위 규칙을 집중합니다.
마이크로서비스 아키텍처:
- 문제: 많은 소규모 서비스로 인해 100% 적용 범위를 달성하고 유지하기가 어렵습니다.
- 솔루션: 고객 중심 서비스와 중요한 의존성/종속성을 우선시하고 서비스 맵을 사용하여 핵심 구성 요소를 식별합니다.
제3자 의존성/종속성:
- 문제: 외부 서비스가 제어할 수 없지만 애플리케이션에 영향을 미칩니다.
- 솔루션: 중요한 타사 통합 및 API를 테스트하기 위한 합성 모니터 생성
고급 고려 사항
적용 범위 규칙 사용자 정의
다음과 같은 경우 점수표 규칙을 조정해야 할 수 있습니다.
- 다양한 서비스 유형: 귀하의 섹션에는 다른 유형(Lambda , 데이터베이스, 위치 독립)이 포함되어 있습니다.
- 비즈니스 중요도 수준: 일부 서비스는 다른 서비스보다 더 중요하며 서로 다른 공지 전략이 필요합니다.
- 구현, 배포 패턴: Canary 구현, 배포 또는 청록색 구현, 배포는 일시적으로 적용 범위에 영향을 미칠 수 있습니다.
공지조정과 의존성/종속성
복잡한 서비스 아키텍처의 경우:
- 서비스 의존성/종속성: 업스트림 서비스 실패를 설명하기 위한 알림 구성
- 공지 상관 : 인시던트 기간 중 공지폭풍을 피하기 위한 그룹 관련 알림
- 지능형 알림: 머신 러닝 기능을 사용하여 오탐을 줄이고 신호 품질을 개선합니다.
중요한 고려 사항
- 고객 영향 초점: 고객 경험에 직접적인 영향을 미치는 문제에 대한 알림 우선순위 지정
- 품질과 균형 잡힌 보장: 포괄적 보장으로 인해 공지 오류가 발생하지 않도록 보장
- 정기적인 유지 관리: 귀하의 전문적인 발전에 따라 공지 조건을 검토하고 업데이트합니다.
- 팀 간 협력: 개발 및 운영 팀이 정보 전략에 대해 협업하도록 보장합니다.
다음 단계
- 즉각적인 조치: 현재 서비스가 제공되지 않는 모든 서비스에 대한 기본 알림을 설정하세요.
- 지속적인 모니터링: 서비스가 변경됨에 따라 적용 범위를 유지하기 위해 이 점수표 규칙을 매주 검토하세요.
- 품질 개선: 공 효과성 및 오탐 감소에 집중
- 2단계로 진행: 서비스 제공 경고가 설정되면 사전 예방적 모니터링 관행에 집중합니다.
설계 모델링 설정에 대한 자세한 지침은 APM, 브라우저 모델링, 모바일 모델링 및 신규 모델링 에 대한 문서를 참조하세요.