외부 공지 적용 범위는 서버, 컨테이너 및 기타 외부 구성 요소가 모니터링 알림을 갖추고 있어 문제가 사용자와 고객에게 영향을 미치기 전에 감지할 수 있도록 합니다.
이 점수카드 규칙에 관하여
이 공개 공지 적용 범위 규칙은 비즈니스 폴더타임 성숙도 모델 의 레벨 1(반응형)의 일부입니다. 문제 발생 시 알림을 받을 수 있도록 중요 인프라 구성 요소에 기본 알림이 구성되어 있는지 확인합니다.
이것이 중요한 이유: 인프라 문제는 종종 애플리케이션 문제로 이어집니다. 적절한 인프라 경고가 없다면, 고객이 서비스 속도가 느리거나 이용할 수 없다고 불평하기 시작할 때에만 문제가 발견될 수 있습니다.
이 규칙의 작동 방식
이 규칙은 분리 부분을 검사하고 공지 조건이 정의되어 있는지 확인합니다. 특히, 다음에 대한 알림을 찾습니다.
- INFRA-HOST 분리: 물리적 서버, 가상 기계 및 cloud 존재
- INFRA-KUBERNETES-POD 부분: Kubernetes 파드 및 컨테이너
모니터 회의 부분에 공지 조건이 하나 이상 없으면 규칙이 실패합니다.
점수 이해하기
- 통과(녹색): 모든 분리 부분에는 하나 이상의 공지 조건이 정의되어 있습니다.
- 실패(빨간색): 하나 이상의 교체 부품 공지 적용 범위가 부족합니다.
- 대구, 목표: 모든 중요 구성 요소에 대한 100% 공지 적용 범위
이는 무엇을 의미합니까?
- 합격 점수: 인프라 모니터링 기반이 구축되었습니다.
- 실패 점수: 일부 인프라 구성 요소는 팀에 경고 없이 실패할 수 있습니다.
공지사항 적용 범위를 개선하는 방법
점수에 인프라 알림이 누락된 것으로 나타나면 다음 단계에 따라 포괄적인 적용 범위를 설정하세요.
1. 노출된 인프라 식별
- 실패한 내용을 검토하세요. 공지 적용 범위가 부족한 특정 호스트 또는 파드를 식별하세요.
- 중요도에 따라 우선순위를 정하세요. 먼저 프로덕션 시스템과 비즈니스에 중요한 인프라에 집중하세요.
- 모니터링 격차 평가: 누락된 알림이 실제 모니터링 격차를 나타내는지 또는 의도적인 제외를 나타내는지 확인합니다.
2. 필수 인프라 알림 설정
각 부품에 대해 다음과 같은 중요한 요소에 대한 알림을 구성합니다.
호스트 모니터링 알림:
- CPU 사용률: 공지 CPU 사용률이 5분간 80%를 초과할 경우
- 메모리 사용량: 메모리 사용량이 5분 동안 85%를 초과하는 경우 공지
- 디스크 공간: 훈디스크 사용량이 90%를 초과하거나 사용 가능한 공간이 1GB 미만으로 떨어질 때
- 호스트 가용성: 호스트가 3분 동안 데이터 보고를 중단할 때 공지
Kubernetes 패드 알림:
- 파드 재시작 빈도: 10분 안에 파드가 3회 이상 재시작되는 경우를 알려드립니다.
- 컨테이너 리소스 제한: CPU 또는 메모리 제한에 접근하는 경우 공지 컨테이너
- 파드 이용 가능 여부: 파드가 2분 이상 실행되지 않을 때 알림
- 노드 리소스 압박: 노드가 메모리 또는 디스크 압박을 경험할 때 공지
3. 공지조건을 효과적으로 구성하세요
적절한 레버 값을 사용하십시오:
- 보수적인, 한계로 시작하고 환경의 정상적인 동작에 따라 조정하세요.
- 개발을 위한 다양한 노드 설정, 안정성, 운영 환경을 고려하세요.
- 예상되는 사용 패턴(예: 일괄 처리 작업, 트래픽 급증)을 고려합니다.
적절한 평가 기간을 설정하세요.
- 자연스럽게 변동하는 지표에 대해 더 긴 창(5~10분)을 사용하세요.
- 가용성 및 중대한 실패 조건에 대해 더 짧은 창(1~3분)을 사용하세요.
- 일시적인 급증으로 인해 발생하는 지나치게 민감한 알림은 피하십시오.
4. 공지 라우팅 및 에스컬레이션 설정
- 공지 채널 정의: 이메일, Slack 또는 PagerDuty 통합 설정
- 책임 있는 팀 지정: 응답할 수 있는 팀에 알림이 도달하도록 합니다.
- 에스컬레이션 절차 만들기: 초기 알림이 확인되지 않을 경우 발생하는 상황을 정의합니다.
- 공지 전달 테스트: 알림이 실제로 의도한 수신자에게 도달하는지 확인하세요.
개선 측정
이러한 지표를 추적하여 버전 공지 적용 범위 개선 사항을 확인하세요.
- 커버리지 비율: 프로덕션에 대한 100% 공지 커버리지를 위한 AI 모니터링
- 공지 효율성: 통합 알림의 빈도를 모니터링하여 통합 문제를 예방하는 데 도움이 됩니다.
- 응답 시간: 팀이 감시 알림에 얼마나 신속하게 대응하는지 측정
- 오탐율: 불필요한 소음을 방지하기 위해 알림이 조정되었는지 확인하세요.
일반적인 시나리오 및 솔루션
구형 또는 폐기된 버전:
- 문제: 이전 호스트 또는 컨테이너가 모니터링에 계속 표시되지만 알림이 필요하지 않습니다.
- 해결 방법: 사용하지 않는 파티션을 제거하거나 비생산으로 분류하여 적용 범위 요구 사항에서 제외합니다.
개발 및 테스트 환경:
- 문제: 개발/테스트가 복잡해집니다. 공지 적용 범위 지표
- 솔루션: 태그 또는 명명 규칙을 사용하여 환경을 분리하고 프로덕션 시스템에 적용 범위 규칙을 집중합니다.
전문 인프라:
- 문제: 일부 인프라에는 사용자 지정 모니터링 접근 방식이 필요합니다.
- 솔루션: 다양한 데이터베이스 유형(데이터베이스, 로드 밸런서 등)에 대한 환경별 공지 템플릿 생성
클라우드 자동 확장 리소스:
- 문제: 동적으로 생성된 외부는 공지 설정을 상속받지 못할 수 있습니다.
- 해결 방법: 새로운 부품이 적절한 공지 범위를 확보하도록 하기 위해 국방부 템플릿 또는 자동화를 사용하십시오.
고급 고려 사항
적용 범위 규칙 사용자 정의
다음과 같은 경우 점수표 규칙을 조정해야 할 수 있습니다.
- 다양한 분리 유형: 분리에는 다른 분리 유형(데이터베이스, 로드 밸런서 등)이 포함됩니다.
- 환경 분리: 프로덕션 인프라에만 집중하려고 합니다.
- 비즈니스 중요성: 일부 인프라는 다른 인프라보다 더 중요합니다.
다른 모니터링 도구와의 통합
여러 모니터링 도구를 사용하는 경우:
- 공지 내용이 중복되지 않도록 확인하세요.
- 격차를 피하기 위해 기존 모니터링 시스템과 조정하세요
- 감시 알림을 위한 중앙 집계 지점으로 뉴렐릭을 사용하는 것을 고려해보세요.
중요한 고려 사항
- 중요한 시스템부터 시작하세요. 고객에게 직접 영향을 미치는 프로덕션 인프라에 먼저 집중하세요.
- 노이즈가 있는 균형 잡힌 적용 범위: 포괄적인 적용 범위가 공지 노이즈를 생성하지 않도록 보장
- 정기적인 유지 관리: 전투가 발전함에 따라 공지 조건을 검토하고 업데이트합니다.
- 팀 준비성: 팀이 귀하가 생성하는 알림에 실제로 응답할 수 있는지 확인하세요.
다음 단계
- 즉각적인 조치: 현재 적용 범위가 부족한 모든 인프라에 대한 기본 알림을 설정하세요.
- 지속적인 모니터링: 인프라 변경에 따른 적용 범위를 유지하기 위해 매주 이 점수표 규칙을 검토하세요.
- 2단계로 진행: 인프라 경보가 확립되면 사전 예방적 모니터링 관행에 집중합니다.
관측 모니터링 설정에 대한 자세한 지침은 관측 모니터링 문서를 참조하세요.