인프라 모니터링의 호스트가 보고하지 않는 조건 을 사용하여 인프라 에이전트로부터 데이터 수신을 중단했을 때 알려줍니다. 이 기능을 사용하면 호스트 그룹에 대해 동적으로 경고하고 5분에서 60분 사이의 시간 창을 구성하고 경고 알림을 최대한 활용할 수 있습니다.
특징
가장 중요한 호스트 집합을 기반으로 조건을 정의하고 각 필터 집합 에 적절한 임계값을 구성할 수 있습니다. 호스트가 이벤트를 보고 하지 않음은 인프라 에이전트의 데이터가 지정한 시간 프레임 내에 수집기 에 도달하지 않을 때 트리거됩니다.
주의
태그 또는 레이블을 사용하여 Host Not Reporting
조건을 필터링한 다음 대상 호스트에서 중요한 태그 또는 레이블을 제거하면 해당 호스트가 연결이 끊어진 것으로 특성화되기 때문에 시스템에서 보고하지 않는 호스트 위반을 엽니다.
이 기능의 유연성을 통해 모니터링 대상과 선택한 개인 또는 팀에 통지할 시기를 쉽게 사용자 지정할 수 있습니다. 또한 이메일 알림에는 상황을 신속하게 해결하는 데 도움이 되는 링크가 포함되어 있습니다.
호스트가 상태를 보고하지 않음 | 특징 |
---|---|
모니터링 대상 | 필터 세트 를 사용하여 경고 조건으로 모니터링할 호스트를 선택할 수 있습니다. 조건은 이러한 필터와 일치하는 향후 추가하는 모든 호스트에도 자동으로 적용됩니다. |
통지하는 방법 | 조건은 정책 에 포함되어 있습니다. 인프라 모니터링 UI에서 이메일 알림을 사용하여 기존 정책을 선택하거나 새 정책을 생성할 수 있습니다. 다른 유형의 알림 채널 을 사용하여 새 정책을 만들려면 UI 를 사용하십시오. |
통지할 때 | 정책의 인시던트 기본 설정 에 따라 적용한 필터와 일치하는 호스트의 임계값 위반에 대해 정책에서 식별된 이메일 주소가 자동으로 알림을 받습니다. |
문제 해결 위치 | 이메일 알림 상단의 링크는 호스트 연결이 끊긴 시간을 중심으로 한 인프라 이벤트 페이지 로 이동합니다. 이메일의 추가 링크를 클릭하면 추가 세부 정보로 이동합니다. |
"호스트가 보고하지 않음" 조건 생성
호스트가 보고하지 않는 조건 기준을 정의하려면:
- 표준 절차에 따라 기반 시설 조건을 만드 십시오.
- 경고 유형 으로 보고하지 않는 호스트를 선택합니다.
- 알림을 트리거하기 위한 임계 임계값(최소 5분, 최대 60분)을 정의합니다.
- 명령줄을 통해 호스트가 종료되도록 설정한 경우 잘못된 경고를 방지하려면 '완전한 종료를 수행하는 호스트에 대해 경고를 트리거하지 않음' 옵션을 활성화합니다.
현재 이 기능은 systemd를 사용하는 모든 Windows 시스템 및 Linux 시스템에서 지원됩니다. 또는 위에서 언급한 옵션을 확인하면서 호스트에hostStatus: shutdown
태그 를 추가할 수 있습니다. 이렇게 하면 에이전트 버전이나 OS에 관계없이 해당 태그가 있는 한 해당 호스트에 대해 보고되지 않는 모든 호스트 위반이 열리지 않습니다. 태그를 제거하면 시스템이 해당 호스트에 대한 호스트 Not Reporting 위반을 다시 열 수 있습니다.
정책의 인시던트 기본 설정 에 따라 조건에 대해 정의된 중요 임계값이 통과할 때 사용할 알림 채널을 정의합니다. "오탐지"를 피하기 위해 호스트는 위반이 시작되기 전에 전체 기간 동안 보고를 중지해야 합니다.
예: 필터링된 호스트 집합이 7 분 동안 데이터 보고를 중지하는 경우 위반을 여는 조건을 만듭니다.
- 호스트가 5분 동안 보고를 중지했다가 보고를 재개하면 조건이 위반을 열지 않습니다 .
- 호스트가 7분 동안 보고를 중지하면 다른 호스트는 정상이더라도 조건 이 위반을 시작합니다.
문제 조사
호스트가 데이터를 보고하지 않는 이유를 자세히 조사하려면 다음을 수행하십시오.
- 이메일 알림의 세부정보를 검토하세요.
- 이메일 알림의 링크를 사용하여 인프라 모니터링의 이벤트 페이지 에서 환경의 지속적인 변경 사항을 모니터링하십시오. 예를 들어, 이벤트 페이지를 사용하여 루트 사용자가 호스트의 구성을 변경한 직후 호스트 연결이 끊겼는지 확인합니다.
- 선택 사항: 이메일 알림의 확인 링크 를 사용하여 경고 인시던트를 알고 있고 소유권을 갖고 있는지 확인합니다.
- 이메일 링크를 사용하여 사고 세부 정보 페이지 에서 추가 세부 정보를 검토하십시오.
의도적 중단
완전한 종료를 수행하는 호스트에 대해 경고를 트리거하지 않음 옵션을 사용하여 예기치 않은 상황과 계획된 상황을 구별할 수 있습니다. 다음과 같은 상황에서 이 옵션을 사용하십시오.
- 호스트가 의도적으로 오프라인 상태가 되었습니다.
- 호스트가 유지 관리를 위해 계획된 가동 중지 시간이 있습니다.
- 호스트가 종료되었거나 폐기되었습니다.
- 호스트를 자동 확장하거나 클라우드 콘솔에서 인스턴스를 종료합니다.
우리는 완전한 종료를 표시하기 위해 Linux 및 Windows 종료 신호에 의존합니다.
에이전트가 다음 시나리오를 감지했음을 확인했습니다.
- systemd를 사용하는 EC2 인스턴스의 AWS Auto-scaling 이벤트(Amazon Linux, CentOs/RedHat 7 이상, Ubuntu 16 이상, Suse 12 이상, Debian 9 이상)
- Windows 시스템의 사용자 시작 종료
- systemd를 사용하는 Linux 시스템의 사용자 시작 종료(Amazon Linux, CentOs/RedHat 7 이상, Ubuntu 16 이상, Suse 12 이상, Debian 9 이상)
에이전트가 다음 시나리오를 감지 하지 못한다 는 것을 알고 있습니다.
- systemd를 사용하지 않는 Linux 시스템의 사용자 시작 종료(CentOs/RedHat 6 이하, Ubuntu 14, Debian 8). 여기에는 여전히 Upstart 또는 SysV init 시스템을 사용하는 다른 최신 Linux 시스템이 포함됩니다.
- systemd를 사용하지 않는 EC2 인스턴스의 AWS Auto-scaling 이벤트(CentOs/RedHat 6 이하, Ubuntu 14, Debian 8). 여기에는 여전히 Upstart 또는 SysV init 시스템을 사용하는 다른 최신 Linux 시스템이 포함됩니다.