5단계 에스컬레이션

원본 보기

5 에스컬레이션

개요

에스컬레이션을 통해 알림을 전송하거나 원격 명령을 실행하는 사용자 정의 시나리오를 생성할 수 있습니다.

실용적으로는 다음을 의미합니다:

  • 사용자가 새로운 문제에 대해 즉시 알림을 받을 수 있습니다.
  • 문제가 해결될 때까지 알림이 반복될 수 있습니다.
  • 알림 전송을 지연시킬 수 있습니다.
  • 알림을 다른 "상위" 사용자 그룹으로 에스컬레이션할 수 있습니다.
  • 원격 명령을 즉시 실행하거나 문제가 장기간 해결되지 않을 때 실행할 수 있습니다.

작업은 에스컬레이션 단계를 기반으로 에스컬레이션됩니다. 각 단계는 시간 지속 시간을 가집니다.

기본 지속 시간과 개별 단계의 사용자 정의 지속 시간을 모두 정의할 수 있습니다. 하나의 에스컬레이션 단계의 최소 지속 시간은 60 초입니다.

모든 단계에서 알림 전송 또는 명령 실행과 같은 작업을 시작할 수 있습니다. 1단계는 즉시 작업을 위한 것입니다. 작업을 지연시키고 싶다면 나중 단계에 할당할 수 있습니다. 각 단계마다 여러 작업을 정의할 수 있습니다.

에스컬레이션 단계의 수는 제한되지 않습니다.

에스컬레이션은 작업 구성 시 정의됩니다. 에스컬레이션은 문제 작업에 대해서만 지원되며 복구에는 지원되지 않습니다.

에스컬레이션 동작의 기타 측면

작업에 여러 에스컬레이션 단계가 포함된 경우 다양한 상황에서 어떤 일이 일어나는지 살펴보겠습니다.

상황 동작
초기 문제 알림이 전송된 후 해당 호스트가 유지 보수 모드로 전환됨 작업 구성억제된 문제에 대한 작업 일시 중지 설정에 따라, 나머지 모든 에스컬레이션 단계는 유지 보수 기간으로 인한 지연과 함께 또는 지연 없이 실행됩니다. 유지 보수 기간은 작업을 취소하지 않습니다.
초기 알림이 전송된 후 시간 기간 작업 조건에 정의된 시간 기간이 종료됨 나머지 모든 에스컬레이션 단계가 실행됩니다. 시간 기간 조건은 작업을 중지할 수 없으며, 작업이 언제 시작되거나 시작되지 않는지에 관해서만 효과가 있고 작업에는 효과가 없습니다.
유지 보수 중에 문제가 시작되고 유지 보수 종료 후에도 계속됨(해결되지 않음) 작업 구성억제된 문제에 대한 작업 일시 중지 설정에 따라, 모든 에스컬레이션 단계는 유지 보수 종료 순간부터 또는 즉시 실행됩니다.
무데이터 유지 보수 중에 문제가 시작되고 유지 보수 종료 후에도 계속됨(해결되지 않음) 모든 에스컬레이션 단계가 실행되기 전에 트리거가 발동될 때까지 기다려야 합니다.
서로 다른 에스컬레이션이 연속으로 발생하여 겹침 각각의 새로운 에스컬레이션 실행이 이전 에스컬레이션을 대체하지만, 이전 에스컬레이션에서 항상 실행되는 최소 하나의 에스컬레이션 단계가 있습니다. 이 동작은 트리거의 모든 문제 평가마다 생성되는 이벤트에 대한 작업과 관련이 있습니다.
진행 중인 에스컬레이션(메시지 전송 중)에서 모든 유형의 이벤트를 기반으로:
- 작업이 비활성화됨
트리거 이벤트를 기반으로:
- 트리거가 비활성화됨
- 호스트 또는 아이템이 비활성화됨
트리거에 대한 내부 이벤트를 기반으로:
- 트리거가 비활성화됨
아이템/로우레벨 디스커버리 규칙에 대한 내부 이벤트를 기반으로:
- 아이템이 비활성화됨
- 호스트가 비활성화됨
진행 중인 메시지가 전송되고 에스컬레이션에서 하나 더 메시지가 전송됩니다. 후속 메시지는 메시지 본문 시작 부분에 취소 텍스트(참고: 에스컬레이션 취소됨)가 있고 이유를 명시합니다(예: 참고: 에스컬레이션 취소됨: 작업 '<작업 이름>' 비활성화됨). 이렇게 수신자는 에스컬레이션이 취소되었고 더 이상 단계가 실행되지 않을 것임을 알게 됩니다. 이 메시지는 이전에 알림을 받은 모든 사람에게 전송됩니다. 취소 이유는 서버 로그 파일에도 기록됩니다(디버그 레벨 3=경고부터).

작업은 완료되었지만 복구 작업이 구성되어 있고 아직 실행되지 않은 경우에도 에스컬레이션 취소됨 메시지가 전송됩니다.
진행 중인 에스컬레이션(메시지 전송 중)에서 작업이 삭제됨 더 이상 메시지가 전송되지 않습니다. 정보는 서버 로그 파일에 기록됩니다(디버그 레벨 3=경고부터), 예: escalation canceled: action id:334 deleted

에스컬레이션 예시

예시 1

"MySQL Administrators" 그룹에 30분마다 한 번씩(총 5회) 반복 알림을 전송합니다. 구성 방법:

  • 작업 탭에서 기본 작업 단계 지속 시간을 "30m"(30분)로 설정합니다.
  • 에스컬레이션 단계를 "1"에서 "5"로 설정합니다.
  • "MySQL Administrators" 그룹을 메시지 수신자로 선택합니다.

알림은 문제 시작 후 0:00, 0:30, 1:00, 1:30, 2:00 시간에 전송됩니다 (물론 문제가 더 빨리 해결되지 않는 한).

문제가 해결되고 복구 메시지가 구성된 경우, 이 에스컬레이션 시나리오 내에서 최소 한 번의 문제 메시지를 받은 사람들에게 전송됩니다.

활성 에스컬레이션을 생성한 트리거가 비활성화되면 Zabbix는 이미 알림을 받은 모든 사람에게 이에 대한 정보 메시지를 전송합니다.

예시 2

오래 지속된 문제에 대한 지연된 알림 전송. 구성 방법:

  • 작업 탭에서 기본 작업 단계 지속 시간을 "10h"(10시간)로 설정합니다.
  • 에스컬레이션 단계를 "2"에서 "2"로 설정합니다.

알림은 에스컬레이션 시나리오의 2단계, 즉 문제 시작 후 10시간에만 전송됩니다.

"문제가 10시간 이상 지속되었습니다"와 같은 메시지 텍스트를 사용자 정의할 수 있습니다.

예시 3

상사에게 문제를 에스컬레이션.

위의 첫 번째 예시에서 MySQL 관리자들에게 주기적으로 메시지를 전송하도록 구성했습니다. 이 경우 관리자들은 문제가 데이터베이스 매니저에게 에스컬레이션되기 전에 네 개의 메시지를 받게 됩니다. 매니저는 문제가 아직 승인되지 않은 경우에만 메시지를 받을 것이며, 이는 아무도 그것을 작업하고 있지 않다는 것을 의미합니다.

작업 2의 세부 정보:

사용자 정의 메시지에서 {ESC.HISTORY} 매크로의 사용에 주목하십시오. 이 매크로는 전송된 알림 및 실행된 명령과 같은 이 에스컬레이션에서 이전에 실행된 모든 단계에 대한 정보를 포함할 것입니다.

예시 4

더 복잡한 시나리오. MySQL 관리자들에게 여러 메시지를 보내고 매니저에게 에스컬레이션한 후, Zabbix는 MySQL 데이터베이스를 재시작하려고 시도할 것입니다. 이는 문제가 2시간 30분 동안 존재하고 승인되지 않은 경우에 발생합니다.

문제가 여전히 존재한다면 30분 후 Zabbix는 모든 게스트 사용자에게 메시지를 전송할 것입니다.

이것으로도 해결되지 않는다면 1시간 후 Zabbix는 IPMI 명령을 사용하여 MySQL 데이터베이스가 있는 서버를 재부팅할 것입니다(두 번째 원격 명령).

예시 5

겹치는 단계 범위와 사용자 정의 간격을 가진 여러 작업으로 구성된 에스컬레이션. 기본 작업 단계 지속 시간은 30분입니다.

알림은 다음과 같이 전송됩니다:

  • MySQL 관리자들에게 문제 시작 후 0:00, 0:30, 1:00, 1:30에.
  • 데이터베이스 매니저에게 2:00과 2:10에 (후속 작업에 정의된 더 짧은 사용자 정의 단계 지속 시간 10분이 여기서 구성된 더 긴 단계 지속 시간 1시간을 재정의합니다. 단계 지속 시간에 대한 작업 세부 정보에서 단계가 겹칠 때 설명된 바와 같습니다).
  • Zabbix 관리자들에게 문제 시작 후 2:00, 2:10, 2:20에 (사용자 정의 단계 지속 시간 10분이 적용됩니다).
  • 게스트 사용자들에게 문제 시작 후 4:00에 (8단계와 11단계 사이에서 기본 단계 지속 시간 30분이 적용됩니다).