모니터 설정

개요

모니터 설정을 시작하려면 다음을 완료합니다:

  • 검색 쿼리를 정의합니다. 이벤트 수를 세고, 메트릭을 측정하고, 1차원 또는 여러 차원으로 그룹화하는 등의 쿼리를 설정합니다.
  • 알림 조건을 설정합니다: 알림 및 경고 임계값, 평가 시간 프레임을 정의하고 고급 알림 옵션을 설정합니다.
  • 무슨 일이 일어나고 있는지 알려줍니다: 변수를 사용하여 커스텀 알림 제목과 메시지를 작성합니다.
  • 팀에 알립니다: 팀에 알림을 전송하는 방법을 선택합니다(이메일, Slack, PagerDuty 등).

검색 쿼리 정의

검색 쿼리를 설정하는 방법은 개별 모니터 유형 페이지를 참조하세요. 검색 쿼리를 정의하면 검색 필드 위의 미리보기 그래프가 업데이트됩니다.

경고 조건 설정

경고 조건은 모니터 유형에 따라 달라집니다. 쿼리 값이 임계값을 넘거나 특정 개수의 연속적인 검사에 실패할 경우 트리거하도록 모니터를 설정합니다.

  • 메트릭의 average, max, min 또는 sum
  • 임계값에 대해 above, above or equal to, below 또는 below or equal to일 때 트리거합니다.
  • 지난 5 minutes, 15 minutes, 1 hour 또는 custom에 1분에서 48시간 사이의 (메트릭 모니터는 1개월) 값을 설정합니다.

집계 방법

쿼리는 일련의 포인트를 반환하지만 임계값과 비교하려면 단일 값이 필요합니다. 모니터는 평가 창의 데이터를 단일 값으로 줄여야 합니다.

옵션설명
평균이 시리즈는 임계값을 기준으로 확인되는 단일 값을 생성하기 위해 평균화됩니다. 이 값은 모니터 쿼리에 avg() 함수를 추가합니다.
최대생성된 시리즈의 단일 값이 임계값을 넘으면 경고가 트리거되며 모니터 쿼리에 max() 함수를 추가합니다.*
최소쿼리에 대한 평가 창의 모든 포인트가 임계값을 넘으면 경고가 트리거되며 모니터 쿼리에 min()함수를 추가합니다.*
시리즈의 모든 포인트의 합계가 임계값을 넘으면 경고가 트리거됩니다. 이는 모니터 쿼리에 sum() 함수를 추가합니다.

* 최대와 최소에 대한 설명은 메트릭이 임계값보다 _초과_할 때 모니터가 경고를 한다고 가정합니다. 임계값이 _미만_일 때 경고하는 모니터의 경우 최대와 최소 동작이 반대가 됩니다.

참고: as_count() 사용 시 동작이 다릅니다. 자세한 내용은 [모니터 평가에서의 as_count()를 참조하세요.

평가 창

누적 시간 창 또는 롤링 시간 창을 사용하여 모니터를 평가할 수 있습니다. 누적 시간 창은 “이 시점까지 사용 가능한 모든 데이터의 합계가 얼마인가요?“와 같이 과거에 대한 맥락이 필요한 질문에 가장 적합합니다. 롤링 시간 창은 “마지막 N 데이터 포인트의 평균은 얼마인가요?“와 같이 이러한 맥락이 필요하지 않은 질문에 적합합니다.

아래 값은 누적 시간과 롤링 시간 창의 차이를 보여줍니다.

누적 시간과 롤링 시간 창을 보여주는 두 개의 그래프입니다. 누적 시간 창은 시간이 지남에 따라 계속 확장됩니다. 롤링 시간 창은 특정 시점의 특정 순간을 포함합니다.

롤링 시간 창

롤링 시간 창은 고정된 크기를 가지며, 시간이 지남에 따라 시작점이 이동합니다. 모니터는 지난 5 minutes, 15 minutes, 1 hour 또는 커스텀 특정 시간 창을 통해 찾아볼 수 있도록 지원합니다.

누적 시간 창

누적 시간 창은 시작점이 고정되어 있고 시간이 지남에 따라 확장됩니다. 모니터는 세 가지 다른 누적 시간 창을 지원합니다.

  • Current hour: 1시간의 구성 가능한 분에서 시작하는 최대 1시간의 시간 창입니다. 예를 들어 0분부터 시작하여 1시간 동안 HTTP 엔드포인트가 수신하는 호출의 양을 모니터링할 수 있습니다.

  • Current day: 하루 중 설정 가능한 시간과 분으로 시작하는 최대 24시간의 시간 창입니다. 예를 들어, current day시간 창을 사용하고 오후 2시(UTC)에 시작하도록 하여 일별 로그 인덱스 할당량을 모니터링합니다.

  • Current month: 매월 1일 자정(UTC)을 기준으로 현재 월을 되돌아봅니다. 이 옵션은 월별 누계 시간 창을 나타내며 메트릭 모니터에서만 사용할 수 있습니다.

    Datadog 인터페이스에서 누적 창을 구성하는 방법을 보여주는 스크린샷입니다. 사용자가 aws.sqs.number_of_messages_received를 검색했습니다. 옵션은 현재 월에 대한 쿼리의 합계를 평가하도록 설정되어 있습니다.

누적 시간 창은 최대 시간 스팬(span)에 도달한 후 재설정됩니다. 예를 들어, current month 누적 시간 창은 매월 1일 자정(UTC)에 자동으로 초기화됩니다. 또는 분 30부터 시작하는 current hour의 누적 시간 창은 매 시간마다 자동으로 재설정됩니다. 예를 들어 오전 6시 30분, 오전 7시 30분, 오전 8시 30분입니다.

평가 빈도

평가 빈도는 Datadog이 모니터 쿼리를 수행하는 빈도를 정의하며, 대부분 설정에서 평가 빈도는 1 minute입니다. 즉, 모니터는 매 분마다 선택된 평가 창을 통해 선택된 데이터를 쿼리하고 집계된 값을 정의된 임계값과 비교합니다.

기본적으로 평가 빈도는 사용되는 평가 창에 따라 달라집니다. 창이 길수록 평가 빈도가 줄어듭니다. 다음 표는 더 큰 시간 창에서 평가 빈도를 제어하는 방법을 보여줍니다:

평가 창 범위평가 빈도
창 < 24 시간1분
24 시간 <= 창 < 48 hours10분
창 >= 48시간30분

일, 주, 또는 월 단위로 모니터의 경고 상태를 확인하도록 평가 빈도를 설정할 수도 있습니다. 이 설정에서 평가 빈도는 더 이상 평가 창에 의존하지 않고 설정된 스케줄에 따라 달라집니다.

자세한 내용은 모니터 평가 빈도 사용자 정의 방법에 대한 안내를 참조하세요.

임계값

임계값을 사용하여 경고를 트리거하기 위한 숫자 값을 설정합니다. 선택한 메트릭에 따라 편집기에 사용된 단위(byte, kibibyte, gibibyte 등)가 표시됩니다.

Datadog에는 두 가지 유형의 알림(알림 및 경고)이 있습니다. 모니터는 알림 또는 경고 임계값을 기반으로 자동 복구되지만 추가 조건을 지정할 수 있습니다. 복구 임계값에 대한 자세한 내용은 복구 임계값이란?을 참조하세요. 예를 들어 메트릭이 3보다 초과되고 복구 임계값이 지정되지 않았을 때 모니터가 알리는 경우 메트릭 값이 3 아래로 떨어지면 모니터가 복구됩니다.

옵션설명
Alert threshold (필수)경고 알림을 트리거하는 데 사용되는 값.
Warning threshold경고 알림을 트리거하는 데 사용되는 값.
Alert recovery threshold경고 복구에 대한 추가 조건을 나타내는 임계값(선택 사항).
Warning recovery threshold경고 복구에 대한 추가 조건을 나타내는 임계값(선택 사항).

임계값을 변경하면 편집기의 미리보기 그래프에 컷오프 지점을 나타내는 마커가 표시됩니다.

임계값 미리보기 그래프

참고: 임계값의 10진수 값을 입력할 때 값이 <1이라면 숫자에 선행 문자 0을 추가합니다. 예를 들어, .5가 아닌 0.5을 사용합니다.

검사 알림은 검사 그룹별로 제출된 연속 상태를 추적하여 임계값과 비교합니다. 검사 알림은 다음과 같이 설정합니다:

  1. 선택 후 연속 실패가 발생하면 알림을 트리거합니다: <NUMBER>

    각 검사 실행은 OK, WARN 또는 CRITICAL의 단일 상태를 제출합니다. WARNCRITICAL 상태로 연속 실행할 횟수를 선택하여 알림을 트리거합니다. 예를 들어, 프로세스에 연결이 실패한 단일 오류가 있을 수 있습니다. 이 값을 > 1로 설정하면 해당 오류는 무시되지만 두 번 이상 연속으로 실패할 경우 알림을 트리거합니다.

    임계값 알림/경고 확인
  2. 선택한 연속 성공 후 경고 해결: <NUMBER>

    OK 상태에서 알림을 해결하는 연속 실행 횟수를 선택합니다.

    임계값 복구 확인

검사 알림 설정에 대한 자세한 내용은 프로세스 검사, 통합 검사커스텀 검사 모니터 설명서를 참조하세요.

고급 알림 조건

데이터 없음

누락된 데이터에 대한 알림은 메트릭이 일반적인 상황에서 항상 데이터를 보고할 것으로 예상하는 경우 유용합니다. 예를 들어 Agent가 있는 호스트가 계속해서 가동 중이어야 하는 경우 system.cpu.idle 메트릭이 항상 데이터를 보고할 것으로 예상할 수 있습니다.

이러한 경우 누락된 데이터에 대한 알림을 활성화해야 합니다. 아래 섹션에서 각 옵션을 사용하여 수행하는 방법에 대해 알아보세요.

참고: 누락된 데이터에 대해 경고하기 전에 모니터가 데이터를 평가할 수 있어야 합니다. 예를 들어, service:abc에 대한 모니터와 service가 보고하지 않는 데이터를 생성할 때 모니터가 알림을 보내지 않습니다.

누락된 데이터를 처리하는 두 가지 방법이 있습니다:

  • 제한된 Notify no data 옵션을 사용하는 메트릭 기반 모니터
  • On missing data 옵션은 APM 트레이스 분석, 감사(Audit) 로그, CI 파이프라인, 오류 추적, 이벤트, 로그, RUM 모니터에서 지원됩니다.

데이터가 누락된 경우 Do not notify하거나 데이터가 N분 이상 누락된 경우 Notify합니다.

데이터가 누락되었거나 데이터가 누락되지 않은 경우 알림이 나타납니다. 설정된 시간 동안 데이터가 수신되지 않은 경우 알림이 발생합니다.

참고: 누락된 데이터 창은 최소한 평가 기간의 2배로 설정하는 것을 권장합니다.

자동으로 중지 및 시작되는 호스트의 오토스케일링 그룹에 대한 메트릭을 모니터링할 때 데이터가 없는 경우 알림을 많이 생성합니다.

이 경우 누락된 데이터에 대한 알림을 실행해서는 안 됩니다. 이 옵션은 데이터가 오랫동안 보고되지 않은 시점에서 실행된 경우에는 작동하지 않습니다.

단순 경고

누락된 데이터에 대해 알리지 않는 모니터의 경우, 모니터는 평가를 건너뛰고 상태가 OK에서 변경되는 데이터가 반환될 때까지 녹색으로 유지됩니다.

다중 경고

누락된 데이터에 대해 알리지 않는 모니터의 경우 그룹이 데이터를 보고하지 않으면 모니터는 평가를 건너뛰고 그룹을 삭제합니다. 이 기간 동안 결과 페이지의 막대는 녹색으로 유지됩니다. 데이터가 있고 그룹이 다시 보고를 시작하면 녹색 막대는 OK 상태를 표시하고 중단이 없었던 것처럼 보이도록 다시 채웁니다.

데이터가 N분 동안 누락된 경우 드롭다운 메뉴에서 옵션을 선택합니다:

데이터 옵션 없음
  • Evaluate as zero / Show last known status
  • Show NO DATA
  • Show NO DATA and notify
  • Show OK.

선택한 동작은 모니터의 쿼리가 데이터를 반환하지 않을 때 적용됩니다. Do not notify 옵션과 달리 누락된 데이터 창은 설정할 수 없습니다.

옵션모니터 상태 & 알림
Evaluate as zero비어 있는 결과는 0으로 대체되고 알림/경고 임계값과 비교됩니다. 예를 들어, 경고 임계값이 > 10로 설정되어 있으면 0은 해당 조건을 트리거하지 않으며 모니터 상태는 OK로 설정됩니다.
Show last known status그룹 또는 모니터의 마지막으로 알려진 상태가 설정됩니다.
Show NO DATA모니터 상태가 NO DATA로 설정됩니다.
Show NO DATA and notify모니터 상태가 NO DATA로 설정되고 알림이 발송됩니다.
Show OK모니터가 해결되고 상태가 OK로 설정됩니다.

Evaluate as zeroShow last known status 옵션은 쿼리 유형에 따라 표시됩니다:

  • 0으로 평가: default_zero() 함수 없이 Count 쿼리를 사용하는 모니터라면 이 옵션을 사용할 수 있습니다.
  • 마지막으로 알려진 상태 표시: 이 옵션은 Gauge, Rate, Distribution와 같은 Count 이외의 다른 쿼리 유형을 사용하는 모니터와 default_zero()이 포함된 Count 쿼리에 사용할 수 있습니다.

자동 해결

[Never], After 1 hour, After 2 hours 등은 트리거된 상태에서 이 이벤트를 자동으로 해결합니다.

자동 해결은 데이터가 더 이상 제출되지 않을 때 작동합니다. 데이터가 계속 보고되고 있는 경우에는 모니터가 경고 ALERT 또는 WARN 상태에서 자동 해결되지 않습니다. 데이터가 계속 제출되고 있는 경우에는 다시 알림 기능을 사용하여 문제가 해결되지 않았을 때 팀에 알릴 수 있습니다.

주기적으로 보고하는 일부 메트릭의 경우 트리거된 경고가 일정 시간이 경과한 후 자동 해결되는 것이 합리적일 수 있습니다. 예를 들어 오류가 기록될 때만 보고하는 카운터가 있는 경우 메트릭이 오류 수로 0을 절대 보고하지 않기 때문에 경고를 해결할 수 없습니다. 이러한 경우 메트릭에서 일정 시간 동안 활동이 없으면 해결하도록 알림을 설정하세요. 참고: 모니터가 자동 해결되고 다음 평가에서 쿼리 값이 복구 임계값을 충족하지 못하면 모니터가 다시 알림을 트리거합니다.

대부분의 경우 이 설정은 알림이 실제로 수정된 후에만 해결되기를 원하므로 유용하지 않습니다. 따라서 일반적으로 메트릭이 설정된 임계값보다 높거나 낮을 때만 알림이 해결되도록 이 설정을 [Never]로 두는 것이 좋습니다.

그룹 유지 시간

데이터가 누락된 후 N 시간이 지나면 모니터 상태에서 그룹을 삭제할 수 있습니다. 시간 길이는 최소 1시간에서 최대 72시간이 될 수 있습니다.

그룹 유지 시간 옵션

자동-해결 옵션과 유사하게 데이터가 더 이상 제출되지 않을 때 그룹 유지가 작동합니다. 이 옵션은 데이터 보고가 중지된 후 그룹이 모니터의 상태로 유지되는 기간을 제어합니다. 기본적으로 그룹은 삭제되기 전까지 24시간 동안 상태를 유지합니다. 모니터 쿼리가 데이터를 반환하지 않는 즉시 그룹 유지와 자동 해결 옵션 시작 시간은 동일합니다.

그룹 유지 시간을 정의하기 위한 몇 가지 사용 사례는 다음과 같습니다:

  • 데이터 보고가 중단된 직후 또는 즉시 그룹을 삭제하려는 경우
  • 트러블슈팅에 걸리는 시간만큼 그룹을 해당 상태로 유지하려는 경우

참고: 그룹 유지 시간 옵션에는 On missing data 옵션을 지원하는 다중 알림 모니터가 필요합니다. 이러한 모니터 유형은 애플리케이션 성능 모니터링(APM) 트레이스 분석, 감사(Audit) 로그, CI 파이프라인, 오류 추적, 이벤트, 로그 및 RUM 모니터입니다.

새 그룹 지연

새 그룹에 대해 평가 시작을 N초 단위로 지연합니다.

새로 만든 그룹이 부팅되고 애플리케이션이 완전히 시작될 수 있도록 알림을 시작하기 전에 대기할 시간(초)입니다. 음수가 아닌 정수여야 합니다.

예를 들어 컨테이너화된 아키텍처를 사용하는 경우 그룹 지연을 설정하면 새 컨테이너가 생성될 때 리소스 사용량이 많거나 대기 시간이 길어져 컨테이너 범위의 모니터 그룹이 트리거되지 않습니다. 지연 시간은 지난 24시간 동안 표시되지 않은 모든 새 그룹에 적용되며 기본값은 60초입니다.

이 옵션은 다중 알림 모드에서 사용할 수 있습니다.

평가 지연

Datadog은 서비스 공급자에 의해 다시 채워지는 클라우드 메트릭의 경우 15분 지연을 권장합니다. 또한 나눗셈 공식을 사용할 경우 60초 지연은 모니터가 완전한 값을 평가할 수 있도록 하는 데 도움이 됩니다. 예상 지연 시간은 클라우드 메트릭 지연 페이지를 참조하세요.

평가를 N초 단위로 지연합니다.

평가를 지연하는 시간(초)입니다. 이 값은 음수가 아닌 정수여야 합니다. 따라서 지연을 900초(15분)로 설정하면 모니터 평가가 마지막 5 minutes이고 시간이 7시이면 6시 40분부터 6시 45분까지의 데이터를 모니터가 평가합니다. 최대 설정 가능한 평가 지연은 86400초(24시간)입니다.

팀에 알리기

가장 관심 있는 정보를 포함하도록 알림 메시지를 설정합니다. 이러한 알림을 보낼 팀과 알림을 트리거할 속성을 지정합니다.

메시지

이 섹션을 통해 팀에 대한 알림을 설정하고 전송하는 방법을 설정합니다:

알림 메시지 설정 옵션에 대한 자세한 내용은 경고 알림을 참조하세요.

경고 그룹화

쿼리를 정의할 때 선택한 group by 단계에 따라 자동으로 경고가 그룹화됩니다. 쿼리에 그룹화가 없으면 기본값은 Simple Alert로 설정됩니다. 쿼리가 차원별로 그룹화된 경우 그룹화는 Multi Alert로 변경됩니다.

모니터 알림 집계를 위한 설정 옵션

단순 경고

Simple Alert모드는 모든 보고 소스를 집계하여 알림을 트리거합니다. 집계된 값이 설정된 조건을 충족하면 1개의 알림을 받게 됩니다. 예를 들어, 모든 서버의 평균 CPU 사용량이 특정 임계값을 초과할 경우 이를 알리도록 모니터를 설정할 수 있습니다. 이 임계값을 충족하면 임계값을 충족한 개별 서버의 수에 관계없이 단일 알림을 받게 됩니다. 이는 광범위한 시스템 추세나 동작을 모니터링하는 데 유용할 수 있습니다.

단순 경고 모드에서 모니터 알림이 어떻게 전송되는지 보여주는 다이어그램

다중 경고

Multi Alert 모니터는 알림 임계값을 충족하는 모니터에서 각 엔티티에 대한 개별 알림을 트리거합니다.

다중 경고 모드에서 모니터가 어떻게 전송되는지 보여주는 다이어그램

예를 들어, 서비스별로 집계된 P99 지연 시간이 특정 임계값을 초과할 경우 이를 알리도록 모니터를 설정하면 P99 지연 시간이 경고 임계값을 초과하는 각 개별 서비스에 대해 별도의 경고가 표시됩니다. 이를 통해 시스템 또는 애플리케이션 문제의 특정 인스턴스를 식별하고 해결하는 데 유용할 수 있으며, 보다 세분화된 수준에서 문제를 추적할 수 있습니다.

큰 규모의 엔티티 그룹을 모니터링할 때 다중 경고로 인해 모니터에서 노이즈가 발생할 수 있습니다. 이를 완화하려면 경고를 트리거하는 측정기준을 맞춤설정하세요. 그러면 노이즈가 감소하고 가장 중요한 경고에 집중할 수 있습니다. 예를 들어 모든 호스트의 평균 CPU 사용량을 모니터링하고 있습니다. 쿼리를 servicehost으로 그룹화하고 임계값을 충족하는 각 service 속성에 대해 경고를 한 번만 보내도록 하려면 다중 경고 옵션에서 host 속성을 제거하고 보내는 알림의 수를 줄입니다.

다중 알림에서 특정 차원으로 설정된 경우 알림이 어떻게 전송되는지 보여주는 다이어그램

Multi Alert 모드에서 알림을 집계할 때 집계되지 않은 차원은 UI에서 Sub Groups가 됩니다.

참고: 메트릭이 service 태그 없이 host만 보고만 하는 경우 모니터에서 감지되지 않습니다. 두 개 hostservice태그가 모두 있는 메트릭은 모니터에서 감지됩니다.

쿼리에서 태그 또는 크기를 설정하는 경우 다중 알림에서 평가된 모든 그룹에서 이러한 값을 사용하여 유용한 컨텍스트로 알림을 동적으로 채울 수 있습니다. 알림 메시지에서 태그 값을 참조하는 방법은 속성 및 태그 변수를 참조하세요.

그룹화 기준단순 경고 모드다중 경고 모드
(everything)하나의 단일 그룹이 하나의 알림을 트리거함N/A
1 or more dimensions하나 이상의 그룹이 경고 조건을 충족하는 경우 하나의 알림알림 조건을 충족하는 그룹당 하나의 알림

메타데이터 추가

모니터 태그는 Agent나 통합에서 보낸 태그와는 독립적입니다. 모니터 관리 설명서를 참조하세요.
  1. Tags 드롭다운을 사용하여 태그를 모니터에 연결합니다.
  2. Teams 드롭다운을 사용하여 을 모니터에 연결합니다.
  3. Priority를 선택합니다.

참고 자료

PREVIEWING: rtrieu/product-analytics-ui-changes