잘못된 배포 자동 탐지

개요

자동 결함 배포 감지 기능은 결함 코드 배포를 단 몇 분 안에 찾아 내어 평균 감지 시간(MTTD)을 단축합니다. 코드가 배포될 때마다 Watchdog은 새 코드 버전의 성능을 이전 버전과 비교하여 배포에 나타난 신규 유형 오류나 오류율 증가를 파악합니다. Watchdog이 새로운 배포에 결함이 있다고 판단하면 영향을 받는 서비스에 대한 상세 정보가 APM 서비스 페이지와 영향을 받는 엔드포인트의 리소스 페이지에 표시됩니다.

Watchdog이 현재 활성화된 버전에 결함이 있음을 발견하면 아래 스크린샷과 같이 서비스 상세 페이지 상단에 분홍색 배너로 표시됩니다. 서비스의 배포 기록을 제공하는 화면 하단의 배포 테이블에 과거에 Watchdog에서 결함이 있는 것으로 발견된 버전도 표시됩니다.

상단에는 핑크색 배너가, 하단에는 배포 테이블이 표시된 APM 서비스 페이지

배너에서 View Details을 클릭해 측면 패널을 열면 잘못된 배포에 관한 추가 정보를 확인할 수 있습니다. 이 보기에서 다음 사항을 포함해 잘못된 배포에 관한 상세 정보를 볼 수 있습니다.

  • 오류율 증가 그래프
  • 새롭게 감지된 오류의 오류 유형
  • 영향을 받은 엔드포인트
  • HTTP 상태 코드

이 보기는 배포 테이블에 있는 버전을 하나 클릭해 확인할 수도 있습니다. 아래 스크린샷은 상세 보기의 예시입니다. 여기에서 db.utils.OperationalError 오류 유형이 /inventory 엔드포인트에 영향을 주고 있고, HTTP 상태 코드가 (500)인 것을 알 수 있습니다.

결함 배포 추적 상세 정보 패널

결함 배포가 감지될 때마다 Watchdog은 이를 Event Explorer에 이벤트로 추가합니다. 이러한 이벤트에 대해 자동으로 알림을 받도록 모니터를 설정할 수 있습니다. 이렇게 하려면 New Monitors 페이지로 이동하여 Events를 선택하고 모니터를 정의하는 검색 쿼리에 tags:deployment_analysis를 포함하세요.

Suggested Monitors 버튼을 클릭한 다음 Enable를 클릭하여 모니터를 활성화할 수도 있습니다. Suggested Monitors 버튼은 서비스에 모니터가 아직 구성되지 않은 경우에만 사용할 수 있습니다. 해당 버튼을 사용할 수 없는 경우에는 위의 지침에 따라 New Monitors 페이지에서 모니터를 생성하세요.

각 배포는 반복적으로 분석됩니다. 동일한 결함 배포에 대한 재경고를 방지하기 위해 Datadog는 모니터의 복구 시간을 60분으로 설정할 것을 권장합니다.

제안 모니터링 버튼이 있는 APM 서비스 페이지

오류가 있는데도 새 배포에 결함이 있다고 표시되지 않은 이유는 무엇인가요?

Watchdog에서는 새 배포에 오류 원인이 있는지 확인합니다. 그러나 다음과 같은 이유가 복합적으로 작용하면 오류가 없다고 판단할 수 있습니다.

  • 오류 유형이 새롭지 않습니다. 이전 버전이나 최근 배포에 같은 유형의 오류가 있습니다.
  • 해당 유형의 오류가 심각하지 않고 일시적이며, 새 버전이 그대로 유지되더라도 시간이 지나면 사라집니다.
  • Watchdog에 이전 배포에 대한 기록이 충분하지 않아 기준선을 분석할 수 없습니다.
  • 새 버전의 오류율이 이전 버전에 비해 그렇게 높은 수준이 아닙니다.
  • 해당 오류 패턴이 새 코드 버전에 결함이 없더라도 나타날 수 있는, 서비스 배포 중 나타나는 일반적인 현상입니다.
PREVIEWING: safchain/fix-custom-agent