- 필수 기능
- 시작하기
- Glossary
- 표준 속성
- Guides
- Agent
- 통합
- 개방형텔레메트리
- 개발자
- API
- Datadog Mobile App
- CoScreen
- Cloudcraft
- 앱 내
- 서비스 관리
- 인프라스트럭처
- 애플리케이션 성능
- APM
- Continuous Profiler
- 스팬 시각화
- 데이터 스트림 모니터링
- 데이터 작업 모니터링
- 디지털 경험
- 소프트웨어 제공
- 보안
- AI Observability
- 로그 관리
- 관리
Datadog 인시던트 관리는 메트릭, 트레이스, 로그에서 발견한 문제를 추적하고 이와 관련해 소통할 때 유용합니다.
이번 가이드에서는 Datadog 앱을 사용하여 인시던트를 선언하고 조사와 복구 진행에 맞추어 인시던트를 업데이트하는 방법, 인시던트가 해결되었을 때 사후 분석을 생성하는 방법을 알려드립니다. 이번 예시에서는 Slack 통합이 활성화되어 있다고 전제합니다.
시나리오: 모니터링 중 오류가 다수 발생하여 여러 서비스의 속도가 저하될 수 있다는 경고가 전송되었습니다. 고객이 오류의 영향을 받았는지는 알 수 없습니다.
이 안내서에서는 Datadog 클립보드를 사용하여 인시던트를 신고하는 방법에 대해 설명합니다. 클립보드를 사용하여 그래프, 모니터, 전체 대시보드 또는 노트북과 같은 다양한 소스에서 정보를 수집할 수 있습니다. 이렇게 하면 인시던트를 신고할 때 최대한 많은 정보를 제공할 수 있습니다.
타이틀 | 인시던트 타이틀은 팀에서 사용하는 명명 규칙에 따라서 설정합니다. 이번 사례는 실제 인시던트가 아니기 때문에 테스트 인시던트임이 명확하게 드러나도록 TEST 라는 단어를 포함해보겠습니다. 타이틀 예시: [TEST] My incident test |
심각도 수준 | 고객이 영향을 받고 있는지 여부 및 관련 서비스가 어떻게 영향을 받고 있는지 불분명하므로 Unknown으로 설정합니다. 인앱 설명을 통해 각 심각도 수준의 의미를 확인한 후 팀의 지침을 따르세요. |
인시던트 커맨더 | 할당된 대로 두시기 바랍니다. 실제 인시던트가 발생한 경우에는 인시던트 조사를 담당한 리더에게 할당됩니다. 인시던트 진행 상황에 맞추어 인시던트 커맨더를 갱신할 수 있습니다. |
알림 | 테스트이므로 다른 사용자나 다른 서비스에 알림을 주지 않기 위해 이 필드를 비워두세요. 실제 인시던트에서는 조사와 문제 해결을 위해 알림을 받아야 하는 사용자 및 서비스를 추가하세요. 이 알림은 Slack과 PagerDuty에도 전송할 수 있습니다. |
메모 및 링크 | 인시던트 신고 이유를 뒷받침하는 정보를 추가합니다. 그래프, 로그, 기타 주요 시각 자료를 추가할 수 있습니다. 선택한 그래프와 모니터가 이미 포함되어 있지만 추가 신호를 추가할 수 있습니다. 예를 들어 이 안내서의 URL을 복사하여 붙여 넣을 수 있습니다. |
/datadog incident
바로가기를 이용해 인시던트를 신고하고 타이틀, 중요도, 고객에 미치는 영향을 설정할 수도 있습니다.새로운 인시던트가 발생하면 해당 인시던트 전용의 신규 Slack 채널이 자동으로 생성됩니다. 이 채널을 사용해 팀과 커뮤니케이션을 집약적으로 진행하고 트러블슈팅을 시작할 수 있습니다. 소속 조직의 Slack 통합 구성이 글로벌 인시던트 채널을 업데이트하도록 설정된 경우에는 글로벌 채널에 새로운 인시던트가 업데이트됩니다.
이 예시에서는 사용자만 새 인시던트 채널에 추가됩니다. 실제 인시던트에 대해 _Notifications_에서 사용자 또는 서비스를 추가하면 모든 수신자가 인시던트 채널에 자동으로 추가됩니다.
Slack 통합을 활성화하지 않은 경우 Add Chat을 클릭하여 인시던트를 검토하기 위해 사용 중인 채팅 서비스에 링크를 추가합니다.
Add Video Call을 클릭하여 인시던트에 대한 검토가 진행 중인 통화에 링크를 추가합니다.
인시던트 페이지에는 Overview, Timeline, Remediation, _Notifications_의 4가지 주요 섹션이 있습니다. 인시던트가 진행됨에 따라 이 섹션을 업데이트하여 모든 사용자에게 현재 상태를 알려줍니다.
시나리오: 몇 가지 조사를 실시한 결과, 근본적인 원인은 호스트의 메모리 부족이라는 사실을 알 수 있었습니다. 또한 고객 일부가 영향을 받고 있으며 페이지를 불러오는 속도가 늦어지고 있다는 정보도 얻었습니다. 15분 전에 첫 번째 고객의 신고가 있었습니다. 인시던트 수준은 SEV-3입니다.
Overview 섹션에서는 조사의 진척에 따라 인시던트 필드와 고객에게 미친 영향을 업데이트할 수 있습니다.
중요도 수준과 근본 원인을 업데이트하는 방법은 다음과 같습니다.
TEST: Host is running out of memory.
/datadog incident update
명령어를 사용하면 타이틀, 중요도, 진행 중인 문제의 현황을 업데이트할 수 있습니다.고객에게 미치는 영향을 추가하려면:
TEST: Some customers seeing pages loading slowly.
_Timeline_은 인시던트 필드의 추가 사항, 변경 사항과 정보를 시계열로 보여줍니다.
I found the host causing the issue.
메모를 추가합니다.I am working on a fix.
라는 메시지를 게시합니다.인시던트 채널에서 Slack 코멘트를 타임라인에 추가해 인시던트 조사 및 완화와 관련한 중요한 소통 내역을 한 곳에 모아서 볼 수 있습니다.
시나리오: 이러한 문제를 다루는 방법에 대한 노트북이 있으며, 문제 해결을 위해 수행해야 하는 작업이 포함되어 있습니다.
Remediation 섹션에서는 문제 조사나 인시던트 이후 복원 업무를 위한 문서와 업무를 추적할 수 있습니다.
+
을 클릭하고 Datadog 노트북에 링크를 추가합니다. Documents 섹션과 관련한 모든 업데이트는 Incident Update 유형으로 타임라인에 추가됩니다.Run the steps in the notebook.
).시나리오: 문제가 완화되고 팀이 상황을 모니터링 중입니다. 인시던트 상황이 안정적입니다.
_Notifications_섹션에서 인시던트 상태를 업데이트하는 알림을 발송할 수 있습니다.
시나리오: 문제가 더 이상 고객에게 영향을 미치지 않으며 문제가 해결되었다는 사실이 확정되었습니다. 팀은 사후 분석을 통해 문제 원인을 파악하고자 합니다.
사후 분석은 Datadog Notebook으로 생성되며 조사 및 복구 시 참조한 타임라인 이벤트와 리소스가 포함됩니다. 이를 통해 문제의 원인과 향후 예방 방법을 쉽게 확인하고 문서화할 수 있습니다. Datadog Notebook은 라이브 협업을 지원하기 때문에 실시간으로 팀원과 공동 편집할 수 있습니다.
문제 재발 방지를 위해 완료해야 하는 후속 작업이 있는 경우 이를 추가하고 Remediation의 Incident Tasks 섹션에서 추적하세요.
Datadog Incident Management에서는 조직의 니즈에 따라 다양한 중요도와 상태 수준을 맞춤 설정할 수 있습니다. 인시던트와 관련된 APM 서비스와 팀을 비롯하여 추가 정보 역시 포함할 수 있습니다. 자세한 정보는 Incident Management 페이지의 해당 섹션을 참고하세요.
또한 알림 규칙을 설정하여 인시던트의 심각도를 기준으로 특정 사용자나 서비스에 대해 자동으로 알릴 수 있습니다. 자세한 내용은 인시던트 설정 설명서를 참고하세요.
인시던트 관리를 사용자 지정하려면 인시던트 설정 페이지로 이동하고 왼쪽의 Datadog 메뉴에서 Monitors > Incidents로 이동합니다(인시던트 관리 시작 화면이 나타나면 Get Started 클릭). 그런 다음 상단에서 Settings를 클릭합니다.
Apple App Store와 Google Play Store에서 다운로드할 수 있는 Datadog 모바일 앱을 사용하면 노트북을 열지 않고도 Datadog 계정으로 액세스할 수 있는 모든 인시던트를 생성, 조회, 검색 및 필터링하여 문제에 대해 신속하게 대응하고 해결할 수 있습니다.
또한, 인시던트를 신고하고 편집할 수 있으며 Slack, Zoom 등과 통합하여 빠르게 팀원과 소통할 수도 있습니다.