概要
Watchdog はシステムおよびアプリケーション上の異常をプロアクティブに探します。そして、異常の発生状況、他のシステムへの影響、根本原因などの情報が Watchdog アラートエクスプローラーに表示されます。
Watchdog アラートの詳細
アラート概要カードには、以下の項目があります。
- Status: 異常は
ongoing
(進行中)、resolved
(解決済み)、expired
(期限切れ) のいずれかになります (48 時間以上継続中の異常は expired
です)。 - Timeline: 異常が発生した期間が記述されます。
- Message: 異常の内容が説明されます。
- Graph: 異常が視覚的に表現されます。
- Tags: 異常の範囲が表示されます。
- Impact (利用可能な場合): 異常がどのユーザー、ビュー、またはサービスに影響を及ぼすかが説明されます。
アラート概要カードの任意の場所をクリックすると、アラートの詳細ペインが表示されます。
アラート概要カードの情報を繰り返すだけでなく、Overview タブには、以下のフィールドを 1 つ以上含めることができます。
- Expected Bounds: Show expected bounds チェックボックスをクリックします。グラフの色が変わり、予想される動作と異常な動作が区別されます。
- Suggested Next Steps: 異常な動作の調査およびトリアージの手順が説明されます。
- Monitors: アラートに関連付けされたモニターがリストされます。表示されるモニターにはそれぞれ、現在のアラートのメトリクスとそのスコープに含まれる関連タグがあります。
さらに、Watchdog は異常が再発した際に通知するために作成可能な 1 つ以上のモニターを提案します。これらのモニターはまだ存在していないため、テーブルではその状態が suggested
として記載されています。Enable Monitor をクリックして、組織に提案されたモニターを有効にします。一連のアイコンがポップアップ表示され、新しいモニターを開く、編集する、複製する、ミュートする、または削除することができます。
Watchdog アラートエクスプローラー
Watchdog アラートフィードの絞り込みには、タイムレンジ、検索バー、ファセットを使用できます。
- タイムレンジ: 右上にあるタイムレンジセレクターを使用し、特定の時間範囲内で検出されたアラートを表示します。過去 6 か月までのアラートを表示できます。
- 検索バー: Filter alerts 検索ボックスにテキストを入力すると、アラートのタイトルを検索できます。
- ファセット: Watchdog アラートフィードの左側には、以下の検索ファセットがあります。対応するボックスにチェックを入れると、アラートをファセットで絞り込むことができます。
利用可能なファセット:
すべてのアラートグループ | 説明 |
---|
アラートカテゴリ | すべての apm 、infrastructure または logs アラートを表示。 |
アラートタイプ | APM やインフラストラクチャーインテグレーションのメトリクスを使用してアラートを選択します。 |
Alert Status | ステータス (ongoing (進行中)、resolved (解決済み)、expired (期限切れ)) に基づいてアラートを選択します。 |
APM プライマリタグ | 表示するアラートのある定義済み APM プライマリタグ。 |
環境 | 表示するアラートのある環境。env タグの詳細については、統合サービスタグ付けを参照してください。 |
サービス | 表示するアラートのあるサービス。service タグの詳細については、統合サービスタグ付けを参照してください。 |
End User Impacted | (要 RUM)。Watchdog が影響を受けるエンドユーザーを発見した場合。詳細については、影響分析を参照してください。 |
Root Cause | (要 APM)。Watchdog が異常または重大な障害の根本原因を発見した場合。詳細は根本原因分析を参照してください。 |
チーム | 影響を受けるサービスを担当するチーム。サービスカタログからリッチ化されます。 |
ログ異常の種類 | この種類のログ異常のみ表示します。サポートされている種類は、新しいログパターンと、既存のログパターンの増加です。 |
ログのソース | このソースからのログを含むアラートのみ表示します。 |
ログのステータス | このログステータスのログを含むアラートのみ表示します。 |
Watchdog アラートカバレッジ
Watchdog アラートは、複数のアプリケーションとインフラストラクチャーのメトリクスをカバーしています。
取り込まれたログはインテークレベルで分析され、Watchdog が検出したパターンと environment
、service
、source
、status
タグについて集計を行います。
これらの集計されたログは、以下のような異常な動作がないかスキャンされます。
- 警告またはエラーステータスを持つログの出現。
- 警告やエラーステータスのログの急増。
すべてのログ異常はログエクスプローラーにインサイトとして表示され、検索コンテキストとロールに適用された制限に一致します。
Watchdog が特に severe
(重大) と判断したログ異常は Watchdog アラートエクスプローラーに表示され、Watchdog ログモニター をセットアップすることでアラートを発することができます。
severe
(重大) な異常とは以下のように定義されます。
- エラーログが含まれている。
- 10 分以上続いている (一時的なエラーを除外するため)。
- 大幅に増加している (小幅な増加を除外するため)。
noise
スコアが低く設定されている (特定のサービスに対して過多なアラートを避けるため)。noise
スコアはサービスレベルで次のように計算されます。- エラーパターンの数を見る (多いほどノイズが多い)。
- パターンが互いにどれだけ近いかを計算する (近いほどノイズが多い)。
必要なデータ履歴
Watchdog は予想される動作のベースラインを確立するために、ある程度のデータが必要です。ログ異常に関しては、最低限必要な履歴は 24 時間です。
最低限の履歴が揃った後、Watchdog は異常を検出し始め、履歴が増えるほどに改善されます。最も良いパフォーマンスは 6 週間の履歴で得られます。
ログ異常検出を無効にする
ログ異常検出を無効にするには、ログ管理パイプラインページに移動し、Log Anomalies トグルをクリックします。
Watchdog はすべてのサービスとリソースをスキャンして、以下のメトリクスに異常がないか調べます。
Watchdog はほとんど使われていないエンドポイントやサービスを除外することで、ノイズを減らし、少ないトラフィックにおける異常の検出を避けます。また、ヒットレートに異常があってもレイテンシーやエラーレートに影響がなければ、その異常は無視されます。
必要なデータ履歴
Watchdog は予想される動作のベースラインを確立するために、ある程度のデータが必要です。メトリクス異常に関しては、最低限必要な履歴は 2 週間です。
最低限の履歴が揃った後、Watchdog は異常を検出し始め、履歴が増えるほどに改善されます。最も良いパフォーマンスは 6 週間の履歴で得られます。
Watchdog は、すべてのサービスとリソースをスキャンして、次のメトリクスに異常がないか調べます。
Watchdog は、ノイズを減らし、少量のトラフィックでの異常を回避するために、使用頻度の低いエンドポイントやサービスを除外します。また、ヒット率に異常が検出されても、レイテンシーやエラー率に影響がない場合は、その異常を無視します。
必要なデータ履歴
Watchdog は、期待される動作のベースラインを確立するためにデータを必要とします。メトリクス異常の場合、最低 2 週間のデータ履歴が必要です。
必要な履歴が揃った後、Watchdog は異常を検出し始め、履歴が増えるにつれて精度が向上します。最良のパフォーマンスは 6 週間の履歴で得られます。
Watchdog は、以下のインテグレーションからインフラストラクチャーメトリクスを収集します。
必要なデータ履歴
Watchdog は、期待される動作のベースラインを確立するためにある程度のデータを必要とします。メトリクス異常の場合、最低 2 週間のデータ履歴が必要です。
必要な履歴が揃った後、Watchdog は異常を検出し始め、履歴が増えるにつれて精度が向上します。最良のパフォーマンスは 6 週間の履歴で得られます。
カスタム異常検出
Watchdog は、モニターやダッシュボードと同じ季節的アルゴリズムを使用します。他のメトリクスで異常を検索したり、感度をカスタマイズするために、以下のアルゴリズムが利用可能です。
Watchdog Alert を確認する場所
Datadog 内で Watchdog アラートが表示される場所は以下の通りです。
APM ページ上の Watchdog の双眼鏡
Watchdog が APM メトリクスの異常を検出すると、APM サービスカタログの影響を受けたサービスの横にピンクの Watchdog 双眼鏡アイコンが表示されます。
{{< img src=“watchdog/service_list.png” alt=“サービスカタログのスクリーンショット、5 つのサービスが表示されています。Web ストアのサービス名の後にピンクの双眼鏡のアイコンが付いています。” style=“width:75%;” >}}
Watchdog Insights カルーセルでサービスページのトップに移動すると、メトリクス異常の詳細を見ることができます。
Watchdog のアイコンは、メトリクスグラフにも表示されます。
双眼鏡のアイコンをクリックすると、詳細情報が記載された Watchdog Alert カードが表示されます。
アーカイブされたアラートの管理
Watchdog Alert をアーカイブするには、サイドパネルを開き、右上のフォルダーアイコンをクリックします。アーカイブすると、エクスプローラーや Datadog の他の場所 (ホームページなど) からアラートが非表示になります。アラートがアーカイブされると、関連するサービスやリソースの横にピンクの Watchdog 双眼鏡アイコンは表示されなくなります。
アーカイブされたアラートを見るには、Watchdog Alert Explorer の左上にある Show N archived alerts チェックボックスオプションを選択します。このオプションは、少なくとも 1 つのアラートがアーカイブされている場合にのみ利用可能です。各アラートのアーカイブ日時やアーカイブしたユーザーを確認したり、アーカイブされたアラートをフィードに復元することができます。
注: アーカイブ後であっても、Watchdog はサービスやリソースに関連する問題にフラグを立てます。