概要
インシデントの調査には、試行錯誤が必要です。特定の分野に精通したエンジニアは、その経験をもとに、まずどこに潜在的な問題があるのかを知っています。Watchdog Insights を使うことで、経験の浅いエンジニアも含め、すべてのエンジニアが最も重要なデータに注意を払い、インシデント調査を加速させることができます。
Datadog の大半を通して、Watchdog は以下の 2 種類のインサイトを返します。
- 異常: Watchdog が組織のデータをスキャンして見つけた、アクティブな検索クエリに一致するすべての事前計算された Watchdog アラート。Watchdog アラートエクスプローラーで全リストにアクセスできます。
- Outliers: Tags that appear too frequently in some event types (for example, errors) or drive some continuous metrics upwards (for example, latency). Outliers are dynamically calculated on the data matching the active query and the time frame.
インサイトの確認
Watchdog Insights のカルーセルは、以下の製品ページの上部付近にあります。
カルーセルを展開すると、概要が表示されます。最も優先度の高いインサイト (Insight type
、State
、Status
、Start time
、Anomaly type
に基づく) が左側に表示されます。
View all をクリックするとパネルが展開されます。右側からサイドパネルが開き、Watchdog Insights の垂直リストが表示されます。各エントリには詳細表示があり、サマリーカードより多くの情報が表示されます。
すべての外れ値には、インタラクションが埋め込まれ、トラブルシューティング情報が記載されたサイドパネルが付属しています。各インサイトのインタラクションとサイドパネルは、Watchdog Insights タイプによって異なります。
Filter on Insight クエリ
To refine your current view to match a Watchdog Insight, hover over the top right corner of an Insight summary card. Two icons appear. Click on the inverted triangle icon with the tooltip Filter on Insight. The page refreshes to show a list of entries corresponding to the insight.
Note: Filtering on Watchdog Insights automatically changes the scope you’re looking at. As a result, if you select an outlier insight, it is no longer visible, as it is treated as the baseline.
Share an outlier
To share a given outlier, click on it in the insight panel to open the details side panel. Click the Copy Link button at the top of the details panel:
The link to the outlier expires with the retention of the underlying data. For instance, if the logs used to build the outlier are retained for 15 days, the link to the outlier expires with the logs after 15 days.
Explore graph insights with Watchdog explains
Datadog collects various types of data to provide insights into application performance, including metrics, traces, and logs, which tell you what, how, and why something is happening. Watchdog Explains analyzes high-level trends such as latency, error rates, or request count evolution to detect critical signals. Upon observing a spike in these graphs, Watchdog Explains helps you investigate the immediate questions:
- What is the source of the spike?
- Does this anomaly affect everyone or is an isolated incident?
For more information, see the Watchdog Explains documentation.
外れ値タイプ
エラー外れ値
エラー外れ値は、現在のクエリに一致するエラーの特性を含むファセットタグまたは属性などのフィールドを表示します。エラー間で統計的に過大評価されている key:value
ペアは、問題の根本原因へのヒントになります。
典型的なエラー外れ値の例として、env:staging
、docker_image:acme:3.1
、http.useragent_details.browser.family:curl
が挙げられます。
バナーカードビューでは、次のことがわかります。
- フィールド名
- フィールドが寄与するエラーと全体的なログの割合
フルサイドパネルビューでは、次のことがわかります。
- フィールドを含むエラーログの時系列
- エラーログに関連付けられることが多いタグ
- ログパターンの包括的なリスト
APM の外れ値は、Watchdog Insights カルーセルが利用可能なすべての APM ページで利用できます。
エラー外れ値
エラー外れ値は、現在のクエリに一致するエラーの特性を含むタグなどのフィールドを表示します。エラー間で統計的に過大評価されている key:value
ペアは、問題の根本原因へのヒントになります。
典型的なエラー外れ値には、env:staging
、availability_zone:us-east-1a
、cluster_name:chinook
、version:v123456
などがあります。
バナーカードビューでは、次のことがわかります。
- フィールド名
- フィールドが寄与するエラーと全体的なトレースの割合
フルサイドパネルビューでは、次のことがわかります。
- フィールドを含むエラートレースの時系列
- エラートレースに関連付けられることが多いタグ
- 関連するエラー追跡の問題と失敗スパンの包括的なリスト
レイテンシー外れ値
レイテンシー外れ値は、現在の検索クエリに一致する、パフォーマンスのボトルネックに関連付けられているタグなどのフィールドを表示します。ベースラインよりもパフォーマンスが悪い key:value
ペアは、APM スパンのサブセット間のパフォーマンスのボトルネックへのヒントになります。
レイテンシー外れ値は、スパン期間に対して計算されます。
バナーカードビューでは、次のことがわかります。
フルサイドパネルでは、タグとベースラインのレイテンシー分布グラフを見ることができます。X 軸には p50
、p75
、p99
、max
の増分と、フィールドを含む APM イベントのリストが表示されます。
Lock contention outlier
バナーカードビューでは、次のことがわかります。
- 影響を受けるサービスの名前
- 影響を受けるスレッドの数
- 潜在的な CPU の節約 (および推定コスト節約)
In the full side panel, you can see instructions on how to resolve the lock contention:
ガベージコレクション外れ値
バナーカードビューでは、次のことがわかります。
- 影響を受けるサービスの名前
- The amount of CPU time used to perform garbage collection
フルサイドパネルでは、ガベージコレクションをより適切に構成して CPU 時間を解放する方法を確認できます。
正規表現コンパイル外れ値
バナーカードビューでは、次のことがわかります。
- 影響を受けるサービスの名前
- The amount of CPU time spent on compiling regexes
フルサイドパネルでは、正規表現のコンパイル時間を改善する方法や、コード内で改善できる関数の例を確認できます。
Database Monitoring では、Watchdog は以下のメトリクスに関するインサイトを表面化します。
CPU
Commits
IO
Background
Concurrency
Idle
インサイトカルーセルを使用して、1 つまたは複数の外れ値の影響を受けたデータベースを発見します。
そして、データベースにオーバーレイが設定され、さまざまなインサイトをハイライトするピンクの錠剤が表示され、何が起こったかを詳細に確認することができます。
エラー外れ値
エラー外れ値は、現在の検索クエリに一致するエラーの特徴を含むファセット化されたタグまたは属性のようなフィールドを表示します。エラーの中で統計的に多く出現する key:value
のペアは、問題の根本的な原因を探るヒントを与えてくれます。エラーの外れ値の典型的な例としては、env:staging
や version:1234
、browser.name:Chrome
などがあります。
バナーカードビューでは、次のことがわかります。
- フィールド名
- フィールドが寄与する総エラーと全体的な RUM イベントの割合
- 関連タグ
フルサイドパネルでは、そのフィールドを含む RUM エラーの総数に関する時系列グラフと、影響度を示す円グラフおよびそのフィールドを含む RUM イベントのリストが表示されます。
レイテンシー外れ値
レイテンシー外れ値は、現在の検索クエリに一致する、パフォーマンスのボトルネックに関連付けられているファセットタグまたは属性などのフィールドを表示します。ベースラインよりもパフォーマンスが悪い key:value
ペアは、実際のユーザーのサブセット間のパフォーマンスのボトルネックへのヒントになります。
レイテンシー外れ値は、First Contentful Paint、First Input Delay、Cumulative Layout Shift などの Core Web Vitals、および Loading Time に対して計算されます。詳しくは、ページのパフォーマンスの監視をご覧ください。
バナーカードビューでは、次のことがわかります。
- フィールド名
- フィールドと残りのデータのベースラインを含むパフォーマンスメトリクス値
フルサイドパネルでは、パフォーマンスメトリクスに関する時系列グラフが表示されます。X 軸には p50
、p75
、p99
、max
の増分と、フィールドを含む RUM イベントのリストが表示されます。
サーバーレスインフラストラクチャーに対して、Watchdog は以下のようなインサイトを提示します。
Cold Start Ratio Up/Down
Error Invocation Ratio Up/Down
Memory Usage Up/Down
OOM Ratio Up/Down
Estimated Cost Up/Down
Init Duration Up/Down
Runtime Duration Up/Down
インサイトカルーセルを使用して、1 つまたは複数の外れ値の影響を受けたサーバーレス関数を発見します。
An overlay is then set on the function, with pink pills highlighting the different insights and giving more information about what happened.
For Process Explorer, the Watchdog Insight carousel reflects all Process anomalies for the current context of the Process Explorer.
Kubernetes エクスプローラーの場合、Watchdog インサイトカルーセルには、Kubernetes エクスプローラーの現在のコンテキストのすべての Kubernetes の異常が反映されます。
参考資料