サービス詳細画面

サービス詳細画面

概要

Selecting a service on the Service Catalog leads you to the detailed service page. A service is a set of processes that do the same job - for example a web framework or database (read more about how services are defined in Getting Started with APM).

このページで参照できる内容

サービスの健全性

Opt in to the private beta!

Service health is in private beta. To request access, complete the form.

Request Access

Service Health パネルには、サービスシグナルの要約がリアルタイムで表示され、そのサービスに対して注意が必要かどうかを把握できます。

サービスの健全性では、多くの種類のシグナル (モニター、インシデント、Watchdog のインサイト、エラー追跡の問題など) が考慮され、最も重要なアラートが表示されます。さらに、Service Health パネルでは、関連するインシデントへのリンクが提供され、必要な対応を行うのに役立ちます。

アクティブなインシデントが表示されているサービス詳細画面の Service Health パネル。

サービスの健全性にアクセスするには:

  1. APM > Service Catalog に移動します。
  2. サービスにカーソルを合わせ、Full Page をクリックします。
  3. Service Health を選択します。

Service Health パネルでは、以下の条件の少なくとも 1 つが満たされた場合、サービスのステータスが OKWarning、または Alert で表示されます。

ステータス条件
Alertモニター:
- ミュートされていないアラート設定 P1 モニターがトリガーされた。
- ページングインテグレーション (PagerDuty または Opsgenie) がセットアップされた、ミュートされていないモニターがトリガーされた。

インシデント:
- 重大度にかかわらず、インシデントがアクティブである。

Watchdog Insights:
- 障害のあるデプロイメントがアクティブである。
- 継続的な APM 遅延/エラー率アラートがアクティブである。
Warningモニター:
- ミュートされていないアラート設定 P2 モニターがトリガーされた。
- ミュートされていない警告設定 P1 モニターがトリガーされた。
- ページングインテグレーション (PagerDuty または Opsgenie) がセットアップされた警告モニター監がトリガーされた。

インシデント:
- 任意の重大度のインシデントが安定状態にある。

Watchdog Insights:
- 継続的なログ異常検知アラートがアクティブである。

エラー追跡の問題:
- 新しい問題 (48時間以内) の確認が必要である。
Okクリティカルまたはアラート状態からのシグナルがアクティブではない。

サービスモニター

サービスモニターパネルには、サービスにリンクされたアクティブなモニターと Synthetics テストが表示されます。 また、Datadog はサービスのタイプに応じてモニターのリストを提案します。

サービスモニター

直接有効にするか、独自の APM モニターを作成します。

: モニターまたは Synthetic テストに service:<SERVICE_NAME> をタグ付けして、APM サービスにアタッチします。

Watchdog Insights

Watchdog Insights カルーセルでは、特定のタグで検出された異常と外れ値が表示され、問題の根本原因を調査することができます。インサイトは、サービスタグを含む APM、Continuous Profiler、ログ管理、インフラストラクチャーのデータから発見されます。これらのインサイトは、各製品ページに表示されるインサイトと同じです。たとえば、サービス詳細画面のログの外れ値と同じものが、ログエクスプローラーに表示されます。

Watchdog インサイト

インサイトをクリックすると、インサイトの時間枠、関連するログやトレース、次のステップの候補などの詳細が表示されます。

Watchdog インサイトの詳細

サマリーカード

サービス詳細画面には、サービスの健全性に関するハイライトを示すサマリーカードが表示されます。カード内をクリックすると、最新のデプロイメントの詳細やトレースを表示したり、このサービス上のすべてのデプロイメントを表示したりできます。エラー追跡とのインテグレーションにより、サービス上でフラグが立てられた新しい問題を見ることができます。ここで、エラーは自動的に問題に集約されます。

サマリーカード

サービスレベル目標 (SLO)インシデントのサマリーにより、SLO と進行中のインシデントの状態を監視し、パフォーマンス目標を常に念頭に置いておくことができます。カードをクリックすると、サービスに関する新しい SLO を作成したり、インシデントを宣言したりすることができます。セキュリティシグナルサマリーでは、アプリケーションの脅威に対してサービスがどのように対応しているかを確認できます。

すぐに使えるグラフ

Datadog provides out-of-the-box graphs for any given service. Use the dropdown above each graph to change the displayed information.

 すぐに使えるサービスグラフ

Requests and Errors

The Requests and Errors graph displays the total number of requests (hits) and errors over time. Using the dropdown menu, you can also view:

  • Requests by Version: Breakdown of requests across different service versions.
  • Requests per Second by Version: The rate of requests for each version.
  • Requests and Errors Per Second: The rate of requests (hits) and errors per second.

Errors

The Errors graph displays the total count of errors over time. Using the dropdown menu, you can also view:

  • Errors by Version: The error counts for each service version side by side.
  • Errors per Second by Version: The error rate (errors per second) for each service version over time.
  • Errors per Second: The overall error rate for the service, per second.
  • % Error Rate by Version: The percentage of requests resulting in errors for each service version.
  • % Error Rate: The overall error rate for the service, as a percentage.

Latency

The Latency graph displays the latency percentiles as a timeseries. Using the dropdown menu, you can also view:

  • Latency by Version: Latency broken down by service version.
  • Historical Latency: Comparison of the current latency distribution with the previous day and week.
  • Latency Distribution: The distribution of latencies over the selected time frame.
  • Latency by Error: The latency of requests over time, segmented by whether the requests resulted in errors.
  • Apdex (Application Performance Index): The Apdex score over time.

Avg Time per Request

For services involving multiple downstream services, a fourth graph breaks down the average execution time spent per request. This graph is built on sampled trace data, unlike the other top graphs which use unsampled data sources.

Using the dropdown menu, you can also view:

  • Total Time Spent: The cumulative time spent in each downstream service over time.
  • % of Time Spent: The percentage of time spent in each downstream service relative to the total time.

For services like Postgres or Redis, which are final operations that do not call other services, there is no sub-services graph. Watchdog performs automatic anomaly detection on the Requests, Latency, and Error graphs. If an anomaly is detected, an overlay appears on the graph. Clicking the Watchdog icon provides more details in a side panel.

エクスポート

グラフを既存のダッシュボードにエクスポートするには、各グラフの右上隅にある矢印をクリックします。

ダッシュボードに保存

リソース

リソースごとに分類されたリクエスト、レイテンシー、エラーのグラフを参照し、問題のあるリソースを特定します。リソースとは、サービスに対する特定のアクション (通常は個々のエンドポイントやクエリ) です。詳しくは、APM を開始するをご覧ください。

下には、サービスに関連するリソースのリストがあります。このサービスのリソースをリクエスト、レイテンシー、エラー、時間でソートし、トラフィックの多いエリアや潜在的な問題を特定します。なお、これらのメトリクス列は構成することができます (下の画像を参照)。

リソース

リソースをクリックすると、サイドパネルが開き、リソースのすぐに使えるグラフ (リクエスト、エラー、レイテンシーについて)、リソース依存マップ、スパン要約表が表示されます。キーボードのナビゲーションキーを使用して、Resources リスト上のリソースを切り替えたり、サービス内のリソースを比較したりできます。完全なリソースページを表示するには、Open Full Page をクリックします。

詳細については、専用のリソースドキュメントを参照してください

リソースリストに表示するものを選択します。

  • Requests: トレースされたリクエストの絶対量 (1 秒あたり)
  • Requests per second: 1 秒あたりのトレースされたリクエストの絶対量
  • Total time: このリソースで費やしたすべての時間の合計
  • Avg/p75/p90/p95/p99/Max Latency: トレースされたリクエストの平均/p75/p90/p95/p99/最大レイテンシー
  • Errors: 特定のリソースのエラーの絶対量
  • Error Rate: 特定のリソースのエラーの割合
リソース列

その他のセクション

デプロイ

バージョンタグで構成されたサービスは、Deployment タブにバージョンが表示されます。バージョンセクションには、選択した時間間隔にアクティブだったサービスの全バージョンが表示され、アクティブなバージョンが一番上に表示されます。

デフォルトで、以下が表示されます。

  • タイムフレーム中にこのサービスにデプロイされたバージョン名。

  • このバージョンに対応するトレースが確認された最初および最後の時間。

  • 各バージョンに出現した、直前バージョンでは出現しなかったエラータイプの回数を表示するエラータイプインジケーター。

    : ここには、前バージョンのトレースでは見られなかったエラーが表示されますが、必ずしもこのバージョンになってこのようなエラーが発生するようになったことを意味するものではありません。新しいエラータイプを確認することは、エラー調査を始める良い方法です。

  • 1 秒あたりのリクエスト数。

  • 合計リクエスト数のパーセンテージとしてのエラー率。

この概要テーブルに列を追加またはテーブルから列を削除することができます。選択はすべて保存されます。利用可能な列は以下のとおりです。

  • 前バージョンに存在しなかったバージョンでアクティブなエンドポイント。
  • アクティブな時間。このバージョンで Datadog に送信された最初のトレースから最後のトレースまでの時間を表示します。
  • リクエスト総数。
  • エラー総数。
  • p50、p75、p90、p95、p99、または最大で計測されたレイテンシー。
デプロイメント

サービス詳細画面のデプロイメントについてご覧ください。

Error Tracking

サービス上の問題を表示します。これらの問題は類似のエラーを集約しており、ノイズの多いエラーの流れを管理しやすい問題に変えることで、サービスのエラーの影響を評価するのに役立ちます。エラー追跡で問題の詳細をお読みください。

このタブには、どのリソースに最も多くの問題があるかを示す概要グラフと、サービスで発生する最も一般的な問題のリストがあります。リスト内の問題をクリックすると、サイドパネルにそのスタックトレース、関連するコードのバージョン、開始以来のエラーの総発生数などの詳細が表示されます。

Error Tracking タブ

セキュリティ

サービスのライブラリに存在する既知の脆弱性や、サービス上のセキュリティシグナルなど、サービスのセキュリティポスチャを理解できます。セキュリティシグナルは、Datadog がサービスに影響を与えるアプリケーション攻撃を検知した際に自動的に生成されます。これらのシグナルは、個々の攻撃の試みをそれぞれ評価する代わりに、ユーザーが確認すべき重要な脅威を特定します。アプリケーションセキュリティの詳細を参照してください。

セキュリティタブのトップセクションには、脆弱性の数と重大性、攻撃の時期、攻撃の種類、攻撃者情報 (クライアント IP または認証済みユーザー) を示す概要グラフが表示されます。

パネルの次のセクションには、サービスに関係するすべての脆弱性とシグナルが一覧表示されます。任意のセキュリティ脆弱性をクリックすると、関連情報が記されたサイドパネルが開き、脆弱性に関するさらなる調査と修復を実行できます。セキュリティシグナルをクリックすると、どのような脅威が検出されたか、そして修復のためにどのような対応が可能かについての情報を入手できます。

セキュリティ

データベース

データベースモニタリングによって特定されたダウンストリームのデータベースの依存関係のリストを表示し、レイテンシーやロードの外れ値を特定します。 DBM と APM の接続についての詳細はこちら

データベース

インフラストラクチャー

サービスが Kubernetes 上で実行されている場合、サービス詳細画面に Infrastructure タブが表示されます。ライブ Kubernetes Pods テーブルには、メモリ使用量が限界に近づいているかどうかなど、ポッドの詳細情報が表示されます。これにより、プロビジョニングされたコンピュートリソースが最適なアプリケーションパフォーマンスに必要なものを超えているかを明確に確認することによって、リソース割り当てを改善することが可能です。

Kubernetes ポッド

Kubernetes Metrics セクションは、選択した期間のインフラストラクチャーの健全性の要約を示し、CPU、メモリ、ネットワーク、およびディスクメトリクスを含みます。

Kubernetes メトリクス

Kubernetes 以外の環境 (ホストベースのインストールなど) については、統合サービスタグ付けのドキュメントをご覧ください。

ランタイムメトリクス

トレースクライアントでランタイムメトリクスが有効になっている場合、サービスのランタイム言語に対応する Runtime metrics タブが表示されます。詳しくは、ランタイムメトリクスをご覧ください。

ランタイムメトリクス

プロファイリング

サービスで Continuous Profiler が設定されている場合、Profiling タブが表示されます。

Profiling タブの情報を使用して、レイテンシーとスループットの変化をコードパフォーマンスの変化に関連付けます。

この例では、レイテンシーが、以下のコードによって引き起こされる/GET train でのロック競合の増加とどのようにリンクしているかがわかります。

Thread.sleep(DELAY_BY.minus(elapsed).toMillis());

トレース

トレースタブで、サービスに関連するトレースのリストを表示します。トレースは、サービス、環境、および操作名ですでにフィルタリングされています。ステータス、リソース、エラータイプなどのコアファセットを使用して、問題のあるスパンをドリルダウンします。詳細については、スパンをクリックすると、そのトレースのフレームグラフや詳細が表示されます。

トレース

ログパターン

サービスのログによくあるパターンを表示し、検索バーのステータスなどのファセットを使用して、パターンのリストをフィルタリングします。パターンをクリックすると、サイドパネルが開き、どのイベントがカスケードを引き起こしたかなど、より詳細な情報を見ることができます。詳しくは、ログパターンをご覧ください。

ログパターン

コスト

サービスで使用されるインフラストラクチャーに関連するコストを Costs タブで可視化します。 クラウドコスト管理の詳細はこちら

コスト

その他の参考資料

PREVIEWING: alai97/reorganize-some-sections-in-dora-metrics