概要
Selecting a service on the Service Catalog leads you to the detailed service page. A service is a set of processes that do the same job - for example a web framework or database (read more about how services are defined in Getting Started with APM).
このページで参照できる内容
サービスの健全性
Opt in to the private beta!
Service health is in private beta. To request access, complete the form.
Request AccessService Health パネルには、サービスシグナルの要約がリアルタイムで表示され、そのサービスに対して注意が必要かどうかを把握できます。
サービスの健全性では、多くの種類のシグナル (モニター、インシデント、Watchdog のインサイト、エラー追跡の問題など) が考慮され、最も重要なアラートが表示されます。さらに、Service Health パネルでは、関連するインシデントへのリンクが提供され、必要な対応を行うのに役立ちます。
サービスの健全性にアクセスするには:
- APM > Service Catalog に移動します。
- サービスにカーソルを合わせ、Full Page をクリックします。
- Service Health を選択します。
Service Health パネルでは、以下の条件の少なくとも 1 つが満たされた場合、サービスのステータスが OK、Warning、または Alert で表示されます。
ステータス | 条件 |
---|
Alert | モニター: - ミュートされていないアラート設定 P1 モニターがトリガーされた。 - ページングインテグレーション (PagerDuty または Opsgenie) がセットアップされた、ミュートされていないモニターがトリガーされた。
インシデント: - 重大度にかかわらず、インシデントがアクティブである。
Watchdog Insights: - 障害のあるデプロイメントがアクティブである。 - 継続的な APM 遅延/エラー率アラートがアクティブである。 |
Warning | モニター: - ミュートされていないアラート設定 P2 モニターがトリガーされた。 - ミュートされていない警告設定 P1 モニターがトリガーされた。 - ページングインテグレーション (PagerDuty または Opsgenie) がセットアップされた警告モニター監がトリガーされた。
インシデント: - 任意の重大度のインシデントが安定状態にある。
Watchdog Insights: - 継続的なログ異常検知アラートがアクティブである。
エラー追跡の問題: - 新しい問題 (48時間以内) の確認が必要である。 |
Ok | クリティカルまたはアラート状態からのシグナルがアクティブではない。 |
サービスモニター
サービスモニターパネルには、サービスにリンクされたアクティブなモニターと Synthetics テストが表示されます。
また、Datadog はサービスのタイプに応じてモニターのリストを提案します。
直接有効にするか、独自の APM モニターを作成します。
注: モニターまたは Synthetic テストに service:<SERVICE_NAME>
をタグ付けして、APM サービスにアタッチします。
Watchdog Insights
Watchdog Insights カルーセルでは、特定のタグで検出された異常と外れ値が表示され、問題の根本原因を調査することができます。インサイトは、サービスタグを含む APM、Continuous Profiler、ログ管理、インフラストラクチャーのデータから発見されます。これらのインサイトは、各製品ページに表示されるインサイトと同じです。たとえば、サービス詳細画面のログの外れ値と同じものが、ログエクスプローラーに表示されます。
インサイトをクリックすると、インサイトの時間枠、関連するログやトレース、次のステップの候補などの詳細が表示されます。
サマリーカード
サービス詳細画面には、サービスの健全性に関するハイライトを示すサマリーカードが表示されます。カード内をクリックすると、最新のデプロイメントの詳細やトレースを表示したり、このサービス上のすべてのデプロイメントを表示したりできます。エラー追跡とのインテグレーションにより、サービス上でフラグが立てられた新しい問題を見ることができます。ここで、エラーは自動的に問題に集約されます。
サービスレベル目標 (SLO) とインシデントのサマリーにより、SLO と進行中のインシデントの状態を監視し、パフォーマンス目標を常に念頭に置いておくことができます。カードをクリックすると、サービスに関する新しい SLO を作成したり、インシデントを宣言したりすることができます。セキュリティシグナルサマリーでは、アプリケーションの脅威に対してサービスがどのように対応しているかを確認できます。
すぐに使えるグラフ
Datadog provides out-of-the-box graphs for any given service. Use the dropdown above each graph to change the displayed information.
リクエストとエラー
リクエストとエラーのグラフには、リクエスト (ヒット) とエラーの合計数が時系列で表示されます。ドロップダウンメニューを使用して、次の情報を確認することもできます。
- Requests by Version: サービスバージョンごとのリクエストの内訳。
- Requests per Second by Version: 各バージョンのリクエストのレート。
- Requests and Errors Per Second: 1 秒あたりのリクエスト (ヒット) とエラーのレート。
エラー
エラーのグラフには、エラーの合計数が時系列で表示されます。ドロップダウンメニューを使用して、次の情報を確認することもできます。
- Errors by Version: サービスバージョンごとのエラー数を並べて表示します。
- Errors per Second by Version: サービスバージョンごとのエラー率 (1 秒あたりのエラー数) を時系列で表示します。
- Errors per Second: サービスの 1 秒あたりの全体的なエラー率。
- % Error Rate by Version: サービスの各バージョンでエラーになったリクエストの割合。
- % Error Rate: サービスの全体的なエラー率をパーセンテージで表示します。
レイテンシー
レイテンシーのグラフには、レイテンシーのパーセンタイルが時系列で表示されます。ドロップダウンメニューを使用して、次の情報を確認することもできます。
- Latency by Version: サービスバージョンごとのレイテンシーの内訳。
- Historical Latency: 現在のレイテンシーの分布と前日および前週との比較。
- Latency Distribution: 選択した時間枠におけるレイテンシーの分布。
- Latency by Error: 経時的なリクエストのレイテンシーを、リクエストがエラーになったかどうかで分けて表示します。
- Apdex (アプリケーションパフォーマンスインデックス): 経時的な Apdex スコア。
リクエストごとの平均時間
複数のダウンストリームサービスを含むサービスの場合、4 つ目のグラフはリクエストごとに費やされた平均実行時間の内訳を示します。このグラフは、サンプリングされていないデータソースを使用する他のトップグラフとは異なり、サンプリングされたトレースデータを基に作成されます。
ドロップダウンメニューを使用して、次の情報を確認することもできます。
- Total Time Spent: 時間の経過とともに各ダウンストリームサービスで費やされた累積の時間。
- % of Time Spent: 各ダウンストリームサービスで費やされた時間の合計時間に対する割合。
Postgres や Redis などのサービスは、他のサービスを呼び出さない最終的なオペレーションであり、サブサービスのグラフはありません。Watchdog はリクエスト、レイテンシー、エラーのグラフ上で自動的な異常検知を実行します。異常が検知されると、グラフ上にオーバーレイが表示されます。Watchdog アイコンをクリックすると、サイドパネルに詳細が表示されます。
エクスポート
グラフを既存のダッシュボードにエクスポートするには、各グラフの右上隅にある矢印をクリックします。
リソース
リソースごとに分類されたリクエスト、レイテンシー、エラーのグラフを参照し、問題のあるリソースを特定します。リソースとは、サービスに対する特定のアクション (通常は個々のエンドポイントやクエリ) です。詳しくは、APM を開始するをご覧ください。
下には、サービスに関連するリソースのリストがあります。このサービスのリソースをリクエスト、レイテンシー、エラー、時間でソートし、トラフィックの多いエリアや潜在的な問題を特定します。なお、これらのメトリクス列は構成することができます (下の画像を参照)。
リソースをクリックすると、サイドパネルが開き、リソースのすぐに使えるグラフ (リクエスト、エラー、レイテンシーについて)、リソース依存マップ、スパン要約表が表示されます。キーボードのナビゲーションキーを使用して、Resources リスト上のリソースを切り替えたり、サービス内のリソースを比較したりできます。完全なリソースページを表示するには、Open Full Page をクリックします。
詳細については、専用のリソースドキュメントを参照してください。
列
リソースリストに表示するものを選択します。
- Requests: トレースされたリクエストの絶対量 (1 秒あたり)
- Requests per second: 1 秒あたりのトレースされたリクエストの絶対量
- Total time: このリソースで費やしたすべての時間の合計
- Avg/p75/p90/p95/p99/Max Latency: トレースされたリクエストの平均/p75/p90/p95/p99/最大レイテンシー
- Errors: 特定のリソースのエラーの絶対量
- Error Rate: 特定のリソースのエラーの割合
その他のセクション
デプロイ
バージョンタグで構成されたサービスは、Deployment タブにバージョンが表示されます。バージョンセクションには、選択した時間間隔にアクティブだったサービスの全バージョンが表示され、アクティブなバージョンが一番上に表示されます。
デフォルトで、以下が表示されます。
タイムフレーム中にこのサービスにデプロイされたバージョン名。
このバージョンに対応するトレースが確認された最初および最後の時間。
各バージョンに出現した、直前バージョンでは出現しなかったエラータイプの回数を表示するエラータイプインジケーター。
注: ここには、前バージョンのトレースでは見られなかったエラーが表示されますが、必ずしもこのバージョンになってこのようなエラーが発生するようになったことを意味するものではありません。新しいエラータイプを確認することは、エラー調査を始める良い方法です。
1 秒あたりのリクエスト数。
合計リクエスト数のパーセンテージとしてのエラー率。
この概要テーブルに列を追加またはテーブルから列を削除することができます。選択はすべて保存されます。利用可能な列は以下のとおりです。
- 前バージョンに存在しなかったバージョンでアクティブなエンドポイント。
- アクティブな時間。このバージョンで Datadog に送信された最初のトレースから最後のトレースまでの時間を表示します。
- リクエスト総数。
- エラー総数。
- p50、p75、p90、p95、p99、または最大で計測されたレイテンシー。
サービス詳細画面のデプロイメントについてご覧ください。
Error Tracking
サービス上の問題を表示します。これらの問題は類似のエラーを集約しており、ノイズの多いエラーの流れを管理しやすい問題に変えることで、サービスのエラーの影響を評価するのに役立ちます。エラー追跡で問題の詳細をお読みください。
このタブには、どのリソースに最も多くの問題があるかを示す概要グラフと、サービスで発生する最も一般的な問題のリストがあります。リスト内の問題をクリックすると、サイドパネルにそのスタックトレース、関連するコードのバージョン、開始以来のエラーの総発生数などの詳細が表示されます。
セキュリティ
サービスのライブラリに存在する既知の脆弱性や、サービス上のセキュリティシグナルなど、サービスのセキュリティポスチャを理解できます。セキュリティシグナルは、Datadog がサービスに影響を与えるアプリケーション攻撃を検知した際に自動的に生成されます。これらのシグナルは、個々の攻撃の試みをそれぞれ評価する代わりに、ユーザーが確認すべき重要な脅威を特定します。アプリケーションセキュリティの詳細を参照してください。
セキュリティタブのトップセクションには、脆弱性の数と重大性、攻撃の時期、攻撃の種類、攻撃者情報 (クライアント IP または認証済みユーザー) を示す概要グラフが表示されます。
パネルの次のセクションには、サービスに関係するすべての脆弱性とシグナルが一覧表示されます。任意のセキュリティ脆弱性をクリックすると、関連情報が記されたサイドパネルが開き、脆弱性に関するさらなる調査と修復を実行できます。セキュリティシグナルをクリックすると、どのような脅威が検出されたか、そして修復のためにどのような対応が可能かについての情報を入手できます。
データベース
データベースモニタリングによって特定されたダウンストリームのデータベースの依存関係のリストを表示し、レイテンシーやロードの外れ値を特定します。
DBM と APM の接続についての詳細はこちら。
インフラストラクチャー
サービスが Kubernetes 上で実行されている場合、サービス詳細画面に Infrastructure タブが表示されます。ライブ Kubernetes Pods テーブルには、メモリ使用量が限界に近づいているかどうかなど、ポッドの詳細情報が表示されます。これにより、プロビジョニングされたコンピュートリソースが最適なアプリケーションパフォーマンスに必要なものを超えているかを明確に確認することによって、リソース割り当てを改善することが可能です。
Kubernetes Metrics セクションは、選択した期間のインフラストラクチャーの健全性の要約を示し、CPU、メモリ、ネットワーク、およびディスクメトリクスを含みます。
Kubernetes 以外の環境 (ホストベースのインストールなど) については、統合サービスタグ付けのドキュメントをご覧ください。
ランタイムメトリクス
トレースクライアントでランタイムメトリクスが有効になっている場合、サービスのランタイム言語に対応する Runtime metrics タブが表示されます。詳しくは、ランタイムメトリクスをご覧ください。
プロファイリング
サービスで Continuous Profiler が設定されている場合、Profiling タブが表示されます。
Profiling タブの情報を使用して、レイテンシーとスループットの変化をコードパフォーマンスの変化に関連付けます。
この例では、レイテンシーが、以下のコードによって引き起こされる/GET train
でのロック競合の増加とどのようにリンクしているかがわかります。
Thread.sleep(DELAY_BY.minus(elapsed).toMillis());
トレース
トレースタブで、サービスに関連するトレースのリストを表示します。トレースは、サービス、環境、および操作名ですでにフィルタリングされています。ステータス、リソース、エラータイプなどのコアファセットを使用して、問題のあるスパンをドリルダウンします。詳細については、スパンをクリックすると、そのトレースのフレームグラフや詳細が表示されます。
ログパターン
サービスのログによくあるパターンを表示し、検索バーのステータスなどのファセットを使用して、パターンのリストをフィルタリングします。パターンをクリックすると、サイドパネルが開き、どのイベントがカスケードを引き起こしたかなど、より詳細な情報を見ることができます。詳しくは、ログパターンをご覧ください。
コスト
サービスで使用されるインフラストラクチャーに関連するコストを Costs タブで可視化します。
クラウドコスト管理の詳細はこちら。
その他の参考資料