Observability Pipelines は US1-FED Datadog サイトでは利用できません。

概要

Observability Pipelines では、パイプラインは可観測性データを収集、処理、ルーティングするコンポーネントで構成されています。パイプラインとコンポーネントの健全性は、健全性ステータスとグラフ、およびリソース使用状況とデータ配信グラフによって示されます。

健全性ステータスは、しきい値とデフォルトの時間ウィンドウに基づく特定のメトリクスによって決定されます。利用可能なステータスは以下のとおりです。

  • Healthy: Worker が遅延していないことを示します。
  • Warning: Worker が最適に動作しておらず、遅延のリスクがあることを示します。下流の宛先やサービスがバックプレッシャーを引き起こしたり、Worker に十分なリソースがプロビジョニングされていない場合などの問題により、Worker が遅延する可能性があります。
  • Critical: Worker が遅延していることを示します。Worker が遅延している場合、データをドロップするリスクがあります。ただし、パイプラインが正しく設計され、構成されている限り、Worker は意図せずにデータをドロップすることはありません。

健全性、データ配信、リソース使用状況でグループ化された内部メトリクスが、パイプラインとそのコンポーネントの全体的な健全性ステータスを決定します。

健全性グラフは以下のメトリクスで利用できます。

  • 意図せずにドロップされたイベント
  • エラー
  • 遅延時間 (ソースでのみ利用可能)
  • 遅延時間の変化率 (ソースでのみ利用可能)
  • 利用率

データ配信グラフは以下のメトリクスで利用できます。

  • 毎秒の入出力イベント数
  • 毎秒の入出力バイト数

リソース使用状況グラフは以下のメトリクスで利用できます。

  • CPU の使用率
  • メモリ使用量
  • ディスク使用率 (宛先でのみ利用可能)

パイプラインとコンポーネントのステータスを確認する

  1. Observability Pipelines に移動します。
  2. パイプラインをクリックします。
  3. グラフにカーソルを合わせて、特定のデータポイントを確認します。

パイプラインのリソース使用率健全性メトリクス

メトリクスOKWarningクリティカル説明
CPU の使用率<= 0.85> 0.85N/AWorker プロセスがどれだけの CPU を使用しているかを追跡します。

1 の値は、Worker プロセスがホストまたはそれを実行しているコンピュートユニットでこれ以上の余裕がないことを示します。これにより、処理遅延の増大、上流/下流の過負荷などの問題が発生する可能性があります。
メモリ使用量>= 0.15< 0.15N/Aホスト上の使用済みおよび空きメモリの量を追跡します。Worker はメモリに制約されていませんが、高いメモリ使用率はメモリリークを示す可能性があります。

コンポーネントの健全性メトリクス

メトリクスソース変換送信先OKWarningクリティカル説明
ドロップされたイベント==0N/A> 0常に 0 であることが期待されます。例えば、filter 変換を使用して Worker を意図的にデータをドロップするように構成した場合、そのデータはここではカウントされません。したがって、1 つでもエラーがあると、Worker が健全な状態ではないことを示します。
合計エラー数==0>0N/Aコンポーネントで発生したエラーの合計数です。これらのエラーは診断ログとしても出力され、特定の内部エラーログに関する詳細情報を提供します。
利用率<=0.95>0.95N/Aコンポーネントのアクティビティを追跡します。

0 の値は、入力を待っているアイドル状態のコンポーネントを示します。1 の値は、一度もアイドル状態にならないコンポーネントを示します。0.95 を超える値は、コンポーネントがビジー状態であり、処理トポロジー内のボトルネックである可能性が高いことを示します。
遅延時間N/AN/AN/Aイベントのタイムスタンプと、Worker がイベントを取り込んだ時点のタイムスタンプとの生の時間差 (ミリ秒) です。高い遅延時間や遅延時間の変化 (下記参照) は、下流サービスからのバックプレッシャー、Worker にプロビジョニングされたリソースの不足、パイプライン内のボトルネックなどにより、Worker が遅延しているかどうかの指標となります。
遅延時間の変化率<=0>0>1イベントが生成されてから Worker がデータを受け取るまでに大幅な遅延があるかどうかを示します。遅延がある場合、Worker はソースからのデータ受信に遅れがあります。

0 の値は、可観測性データが生成されてから Worker がデータを受け取るまでに追加の遅延がないことを示します。1 以上の値は、バックプレッシャーとボトルネックがあることを示します。
ディスク使用率>=0.20> 0.20N/A特定のディスクがどれだけ満杯かを測定します。

1 の値は、ディスクにこれ以上データを保存できないことを示します。0 の値は、ディスクが空であることを示します。
PREVIEWING: rtrieu/product-analytics-ui-changes