データベースサービスの異常な p99 レイテンシーに関するアラート

所要時間 3 分

Datadog では、ユーザー自身で継続的にサービスの健全性を監視する代わりに、APM を使用して健全性を追跡するようにモニターを設定できます。ここでは、異常検知モニターを使用します。異常検知とは、傾向や、季節的な曜日や時間帯のパターンを考慮しながら、メトリクスの挙動が過去のものとは異なる場合、これを認識できるアルゴリズム機能です。異常検知は、しきい値ベースのアラート設定では監視することが困難または不可能な強い傾向や反復パターンを持つメトリクスに適しています。

  1. New Monitor ページを開き、APM を選択します。

  2. Primary Tags に 環境を選択し、Service に 監視するデータベースを選択します。

    Resource にデータベースで実行される特定のクエリを選択して監視することができますが、この例では全体的なパフォーマンスを確認するため、* のままにします。

    サービスを選択すると、次のステップを設定できるようになり、新しいモニターの追跡対象となるメトリクスのパフォーマンスを示すグラフがページ上部に表示されます。

    進行中のアラートがあるモニター表示
  3. Anomaly Alert を選択し、For オプションに「p99 latency」を選択します。

    Anomaly Alert を選択すると、選択したメトリクス (この例では p99 latency) の挙動の予測ベースラインもグラフに表示されるようになります。

  4. Alert when フィールドの値を「100%」に設定します

    これで、選択期間のすべてのイベントがアラートをトリガーする異常になります。これは、異常検知を開始する場合のベストプラクティスです。時間の経過とともに、状況に応じた適正値がわかってきます。異常検知モニターの詳細については、よくあるご質問 をご確認ください。

  5. アラート通知を変更します

    ここでは、通知内容をデフォルトテキストのままにしておくことも、アラート内でタグ付けするチームメンバーを選ぶこともできます。

    モニターの継続的なアラート設定

    通知テキストのマークアップと、このフィールドで設定可能な値および条件の詳細については、通知の概要をご確認ください。

  6. Configure notifications and automations notification (通知と自動化の通知を構成する) フィールドにユーザー名が表示されていることを確認し、データベースのレイテンシー異常が発生した場合に通知する必要があるチームメンバーを追加します。

    : 別のユーザーを追加するには、先頭に @ を入力します。Save をクリックします。

    これでアラート設定が完了し、今後、この画面からパラメーターを調整したり、メトリクスのパフォーマンスを追跡したりできます。

  7. Edit タブから Status タブに切り替えます

    進行中のアラートがあるモニター表示

    このタブでは、モニターの現在の状況の確認やミュート設定、トリガーされたアラートの詳細調査をします。

  8. サービスカタログに戻り、そこでモニターを設定したサービスを見つけ、サービス詳細画面をクリックして開きます。開いた画面でヘッダーの Monitor バーをクリックします。

    このウィンドウでは、サービスに設定された他のモニターや推奨設定の提案モニターに加え、新しいモニターが表示されます

    進行中のアラートがあるモニター表示

    モニターを作成するにつれ、追加するサービス、メトリクス、イベントと、これらに設定する複雑な条件がさらに出てきます。モニターはそれぞれ、サービスに接続されているため、サービス詳細画面および Service Map からアクセスできます。

    サービスマップ

    マップ上の各サービスの色分けは、緑色はすべてのモニターが正常、黄色は 2 つ以上のモニターで警告があるがアラートはなし、赤は 2 つ以上のモニターでアラートあり、灰色はモニター設定なし、という状態を示しています。

その他の参考資料

PREVIEWING: rtrieu/product-analytics-ui-changes