モニターアラートのトラブルシューティング

概要

このガイドでは、モニターのアラート動作が有効であるかどうかを判断するのに役立つ、いくつかの基本的な概念の概要を説明します。モニターの評価が基礎データを正確に反映していないと思われる場合、モニターを検査する際に以下のセクションを参照してください。

モニター状態とモニターステータス

モニターの評価はステートレスで、与えられた評価の結果は以前の評価の結果に依存しないことを意味しますが、モニター自体はステートフルで、その状態はクエリや構成の評価結果に基づいて更新されます。あるステータスのモニター評価によって、モニターのステータスが同じステータスに変化するとは限りません。考えられる原因については、以下を参照してください。

メトリクスモニターの評価ウィンドウ内で、メトリクスがまばらすぎる

モニターの評価ウィンドウにメトリクスがなく、モニターがデータなし条件を予期するように構成されていない場合、評価は skip されるかもしれません。このような場合、モニターの状態は更新されないので、以前は OK 状態であったモニターは OK のままであり、同様に Alert 状態であったモニターについても同様です。モニターステータスページの履歴グラフを使用して、対象となるグループと時間帯を選択します。データがまばらな場合は、モニターの演算処理とまばらなメトリクスを参照してください。

外部条件による状態の更新を監視する

また、自動解決などにより、モニターの評価がない状態でもモニターの状態が更新されることがあります。

データの有無を確認する

モニターの状態やステータスが期待したものと異なる場合、基礎となるデータソースの動作を確認します。メトリクスモニターの場合、履歴グラフを使用して、メトリクスクエリによって引き込まれたデータポイントを表示できます。メトリクスの進化をさらに調査するには、ステータスグラフのそばにある Open in a notebook をクリックします。これにより、モニタークエリのフォーマットされたグラフを持つ調査用ノートブックが生成されます。

1 つのモニターグループのステータスバーの横にある Open in a notebook ボタンにマウスカーソルを合わせた状態でのモニターのステータスページ

アラートの条件

予期しないモニターの動作は、時にはモニタータイプによって異なる アラート条件を誤って設定した結果である可能性があります。モニタークエリが as_count() 関数を使用している場合、モニター評価における as_count() のガイドを確認してください。

回復しきい値を使用する場合は、回復しきい値ガイドに記載されている条件を確認し、想定される動作であるかどうかを確認してください。

モニターステータスとグループ

モニター評価と状態の両方について、ステータスはグループごとに追跡されます。

マルチアラートモニターの場合、グループは各グループ化キーに 1 つの値を持つタグのセットです (例えば、envhost でグループ化されたモニターには env:dev, host:myhost があります)。単純なアラートでは、グループ (*) は 1 つだけで、モニターの範囲内のすべてを表します。

デフォルトでは、Datadog はクエリを変更しない限り、モニターグループを UI で 24 時間、ホストモニターでは 48 時間利用可能な状態に保ちます。詳しくは、モニター設定の変更が反映されないを参照してください。

マルチアラートモニターの範囲内に新しいモニターグループを作成することが予想される場合、これらの新しいグループの評価のための遅延を構成することができます。これは、新しいコンテナの作成に関連する高いリソース使用量など、新しいグループの予想される動作からアラートを回避するのに役立ちます。詳細については、新規グループ遅延を参照してください。

モニターがクローラーベースのクラウドメトリクスをクエリする場合、評価遅延を使用して、モニターが評価する前にメトリクスが到着していることを確認します。クラウドインテグレーションクローラーのスケジュールについての詳細は、クラウドメトリクスの遅延をお読みください。

通知に関する問題

モニターが正常に動作しているにもかかわらず、不要な通知が表示される場合、通知を削減または抑制するための複数のオプションが用意されています。

  • 状態が急激に変化するモニターの場合、警告の疲労を最小限に抑える方法については、アラートのバタつきを抑えるをお読みください。
  • 予想されるアラート、または組織にとって有用でないアラートについては、ダウンタイムで不要な通知を抑制してください。
  • アラートのルーティングを制御するには、テンプレート変数と、条件変数による警告アラートの状態の分離を使用します。

通知の欠落

通知が正しく届いていないと思われる場合は、以下の項目を確認し、通知が届くように設定してください。

  • 受信者のメール設定を確認し、Notification from monitor alerts がチェックされていることを確認します。
  • イベントストリームに、文字列 Error delivering notification があるイベントをチェックします。

Opsgenie 複数通知

モニターで複数の @opsgenie-[...] 通知を使用している場合、同じエイリアスを持つそれらの通知を Opsgenie に送信します。 Opsgenie の機能により、Opsgenie は重複とみなされたものを破棄します。

その他の参考資料

PREVIEWING: may/unit-testing