Reducir el flapping de alertas

Un problema frecuente o tema sensible podría ser la fatiga de las alertas o cuando las alertas presentan “flapping” (pasan rápidamente del estado “ok” al de “alerta”).

En Datadog hay funciones que a menudo proporcionan alertas menos ruidosas y más significativas.

  • Reevaluar el valor del umbral de alerta

    • La forma más sencilla de reducir el flapping cuando la alerta <-> ok o los cambios de estado son frecuentes podría ser aumentando/disminuyendo la condición del umbral.
  • Uso del umbral min

    • Esto activa la alerta sólo cuando todos los puntos de datos de la métrica en el periodo de tiempo infringen el umbral.
  • Reformula la consulta utilizando funciones: tasas, promedios móviles o diferenciales temporales.

    • Esto significa que puedes comparar la diferencia entre los valores del flujo de la métrica y los valores de la semana anterior, y establecer condiciones de alerta basadas en la diferencia.
    • Un diferencial temporal permite combinar funciones y también puede ofrecer una visión histórica. Por ejemplo: abs(system.cpu.system{*} - week_before(system.cpu.system{*}))
    • Si tu métrica experimenta picos con frecuencia y estos no son intrínsecamente indicativos de problemas, aplicarle un índice o un promedio te permitirá establecer un umbral más significativo.
  • Considerar los estados de otros monitores que utilizan alertas compuestas

    • Las alertas compuestas, que son la incorporación más reciente a las capacidades de alerta de Datadog, te permitirán combinar dos o más alertas creadas previamente. Por ejemplo: si el uso de CPU es alto Y el uso de disco es alto en un host, se aactiva la alerta.
  • Uso de algunos módulos de análisis integrados con anomalías o outliers

    • La detección de anomalías utiliza un cierto análisis de temporalidad para emitir una alerta cuando un flujo (stream) de datos se comporta de forma históricamente incoherente.
    • La detección de outliers utiliza otros flujos de datos del mismo contexto para emitir una alerta cuando un flujo se comporta de manera diferente en comparación con sus pares.
    • Ambas opciones también pueden utilizarse junto con las alertas compuestas.

Si el problema es el enrutamiento de alertas, de seguro te interesarán las variables de plantilla y la separación de los estados de adveretencia o alerta con variables condicionales.

Más enlaces, artículos y documentación útiles:

PREVIEWING: esther/docs-9518-update-example-control-sensitive-log-data