Étant donné que les données des live processes sont stockées pendant 36 heures, vous pouvez générer des métriques de distribution globales et en centiles à partir de vos processus pour surveiller votre consommation de ressources sur le long terme. Comme les autres métriques Datadog, les métriques basées sur les processus sont stockées pendant 15 mois. Vous pouvez ainsi facilement effectuer les actions suivantes :
Débuguer les problèmes d’infrastructure passés et actuels
Identifier les tendances de consommation des ressources pour vos charges de travail critiques
Évaluer la santé de votre système avant et après des tests de charge ou des stress tests
Surveiller l’impact des déploiements logiciels sur la santé de vos hosts et conteneurs sous-jacents
Générer une métrique basée sur des processus
Vous pouvez générer une nouvelle métrique basée sur des processus directement à partir de requêtes sur la page Live Processes ou dans lʼonglet Manage Metrics, en cliquant sur le bouton + New Metric.
Ajouter une nouvelle métrique basée sur des processus
Sélectionnez des tags pour filtrer votre requête : la syntaxe de la requête est la même que pour les live processes. Seuls les processus qui correspondent au contexte de vos filtres sont pris en compte pour l’agrégation. Les filtres de recherche textuelle sont uniquement pris en charge sur la page Live Processes.
Choisissez la mesure à surveiller : saisissez une mesure, telle que Total CPU %, pour agréger une valeur numérique et créer ses métriques agrégées count, min, max, sum et avg correspondantes.
Ajoutez des tags dans le champ group by : sélectionnez des tags à ajouter sous forme de dimensions à vos métriques pour qu’elles puissent être filtrées, agrégées et comparées. Par défaut, les métriques générées à partir de processus ne sont associées à aucun tag, sauf si vous avez explicitement choisi d’en ajouter. Tous les tags disponibles pour les requêtes Live Processes peuvent être utilisés dans ce champ.
Donnez un nom à votre métrique : renseignez le nom de votre métrique. Les métriques basées sur des processus ont toujours le préfixe proc. et le suffixe [mesure_sélectionnée].
Ajoutez des agrégations en centiles : cochez la case Include percentile aggregations pour générer les centiles p50, p75, p90, p95, et p99. Les métriques en centiles sont également considérées comme des métriques custom, et sont facturées comme telles.
Vous pouvez créer plusieurs métriques avec la même requête en cochant la case Create Another en bas de la fenêtre de création de métrique. La fenêtre reste alors ouverte une fois votre métrique créée, et les filtres ainsi que les groupes d’agrégation sont pré-renseignés.
Remarque : les points de données pour les métriques basées sur des processus sont générés selon des intervalles de 10 secondes. Jusqu’à 3 minutes peuvent être nécessaires entre la création ou la mise à jour de la métrique et l’envoi du premier point de données.
Les métriques basées sur des processus sont considérées comme des métriques custom et facturées en conséquence. Évitez de regrouper les données en fonction de tags avec une cardinalité non délimitée ou extrêmement élevée, comme command et user, afin de ne pas nuire à la facturation.
Mettre à jour une métrique basée sur des processus
Lorsqu’une métrique est créée, les champs suivants peuvent être mis à jour :
Filtrer la requête : ajoutez et retirez des tags dans le champ Filter by pour modifier les processus pour lesquels les métriques doivent être générées.
Groupes d’agrégation : ajoutez ou retirez des tags dans le champ Group by pour affiner vos métriques de différentes façons, ou gérer leur cardinalité.
Sélection des centiles : cochez ou décochez la case Include percentile aggregations pour retirer ou générer des métriques en centiles.
Pour modifier le type ou le nom d’une métrique, une nouvelle métrique doit être créée.
Tirer parti des métriques de processus dans la plateforme Datadog
Une fois créées, vous pouvez utiliser les métriques de distribution agrégées et réparties en centiles issues de vos processus comme les autres métriques Datadog. Par exemple :
Représentez graphiquement des métriques basées sur des processus dans les dashboards et les notebooks afin de suivre la consommation de ressources historique pour les charges de travail importantes
Créez des monitors basés sur des anomalies ou des seuils en plus de métriques basées sur des processus pour détecter lorsque la mémoire RSS ou la charge CPU chute ou augmente de façon inattendue
Utilisez la corrélation de métriques pour contextualiser les chutes ou pics de consommation de ressources en les comparant avec les performances de logiciels tiers ou internes.
Pour aller plus loin
Documentation, liens et articles supplémentaires utiles: