NVIDIA NVML

Supported OS Linux Mac OS Windows

Intégration1.0.1

Présentation

Ce check permet de surveiller les métriques exposées par la bibliothèque NVIDIA Management Library (NVML) avec l’Agent Datadog, puis de les mettre en corrélation avec les appareils Kubernetes exposés.

Configuration

Le check NVML n’est pas inclus avec le package de l’Agent Datadog : vous devez donc l’installer.

Installation

Pour l’Agent v7.21+/6.21+, suivez les instructions ci-dessous afin d’installer le check NVML sur votre host. Consultez la section Utiliser les intégrations de la communauté pour effectuer une installation avec l’Agent Docker ou avec des versions antérieures de l’Agent.

  1. Exécutez la commande suivante pour installer l’intégration de l’Agent :

    datadog-agent integration install -t datadog-nvml==<INTEGRATION_VERSION>
    # You may also need to install dependencies since those aren't packaged into the wheel
    sudo -u dd-agent -H /opt/datadog-agent/embedded/bin/pip3 install grpcio pynvml
    
  2. Configurez votre intégration comme une intégration de base.

Si vous utilisez Docker, il existe un exemple de Dockerfile dans le référentiel NVML.

docker build --build-arg=DD_AGENT_VERSION=7.18.0 .

Si vous utilisez Docker et Kubernetes, vous devez exposer les variables d’environnement NVIDIA_VISIBLE_DEVICES et NVIDIA_DRIVER_CAPABILITIES. Consultez le Dockerfile inclus pour obtenir un exemple.

Pour mettre en corrélation des appareils NVIDIA Kubernetes réservés avec le pod Kubernetes utilisant l’appareil, montez le socket de domaine Unix /var/lib/kubelet/pod-resources/kubelet.sock sur la configuration de votre Agent. De plus amples informations sur ce socket sont disponibles sur le site Web de Kubernetes (en anglais). Remarque : la prise en charge de cet appareil est en bêta dans la version 1.15.

Configuration

  1. Modifiez le fichier nvml.d/conf.yaml dans le dossier conf.d/ à la racine du répertoire de configuration de votre Agent pour commencer à recueillir vos données de performance NVML. Consultez le fichier d’exemple nvml.d/conf.yaml pour découvrir toutes les options de configuration disponibles.

  2. Redémarrez l’Agent.

Validation

Lancez la sous-commande status de l’Agent et cherchez nvml dans la section Checks.

Données collectées

Métriques

La documentation de référence relative aux métriques se trouve sur le site Web de NVIDIA (en anglais).

Lorsque cela est possible, les noms de métriques sont mis en correspondance avec l’exportateur Data Center GPU Manager (DCGM) de NVIDIA.

Événements

NVML n’inclut aucun événement.

Checks de service

Dépannage

Besoin d’aide ? Contactez l’assistance Datadog.

PREVIEWING: may/embedded-workflows