Nvidia NVML

Supported OS Linux Windows Mac OS

통합 버전1.0.9

개요

본 점검은 Datadog 에이전트를 통해 노출된 NVIDIA 관리 라이브러리(NVML) 메트릭을 모니터링하고, 노출된 쿠버네티스(Kubernetes) 기기와 상호 연결할 수 있습니다.

설정

NVML 점검은 Datadog 에이전트 패키지에 포함되어 있지 않기 때문에 설치해야 합니다.

설치

에이전트 v7.21+/v6.21+의 경우, 하단 지침에 따라 호스트에 따라 NVML 점검을 설치하세요. 도커(Docker)에이전트 또는 이전 버전의 에이전트와 같이 설치하려면 커뮤니티 통합 사용을 참고하세요.

  1. 다음 명령어를 실행해 에이전트 통합을 설치하세요.

    Linux의 경우:

    datadog-agent integration install -t datadog-nvml==<INTEGRATION_VERSION>
    # You may also need to install dependencies since those aren't packaged into the wheel
    sudo -u dd-agent -H /opt/datadog-agent/embedded/bin/pip3 install grpcio pynvml
    

    윈도우즈(Windows)(관리자 권한으로 실행하는 Powershell 사용)의 경우:

    & "$env:ProgramFiles\Datadog\Datadog Agent\bin\agent.exe" integration install -t datadog-nvml==<INTEGRATION_VERSION>
    # You may also need to install dependencies since those aren't packaged into the wheel
    & "$env:ProgramFiles\Datadog\Datadog Agent\embedded3\python" -m pip install grpcio pynvml
    
  2. 통합을 코어 통합과 유사하게 설정하세요.

도커(Docker)를 사용하는 경우, NVML 리포지토리에 Dockerfile 예제가 있습니다.

docker build -t dd-agent-nvml .

도커(Docker) 및 쿠버네티스(Kubernetes)를 사용하는 경우 환경 변수 NVIDIA_VISIBLE_DEVICESNVIDIA_DRIVER_CAPABILITIES를 노출해야 합니다. 포함된 Dockerfile의 예제를 참조하세요.

본 기기를 사용해야여 예약된 쿠버네티스(Kubernetes) NVIDIA 기기를 쿠버네티스(Kubernetes) 포드에 연결하려면, Unix 도메인 소켓 /var/lib/kubelet/pod-resources/kubelet.sock을 에이전트 설정에 마운트합니다. 본 소켓에 대한 자세한 정보는 쿠버네티스(Kubernetes) 웹사이트에서 확인할 수 있습니다. 참고: 본 기기는 버전 1.15 베타 서비스입니다.

구성

  1. 에이전트 설정 디렉터리 루트의 conf.d/ 폴더에서 nvml.d/conf.yaml 파일을 편집하여 NVML 성능 데이터 수집을 시작합니다. 사용 가능한 모든 설정 옵션은 nvml.d/conf.yaml 샘플을 참조하세요.

  2. Agent를 재시작합니다.

검증

에이전트 상태 하위 명령 실행을 통해 점검 섹션에서 nvml를 찾습니다.

수집한 데이터

메트릭

권한 있는 메트릭 문서는 NVIDIA 웹사이트에서 확인할 수 있습니다.

가능하다면 메트릭 이름을 NVIDIA 데이터 센터 GPU 관리자(DCGM) 익스포터와 일치시키려고 시도합니다.

이벤트

NVML에는 이벤트가 포함되어 있지 않습니다.

서비스 점검

트러블슈팅

도움이 필요하신가요? Datadog 지원 팀에 문의하세요.

PREVIEWING: may/embedded-workflows