Supported OS Linux

Información general

Monitorizar instancias de GPU de Oracle Cloud Infrastructure (OCI) es esencial para garantizar un rendimiento y una fiabilidad óptima de tus cargas de trabajo de computación de alto rendimiento. Esta integración proporciona un conjunto completo de métricas de GPU a través del espacio de nombres gpu_infrastructure_health, lo que te permite realizar un seguimiento de varios aspectos del estado y el uso de la GPU.

Esta integración te permite monitorizar y alertar sobre la salud, la capacidad, el rendimiento, el estado y el rendimiento de tus instancias de GPU.

Recopila métricas y etiquetas (tags) del espacio de nombres gpu_infrastructure_health.

Configuración

Después de configurar la integración Oracle Cloud Infrastructure, comprueba que cualquier espacio de nombres mencionado anteriormente está incluidos en tu Connector Hub.

Datos recopilados

Métricas

oci.gpu_infrastructure_health.gpu_ecc_double_bit_errors
(count)
The number of GPU double-bit ECC errors reported.
Shown as error
oci.gpu_infrastructure_health.gpu_ecc_single_bit_errors
(count)
The number of GPU single-bit ECC errors reported.
Shown as error
oci.gpu_infrastructure_health.gpu_memory_utilization
(gauge)
The percentage of the GPU memory resource in use.
Shown as percent
oci.gpu_infrastructure_health.gpu_power_draw
(gauge)
The amount of GPU power used.
oci.gpu_infrastructure_health.gpu_temperature
(gauge)
The GPU temperature reported.
oci.gpu_infrastructure_health.gpu_utilization
(gauge)
Activity level from GPU. Expressed as a percentage of total time. For instance pools, the value is averaged across all instances in the pool.
Shown as percent

Checks de servicios

La GPU OCI no incluye checks de servicios.

Eventos

La GPU OCI no incluye eventos.

Solucionar problemas

¿Necesitas ayuda? Ponte en contacto con el soporte de Datadog.

PREVIEWING: guacbot/translation-pipeline