Monitorización AWS Inferentia y AWS Trainium
Versión de la integración2.1.0
Este check monitoriza AWS Neuron a través del Datadog Agent. Habilita la monitorización de los dispositivos Inferentia y Trainium y ofrece información sobre el rendimiento de tu modelo de Machine Learning.
Configuración
Sigue las instrucciones a continuación para instalar y configurar este check para un Agent que se ejecuta en una instancia EC2. Para entornos en contenedores, consulta las plantillas de la integración Autodiscovery para obtener orientación sobre la aplicación de estas instrucciones.
Instalación
El check AWS Neuron está incluido en el paquete del Datadog Agent.
También necesitas instalar el paquete de herramientas AWS Neuron.
No es necesaria ninguna instalación adicional en tu servidor.
Configuración
Métricas
Asegúrate de que se está utilizando el monitor de Neuron para exponer el endpoint de Prometheus.
Edita el archivo aws_neuron.d/conf.yaml
, que se encuentra en la carpeta conf.d/
en la raíz del directorio de configuración de tu Agent, para empezar a recopilar los datos de rendimiento de tu AWS Neuron. Para conocer todas las opciones de configuración disponibles, consulta el aws_neuron.d/conf.yaml de ejemplo.
Reinicia el Agent.
Logs
La integración AWS Neuron puede recopilar logs de los contenedores Neuron y reenviarlos a Datadog.
La recopilación de logs está desactivada por defecto en el Datadog Agent. Actívala en tu archivo datadog.yaml
:
Descomenta y edita el bloque de configuración de logs en tu archivo aws_neuron.d/conf.yaml
. A continuación podrás ver un ejemplo:
logs:
- type: docker
source: aws_neuron
service: aws_neuron
La recopilación de logs se encuentra deshabilitada de manera predeterminada en el Datadog Agent. Para habilitarla, consulta Recopilación de logs de Kubernetes.
A continuación, configura las Integraciones de logs como anotaciones de pod. Esto también se puede configurar con un archivo, un configmap o un almacén de valores clave. Para obtener más información, consulta la sección Recopilación de logs de Kubernetes.
Validación
Ejecuta el subcomando de estado del Agent y busca aws_neuron
en la sección Checks.
Datos recopilados
Métricas
Eventos
La integración AWS Neuron no incluye eventos.
Checks de servicio
Solucionar problemas
En entornos en contenedores, asegúrate de que el Agent tiene acceso de red a los endpoints especificados en el archivo aws_neuron.d/conf.yaml
.
¿Necesitas ayuda? Ponte en contacto con el equipo de asistencia de Datadog.