Amazon SageMaker es un servicio de machine learning totalmente gestionado. Con Amazon SageMaker, los científicos de datos y los desarrolladores pueden crear y entrenar modelos de machine learning y, a continuación, desplegarlos directamente en un entorno alojado listo para la producción.
Habilita esta integración para ver todas tus métricas de SageMaker en Datadog.
Configuración
Instalación
Si aún no lo has hecho, configura primero la integración de Amazon Web Services.
Recopilación de métricas
- En la página de la integración de AWS, asegúrate de que
SageMaker
está habilitado en la pestaña Metric Collection
. - Instala la integración de Datadog y Amazon SageMaker.
APM
Activar logging
Configura Amazon SageMaker para enviar logs a un bucket de S3 o a CloudWatch.
Nota: Si vas a loguear en un bucket de S3, asegúrate de que amazon_sagemaker
está configurado como Target prefix (Prefijo de destino).
Enviar logs a Datadog
Si aún no lo has hecho, configura la función de AWS Lambda de recopilación de logs de Datadog.
Una vez instalada la función de Lambda, añade manualmente un activador en el bucket de S3 o grupo de logs de CloudWatch que contenga tus logs de Amazon SageMaker en la consola de AWS:
Datos recopilados
Métricas
Eventos
La integración de Amazon SageMaker no incluye ningún evento.
Checks de servicio
La integración de Amazon SageMaker no incluye ningún check de servicio.
Monitorización predefinida
Datadog proporciona dashboards predefinidos para los endpoints y trabajos de SageMaker.
Endpoints de SageMaker
Utiliza el dashboard de endpoints de SageMaker para empezar inmediatamente a monitorizar el estado y el rendimiento de tus endpoints de SageMaker sin configuración adicional. Determina qué endpoints tienen errores, una latencia superior a la esperada o picos de tráfico. Revisa y corrige tus selecciones de política de tipo de instancia y escalado mediante la utilización de CPU, GPU, memoria y métricas de uso.
Trabajos de SageMaker
Puedes utilizar el dashboard de trabajos de SageMaker para obtener información sobre la utilización de recursos (por ejemplo, encontrar cuellos de botella de CPU, GPU y almacenamiento) de tus trabajos de formación, proceso o transformación. Utiliza esta información para optimizar tus instancias de computación.
Leer más
Más enlaces, artículos y documentación útiles:
Resolución de problemas
¿Necesitas ayuda? Ponte en contacto con el equipo de asistencia de Datadog.