Habilitar Data Jobs Monitoring para Databricks

Documentos > Data Jobs Monitoring > Habilitar Data Jobs Monitoring para Databricks

Data Jobs Monitoring ofrece visibilidad sobre el rendimiento y la fiabilidad de tus trabajos de Apache Spark y Databricks.

Ajustes

Sigue estos pasos para habilitar Data Jobs Monitoring para Databricks.

Configura la integración Datadog-Databricks para un espacio de trabajo de Databricks.
Instala el Datadog Agent en tus clústeres de Databricks en el espacio de trabajo.

Configurar la integración Datadog-Databricks

En tu espacio de trabajo de Databricks, haz clic en tu perfil en la esquina superior derecha y ve a Configuración. Selecciona Desarrollador en la barra lateral izquierda. Junto a Tokens de acceso, haz clic en Manage (Gestionar).
Haz clic en Generate new token (Generar nuevo token), introduce “Integración Datadog” en el campo Comentario, elimina el valor predeterminado en Ciclo de vida (días) y haz clic en *Generate (Generar). Toma nota de tu token.
Importante:
- Asegúrate de eliminar el valor por defecto en Ciclo de vida (días) para que el token no caduque y no se rompa la integración.
- Asegúrate de que la cuenta que genera el token tiene acceso de VISTA para los trabajos y clústeres de Databricks que quieres monitorizar.
También puedes seguir la documentación oficial de Databricks para generar un token de acceso para un elemento principal de servicio.
En Datadog, abre el cuadro de la integración Databricks.
En la pestaña Configurar, haz clic en Add Databricks Workspace (Añadir espacio de trabajo de Databricks).
Introduce un nombre de espacio de trabajo, la URL de tu espacio de trabajo de Databricks y el token de Databricks que generaste.
En la sección Seleccionar productos para configurar la integración, asegúrate de que el producto Data Jobs Monitoring está Habilitado.
En la sección Configuración del Datadog Agent, elige

Gestionado por Datadog (recomendado): Datadog instala y gestiona el Agent con un script init global en el espacio de trabajo.
Manualmente: Sigue las siguientes instrucciones para instalar y gestionar el script init para instalar el Agent globalmente o en clústeres de Databricks específicos.

Variable	Descripción	Valor predeterminado
DD_API_KEY	Tu clave de API Datadog.
DD_SITE	Tu sitio Datadog.
DATABRICKS_WORKSPACE	Nombre de tu espacio de trabajo de Databricks. Debe coincidir con el nombre proporcionado en el paso de la integración Datadog-Databricks. Encierra el nombre entre comillas dobles si contiene espacios en blanco.
DRIVER_LOGS_ENABLED	Recopila logs de unidades Spark en Datadog.	falso
WORKER_LOGS_ENABLED	Recopila logs de workers Spark en Datadog.	falso
DD_DJM_ADD_LOGS_TO_FAILURE_REPORT	Incluye logs del script init para la depuración cuando informes de un fallo a Datadog.	falso

Variable	Descripción	Valor predeterminado
DD_API_KEY	Tu clave de API Datadog.
DD_SITE	Tu sitio Datadog.
DATABRICKS_WORKSPACE	Nombre de tu espacio de trabajo de Databricks. Debe coincidir con el nombre proporcionado en el paso de la integración Datadog-Databricks. Encierra el nombre entre comillas dobles si contiene espacios en blanco.
DRIVER_LOGS_ENABLED	Recopila logs de unidades Spark en Datadog.	falso
WORKER_LOGS_ENABLED	Recopila logs de workers Spark en Datadog.	falso
DD_DJM_ADD_LOGS_TO_FAILURE_REPORT	Incluye logs del script init para la depuración cuando informes de un fallo a Datadog.	falso

Reiniciar clústeres en ejecución

El script init instala el Agent cuando se inician clústeres.

Los clústeres multipropósito en ejecución o los clústeres de trabajos de larga duración deben reiniciarse manualmente para que el script init instale el Datadog Agent.

En los trabajos programados que se ejecutan en clústeres de trabajos, el script init instala el Datadog Agent automáticamente durante la siguiente ejecución.

Validación

En Datadog, consulta la página Data Jobs Monitoring para ver una lista de todos tus trabajos de Databricks.

Solucionar problemas

If you don’t see any data in DJM after installing the product, follow those steps.

The init script installs the Datadog Agent. To make sure it is properly installed, ssh into the cluster and run the Agent status command:

sudo datadog-agent status

Si el Agent no está instalado, consulta los logs de instalación que se encuentran en /tmp/datadog-djm-init.log.

Si necesita más ayuda del servicio de asistencia de Datadog, añade la siguiente variable entorno al script init. Esto asegura que los logs se envíen a Datadog cuando se produce un fallo.

export DD_DJM_ADD_LOGS_TO_FAILURE_REPORT=true

Configuración avanzada

Tramos (spans) de etiquetas (tags) en tiempo de ejecución

You can set tags on Spark spans at runtime. These tags are applied only to spans that start after the tag is added.

// Add tag for all next Spark computations
sparkContext.setLocalProperty("spark.datadog.tags.key", "value")
spark.read.parquet(...)

To remove a runtime tag:

// Remove tag for all next Spark computations
sparkContext.setLocalProperty("spark.datadog.tags.key", null)

Agregar métricas de clúster de ejecuciones únicas de trabajos

Esta configuración es aplicable si quieres datos de uso de recursos de clúster sobre tus trabajos y crear un nuevo trabajo y clúster para cada ejecución a través del endpoint de la API de ejecución única (común cuando se utilizan herramientas de orquestación fuera de Databricks como Airflow o Azure Data Factory).

Si envías trabajos de Databricks a través del endpoint de la API de ejecución única, cada ejecución de trabajo tiene un ID de trabajo único. Esto puede dificultar la agrupación y el análisis de métricas de clúster de trabajos que utilizan clústeres efímeros. Para agregar el uso de clústeres del mismo trabajo y evaluar el rendimiento de varias ejecuciones, debes configurar la variable DD_JOB_NAME dentro de spark_env_vars de cada new_cluster con el mismo valor de run_name que la carga útil de la solicitud.

A continuación se muestra un ejemplo de cuerpo de solicitud de ejecución única de un trabajo:

{
   "run_name": "Example Job",
   "idempotency_token": "8f018174-4792-40d5-bcbc-3e6a527352c8",
   "tasks": [
      {
         "task_key": "Example Task",
         "description": "Description of task",
         "depends_on": [],
         "notebook_task": {
            "notebook_path": "/Path/to/example/task/notebook",
            "source": "WORKSPACE"
         },
         "new_cluster": {
            "num_workers": 1,
            "spark_version": "13.3.x-scala2.12",
            "node_type_id": "i3.xlarge",
            "spark_env_vars": {
               "DD_JOB_NAME": "Example Job"
            }
         }
      }
   ]
}

Configurar Data Jobs Monitoring con restricciones de red de Databricks

Debido a las restricciones de red de Databricks, es posible que Datadog no tenga acceso a tus API Databricks, algo que es necesario para recopilar trazas (traces) de ejecuciones de trabajos de Databricks junto con etiquetas y otros metadatos.

Si estás controlando el acceso a la API Databricks a través de listas de acceso IP, la lista de autorizaciones específica de Datadog IP addresses permite a tu clúster realizar todas estas interacciones con servicios Datadog. Para ver más detalles sobre cómo gestionar las listas de acceso IP en Databricks, consulta la documentación de Databricks.

Si estás utilizando Databricks Private Connectivity, los pasos para configurar la conexión dependen de tu proveedor de nube.

Consulta la guía de tu entorno en la nube:

Conectarse a Datadog a través de AWS Private Link