Requisitos
Configuración
Para empezar, sigue las instrucciones que se indican a continuación.
Instala el proveedor openlineage
para tanto los programadores como los workers de Airflow añadiendo lo siguiente en tu archivo requirements.txt
o dondequiera que se gestionen las dependencias de Airflow:
Para Airflow 2.7 o posterior:
apache-airflow-providers-openlineage
Para Airflow 2.5 y 2.6 :
Configura el proveedor openlineage
. La opción más sencilla consiste en configurar las siguientes variables de entorno y ponerlas a disposición de los pods en los que ejecutan planificadores y workers de Airflow:
export OPENLINEAGE_URL=<DD_DATA_OBSERVABILITY_INTAKE>
export OPENLINEAGE_API_KEY=<DD_API_KEY>
export AIRFLOW__OPENLINEAGE__NAMESPACE=${AIRFLOW_ENV_NAME}
- Sustituye
<DD_DATA_OBSERVABILITY_INTAKE>
por https://data-obs-intake.
. - Sustituye
<DD_API_KEY>
por tu clave de API Datadog válida. - Si estás utilizando Airflow v2.7 o v2.8, añade también estas dos variables de entorno junto con las anteriores. Esto soluciona un problema de configuración de OpenLinage solucionado en
apache-airflow-providers-openlineage
v1.7, mientras que Airflow v2.7 y v2.8 utilizan versiones anteriores.#!/bin/sh
# Required for Airflow v2.7 & v2.8 only
export AIRFLOW__OPENLINEAGE__CONFIG_PATH=""
export AIRFLOW__OPENLINEAGE__DISABLED_FOR_OPERATORS=""
Consulta la documentación oficial configuration-openlineage para ver otras configuraciones compatibles del proveedor openlineage
.
Activa una actualización de tus pods de Airflow y espera a que finalicen.
Validación
En Datadog, consulta la página Monitorización de trabajos de datos para ver una lista de tus ejecuciones de trabajos de Airflow después de la configuración.
Resolución de problemas
Establece OPENLINEAGE_CLIENT_LOGGING
en DEBUG
junto con las otras variables de entorno establecidas previamente para el cliente de OpenLineage y sus módulos secundarios. Esto puede ser útil para solucionar problemas durante la configuración del proveedor openlineage
.
Requisitos
Configuración
Para empezar, sigue las instrucciones que se indican a continuación.
Instala el proveedor openlineage
añadiendo lo siguiente en tu archivo requirements.txt
:
Para Airflow 2.7 o posterior:
apache-airflow-providers-openlineage
Para Airflow 2.5 y 2.6 :
Configura el proveedor openlineage
. La opción más sencilla es definir las siguientes variables de entorno en tu script de inicio de Amazon MWAA:
#!/bin/sh
export OPENLINEAGE_URL=<DD_DATA_OBSERVABILITY_INTAKE>
export OPENLINEAGE_API_KEY=<DD_API_KEY>
export AIRFLOW__OPENLINEAGE__NAMESPACE=${AIRFLOW_ENV_NAME}
- Sustituye completamente
<DD_DATA_OBSERVABILITY_INTAKE>
por https://data-obs-intake.
. - Sustituye completamente
<DD_API_KEY>
por tu clave de API Datadog válida. - Si estás utilizando Airflow v2.7 o v2.8, añade también estas dos variables de entorno al script de inicio. Esto soluciona un problema de configuración de OpenLinage solucionado en
apache-airflow-providers-openlineage
v1.7, mientras que Airflow v2.7 y v2.8 utilizan versiones anteriores.#!/bin/sh
# Required for Airflow v2.7 & v2.8 only
export AIRFLOW__OPENLINEAGE__CONFIG_PATH=""
export AIRFLOW__OPENLINEAGE__DISABLED_FOR_OPERATORS=""
Consulta la documentación oficial configuration-openlineage para ver otras configuraciones compatibles del proveedor openlineage
.
Despliega tu requirements.txt
actualizado y el script de inicio de Amazon MWAA en tu carpeta de Amazon S3 configurada para tu entorno de Amazon MWAA.
Opcionalmente, configura la recopilación de logs para correlacionar los logs de tarea con las ejecuciones de DAG en DJM:
- Configura Amazon MWAA para enviar logs a CloudWatch.
- Envía los logs a Datadog.
Validación
En Datadog, consulta la página Monitorización de trabajos de datos para ver una lista de tus ejecuciones de trabajos de Airflow después de la configuración.
Resolución de problemas
Asegúrate de que tu rol de ejecución configurado para tu entorno Amazon MWAA tiene los permisos adecuados para requirements.txt
y el script de inicio de Amazon MWAA. Esto es necesario si administras tu propio rol de ejecución y es la primera vez que añades esos archivos de respaldo. Si es necesario, consulta la guía oficial de roles de ejecución de Amazon MWAA para ver más detalles.
Establece OPENLINEAGE_CLIENT_LOGGING
en DEBUG
en el script de inicio de Amazon MWAA para el cliente OpenLineage y sus módulos secundarios. Esto puede ser útil para solucionar problemas durante la configuración del proveedor openlineage
.
Requisitos
Configuración
Para configurar el proveedor de OpenLineage, define las siguientes variables de entorno. Puedes configurar estas variables en tu despliegue de Astronomer utilizando cualquiera de los siguientes métodos:
OPENLINEAGE__TRANSPORT__TYPE=composite
OPENLINEAGE__TRANSPORT__TRANSPORTS__DATADOG__TYPE=http
OPENLINEAGE__TRANSPORT__TRANSPORTS__DATADOG__URL=<DD_DATA_OBSERVABILITY_INTAKE>
OPENLINEAGE__TRANSPORT__TRANSPORTS__DATADOG__AUTH__TYPE=api_key
OPENLINEAGE__TRANSPORT__TRANSPORTS__DATADOG__AUTH__API_KEY=<DD_API_KEY>
OPENLINEAGE__TRANSPORT__TRANSPORTS__DATADOG__COMPRESSION=gzip
- Sustituye
<DD_DATA_OBSERVABILITY_INTAKE>
por https://data-obs-intake.
. - Sustituye
<DD_API_KEY>
por tu clave de API Datadog válida.
Opcional:
- Define
AIRFLOW__OPENLINEAGE__NAMESPACE
con un nombre único para tu despliegue de Airflow. Esto permite a Datadog separar lógicamente los trabajos de este despliegue de los de otros despliegues de Airflow. - Define
OPENLINEAGE_CLIENT_LOGGING
en DEBUG
para el cliente OpenLineage y sus módulos secundarios para generar logs a un nivel de generación de logs DEBUG
. Esto puede ser útil para solucionar problemas durante la configuración del proveedor de OpenLineage.
Para gestionar las variables de entorno de un despliegue, consulta la guía oficial de Astronomer. Para ver otras configuraciones compatibles del proveedor de OpenLineage, consulta la referencia para la configuración de OpenLineage de Apache Airflow.
Activa una actualización de tu despliegue y espera a que finalice.
Validación
En Datadog, consulta la página Monitorización de trabajos de datos para ver una lista de tus ejecuciones de trabajos de Airflow después de la configuración.
Solucionar problemas
Comprueba que las variables de entorno de OpenLineage están correctamente configuradas en el despliegue de Astronomer.
Nota: Utilizando el archivo .env
para agregar las variables entorno no funciona porque las variables sólo se aplican a la local de flujo de aire entorno.