Integración de HDFS DataNode

Dashboard de HDFS

Información general

Rastrea la utilización del disco y los volúmenes fallidos en cada uno de tus HDFS DataNodes. Este check del Agent recopila métricas para estos, así como relacionados con bloques y métricas relacionadas con caché.

Utiliza este check (hdfs_datanode) y su check similar (hdfs_namenode), no el antiguo check dos en uno (HDFS); ese check está obsoleto.

Configuración

Sigue las instrucciones siguientes para instalar y configurar este check para un Agent que se ejecuta en un host. Para entornos de contenedores, consulta las Plantillas de integraciones de Autodiscovery para obtener orientación sobre la aplicación de estas instrucciones.

Instalación

El check de HDFS DataNode está incluido en el paquete del Datadog Agent, por lo que no necesitas instalar nada más en tus DataNodes.

Configuración

Conecta con el Agent

Host

Para Configurar este check para un Agent que se ejecuta en un host:

  1. Edita el archivo hdfs_datanode.d/conf.yaml, en la carpeta conf.d/ en la raíz de tu directorio de configuración del Agent’. Consulta el ejemplo de hdfs_datanode.d/conf.yaml para ver todas las opciones disponibles de configuración:

    init_config:
    
    instances:
      ## @param hdfs_datanode_jmx_uri - string - required
      ## The HDFS DataNode check retrieves metrics from the HDFS DataNode's JMX
      ## interface via HTTP(S) (not a JMX remote connection). This check must be installed on a HDFS DataNode. The HDFS
      ## DataNode JMX URI is composed of the DataNode's hostname and port.
      ##
      ## The hostname and port can be found in the hdfs-site.xml conf file under
      ## the property dfs.datanode.http.address
      ## https://hadoop.apache.org/docs/r3.1.3/hadoop-project-dist/hadoop-hdfs/hdfs-default.xml
      #
      - hdfs_datanode_jmx_uri: http://localhost:9864
    
  2. Reinicia el Agent.

Contenedores

Para los entornos de contenedores, consulta las plantillas de integración de Autodiscovery para obtener orientación sobre la aplicación de los parámetros que se indican a continuación.

ParámetroValor
<INTEGRATION_NAME>hdfs_datanode
<INIT_CONFIG>en blanco o {}
<INSTANCE_CONFIG>{"hdfs_datanode_jmx_uri": "http://%%host%%:9864"}

Recopilación de logs

Disponible para el Agent >6.0

  1. La recopilación de logs está desactivada en forma predeterminada en el Datadog Agent. Actívalo en el archivo datadog.yaml con:

      logs_enabled: true
    
  2. Añade este bloque de configuración a tu archivo hdfs_datanode.d/conf.yaml para empezar a recopilar tus logs de DataNode:

      logs:
        - type: file
          path: /var/log/hadoop-hdfs/*.log
          source: hdfs_datanode
          service: <SERVICE_NAME>
    

    Cambia los valores de los parámetros path y service y configúralos para tu entorno.

  3. Reinicia el Agent.

Validación

Ejecuta el subcomando de estado del Agent y busca hdfs_datanode en la sección de checks.

Datos recopilados

Métricas

hdfs.datanode.cache_capacity
(gauge)
Cache capacity in bytes
Shown as byte
hdfs.datanode.cache_used
(gauge)
Cache used in bytes
Shown as byte
hdfs.datanode.dfs_capacity
(gauge)
Disk capacity in bytes
Shown as byte
hdfs.datanode.dfs_remaining
(gauge)
The remaining disk space left in bytes
Shown as byte
hdfs.datanode.dfs_used
(gauge)
Disk usage in bytes
Shown as byte
hdfs.datanode.estimated_capacity_lost_total
(gauge)
The estimated capacity lost in bytes
Shown as byte
hdfs.datanode.last_volume_failure_date
(gauge)
The date/time of the last volume failure in milliseconds since epoch
Shown as millisecond
hdfs.datanode.num_blocks_cached
(gauge)
The number of blocks cached
Shown as block
hdfs.datanode.num_blocks_failed_to_cache
(gauge)
The number of blocks that failed to cache
Shown as block
hdfs.datanode.num_blocks_failed_to_uncache
(gauge)
The number of failed blocks to remove from cache
Shown as block
hdfs.datanode.num_failed_volumes
(gauge)
Number of failed volumes

Eventos

El check de HDFS-datanode no incluye ningún evento.

Check de servicio

hdfs.datanode.jmx.can_connect
Returns CRITICAL if the Agent cannot connect to the DataNode’s JMX interface for any reason. Returns OK otherwise.
Statuses: ok, critical

Solucionar problemas

¿Necesitas ayuda? Ponte en contacto con el servicio de asistencia de Datadog.

Referencias adicionales

Integración de HDFS NameNode

Dashboard de HDFS

Información general

Monitoriza tus NameNodes de HDFS primarios y de reserva para saber cuándo tu clúster entra en un estado precario: cuando sólo te queda un NameNode o cuando es el momento de añadir más capacidad al clúster. Este check del Agent recopila métricas para la capacidad restante, bloques corruptos/faltantes, DataNodes muertos, carga del sistema de archivos, bloques insuficientemente replicados, fallos de volumen totales (en todos los DataNodes) y muchos más.

Utiliza este check (hdfs_namenode) y su check similar (hdfs_datanode), no el antiguo check dos en uno (HDFS); ese check está obsoleto.

Configuración

Sigue las instrucciones siguientes para instalar y configurar este check para un Agent que se ejecuta en un host. Para entornos de contenedores, consulta las plantillas de integración de Autodiscovery para obtener orientación sobre la aplicación de estas instrucciones.

Instalación

El check de HDFS NameNode está incluido en el paquete del Datadog Agent, por lo que no necesitas instalar nada más en tus NameNodes.

Configuración

Conecta con el Agent

Host

Para configurar este check para un Agent que se ejecuta en un host:

  1. Edita el archivo hdfs_namenode.d/conf.yaml en la carpeta conf.d/ en la raíz de tu directorio de configuración del Agent’. Consulta el ejemplo de hdfs_namenode.d/conf.yaml para todas las opciones disponibles de configuración:

    init_config:
    
    instances:
      ## @param hdfs_namenode_jmx_uri - string - required
      ## The HDFS NameNode check retrieves metrics from the HDFS NameNode's JMX
      ## interface via HTTP(S) (not a JMX remote connection). This check must be installed on
      ## a HDFS NameNode. The HDFS NameNode JMX URI is composed of the NameNode's hostname and port.
      ##
      ## The hostname and port can be found in the hdfs-site.xml conf file under
      ## the property dfs.namenode.http-address
      ## https://hadoop.apache.org/docs/r3.1.3/hadoop-project-dist/hadoop-hdfs/hdfs-default.xml
      #
      - hdfs_namenode_jmx_uri: http://localhost:9870
    
  2. Reinicia el Agent.

Contenedores

Para entornos de contenedores, consulta las plantillas de integración de Autodiscovery para obtener orientación sobre la aplicación de los parámetros que se indican a continuación.

ParámetroValor
<INTEGRATION_NAME>hdfs_namenode
<INIT_CONFIG>en blanco o {}
<INSTANCE_CONFIG>{"hdfs_namenode_jmx_uri": "https://%%host%%:9870"}

Recopilación de logs

Disponible para el Agent >6.0

  1. La recopilación de logs está desactivada en forma predeterminada en el Datadog Agent. Actívala en el archivo datadog.yaml con:

      logs_enabled: true
    
  2. Añade este bloque de configuración a tu archivo hdfs_namenode.d/conf.yaml para empezar a recopilar tus logs de NameNode:

      logs:
        - type: file
          path: /var/log/hadoop-hdfs/*.log
          source: hdfs_namenode
          service: <SERVICE_NAME>
    

    Cambia los valores de los parámetros path y service y configúralos para tu entorno.

  3. Reinicia el Agent.

Validación

Ejecuta el subcomando de estado del Agent y busca hdfs_namenode en la sección Checks.

Datos recogidos

Métricas

hdfs.namenode.blocks_total
(gauge)
Total number of blocks
Shown as block
hdfs.namenode.capacity_remaining
(gauge)
Remaining disk space left in bytes
Shown as byte
hdfs.namenode.capacity_total
(gauge)
Total disk capacity in bytes
Shown as byte
hdfs.namenode.capacity_used
(gauge)
Disk usage in bytes
Shown as byte
hdfs.namenode.corrupt_blocks
(gauge)
Number of corrupt blocks
Shown as block
hdfs.namenode.estimated_capacity_lost_total
(gauge)
Estimated capacity lost in bytes
Shown as byte
hdfs.namenode.files_total
(gauge)
Total number of files
Shown as file
hdfs.namenode.fs_lock_queue_length
(gauge)
Lock queue length
hdfs.namenode.max_objects
(gauge)
Maximum number of files HDFS supports
Shown as object
hdfs.namenode.missing_blocks
(gauge)
Number of missing blocks
Shown as block
hdfs.namenode.num_dead_data_nodes
(gauge)
Total number of dead data nodes
Shown as node
hdfs.namenode.num_decom_dead_data_nodes
(gauge)
Number of decommissioning dead data nodes
Shown as node
hdfs.namenode.num_decom_live_data_nodes
(gauge)
Number of decommissioning live data nodes
Shown as node
hdfs.namenode.num_decommissioning_data_nodes
(gauge)
Number of decommissioning data nodes
Shown as node
hdfs.namenode.num_live_data_nodes
(gauge)
Total number of live data nodes
Shown as node
hdfs.namenode.num_stale_data_nodes
(gauge)
Number of stale data nodes
Shown as node
hdfs.namenode.num_stale_storages
(gauge)
Number of stale storages
hdfs.namenode.pending_deletion_blocks
(gauge)
Number of pending deletion blocks
Shown as block
hdfs.namenode.pending_replication_blocks
(gauge)
Number of blocks pending replication
Shown as block
hdfs.namenode.scheduled_replication_blocks
(gauge)
Number of blocks scheduled for replication
Shown as block
hdfs.namenode.total_load
(gauge)
Total load on the file system
hdfs.namenode.under_replicated_blocks
(gauge)
Number of under replicated blocks
Shown as block
hdfs.namenode.volume_failures_total
(gauge)
Total volume failures

Eventos

El check de HDFS-namenode no incluye ningún evento.

Checks de servicio

hdfs.namenode.jmx.can_connect
Returns CRITICAL if the Agent cannot connect to the NameNode’s JMX interface for any reason. Returns OK otherwise.
Statuses: ok, critical

Solucionar problemas

¿Necesitas ayuda? Ponte en contacto con el servicio de asistencia de Datadog.

Referencias adicionales

PREVIEWING: brett.blue/PA-link-fixes