Métricas y registros de diagnóstico para el Administrador de orquestación de flujo de trabajo

Nota:

El Administrador de orquestación de flujo de trabajo cuenta con la tecnología de Apache Airflow.

Este artículo te guía a través de los pasos para lo siguiente:

  • Habilitar las métricas y los registros de diagnóstico del Administrador de orquestación de flujo de trabajo en Azure Data Factory.
  • Ver registros y métricas.
  • Ejecute una consulta .
  • Supervisar las métricas y establecer el sistema de alertas en un error de grafo acíclico dirigido (DAG).

Requisitos previos

Necesita una suscripción de Azure. Si no tiene una suscripción a Azure, cree una cuenta gratuita de Azure antes de empezar.

Habilitación de métricas y registros de diagnóstico para el Administrador de orquestación de flujo de trabajo

  1. Abre el recurso de Data Factory y selecciona Configuración de diagnóstico en el panel situado más a la izquierda. Después, seleccione Agregar configuración de diagnóstico.

    Captura de pantalla que muestra dónde se encuentra la pestaña Registros de diagnóstico en Data Factory.

  2. Rellena el nombre de la Configuración de diagnóstico. Selecciona las siguientes categorías para los registros de Airflow:

    • Registros de ejecución de tareas de Airflow
    • Registros de trabajo de Airflow
    • Registros de procesamiento de DAG de Airflow
    • Registros del programador de Airflow
    • Registros web de Airflow
    • Si selecciona AllMetrics, varias métricas de Data Factory están disponibles para que las supervise o genere alertas. Estas incluyen las métricas de la actividad de Data Factory y el entorno de ejecución de integración del Administrador de orquestación de flujo de trabajo, como AirflowIntegrationRuntimeCpuUsage y AirflowIntegrationRuntimeMemory.

    Captura de pantalla que muestra qué registros seleccionar para el entorno de Airflow.

  3. En Detalles del destino, active la casilla Enviar al área de trabajo de Log Analytics.

    Captura de pantalla que muestra la selección del área de trabajo de Log Analytics como destino para los registros de diagnóstico.

  4. Seleccione Guardar.

Ver registros

  1. Después de agregar la configuración de diagnóstico, puedes encontrarla en la sección Configuración de diagnóstico. Para acceder a los registros y verlos, selecciona el área de trabajo de Log Analytics que has configurado.

    Captura de pantalla en la que se muestra la URL del área de trabajo de Log Analytics.

  2. Selecciona Ver registros en la sección Maximización de la experiencia de Log Analytics.

    Captura de pantalla que muestra la selección de Ver registros.

  3. Se te dirige al área de trabajo de Log Analytics, donde puedes ver que las tablas seleccionadas se importaron automáticamente en el área de trabajo.

    Captura de pantalla que muestra el área de trabajo de Log Analytics

Otros vínculos útiles para el esquema:

Escriba una consulta.

  1. Comencemos con la consulta más sencilla, que devuelve todos los registros en ADFAirflowTaskLogs. Puedes hacer doble clic en el nombre de la tabla para agregarlo a una ventana de consulta. También puedes escribir el nombre de la tabla directamente en la ventana.

    Captura de pantalla que muestra una consulta de Kusto para recuperar todos los registros.

  2. Para restringir los resultados de búsqueda, como filtrarlos en función de un identificador de tarea específico, puede usar la consulta siguiente:

    ADFAirflowTaskLogs
    | where DagId == "<your_dag_id>"
    and TaskId == "<your_task_id>"
    

Del mismo modo, puedes crear consultas personalizadas según tus necesidades mediante cualquier tabla disponible en LogManagement.

Para más información, vea:

Supervisión de métricas

Data Factory ofrece métricas completas para entornos de ejecución de integración de Airflow, lo que te permite supervisar eficazmente el rendimiento del entorno de ejecución de integración de Airflow y establecer mecanismos de alerta según sea necesario.

  1. Abre tu recurso de Data Factory.

  2. En el panel situado más a la izquierda, en la sección Supervisión, selecciona Métricas.

    Captura de pantalla que muestra dónde se encuentra la pestaña Métricas en Data Factory.

  3. Selecciona la opción Ámbito>Espacio de nombres de métrica>Métrica que quieras supervisar.

    Captura de pantalla que muestra las métricas que quieres seleccionar.

  4. Revisa el gráfico de varias líneas que visualiza el porcentaje de CPU de Integration Runtime y el tamaño de contenedor de DAG de Integration Runtime.

    Captura de pantalla que muestra un gráfico multilínea con múltiples métricas.

  5. Puedes configurar una regla de alerta que se desencadene cuando las métricas cumplan condiciones específicas. Para más información, consulta Información general sobre las alertas de Azure Monitor.

  6. Selecciona Guardar en el panel después de que el gráfico haya terminado o desaparezca.

    Captura de pantalla que muestra la opción Guardar en el panel.

Métricas de Airflow

En la tabla siguiente se muestran las métricas disponibles para el Administrador de orquestación de flujo de trabajo. Los encabezados de tabla son los siguientes:

  • Métrica: el nombre para mostrar de la métrica tal como aparece en Azure Portal.
  • Nombre en la API REST: el nombre de la métrica por el que se conoce en la API REST.
  • Descripción: una descripción de la métrica.
  • Unidad: unidad de medida.
  • Agregación: el tipo de agregación predeterminado. Los valores válidos son Promedio, Mínimo, Máximo, Total y Recuento.
  • Dimensiones: dimensiones disponibles para la métrica.
  • Intervalos de agregación: intervalos en los que se obtiene una muestra de la métrica. Por ejemplo, PT1M indica que se obtiene una muestra de la métrica cada minuto, PT30M cada 30 minutos, PT1H cada hora, etc.
  • Exportación de DS: indica si la métrica se puede exportar a los registros de Azure Monitor mediante la configuración de diagnóstico.
Métrica Nombre en la API REST Descripción Unidad Agregación Dimensiones Intervalos de agregación Exportación de DS
Error de tiempo de espera de la tarea Celery del entorno de ejecución de integración de Airflow AirflowIntegrationRuntimeCeleryTaskTimeoutError Número de errores de AirflowTaskTimeout que se producen al publicar la tarea en el agente de Celery. Count Total IntegrationRuntimeName PT1M No
DAG de base de datos de recopilación del entorno de ejecución de integración de Airflow AirflowIntegrationRuntimeCollectDBDags Milisegundos tomados para capturar todos los DAG serializados de la base de datos. Milisegundos Average IntegrationRuntimeName PT1M No
Porcentaje de CPU del entorno de ejecución de integración de Airflow AirflowIntegrationRuntimeCpuPercentage Porcentaje de uso de CPU del entorno de ejecución de integración de Airflow. Percent Average IntegrationRuntimeName, ContainerName PT1M No
Uso de memoria del entorno de ejecución de integración de Airflow AirflowIntegrationRuntimeCpuUsage Millinúcleos que consume el entorno de ejecución de integración de Airflow, que indica los recursos de CPU usados en milésimas de un núcleo de CPU. Milinúcleos Average IntegrationRuntimeName, ContainerName PT1M
Tamaño de contenedor DAG del entorno de ejecución de integración de Airflow AirflowIntegrationRuntimeDagBagSize Número de DAG encontrados cuando el programador ejecutó un examen en función de su configuración. Count Total IntegrationRuntimeName PT1M No
Excepciones de devolución de llamada de DAG del entorno de ejecución de integración de Airflow AirflowIntegrationRuntimeDagCallbackExceptions Número de excepciones generadas a partir de devoluciones de llamadas DAG. Cuando se producen excepciones, significa que la devolución de la llamada DAG no funciona. Count Total IntegrationRuntimeName PT1M No
Error de actualización de archivos DAG del entorno de ejecución de integración de Airflow AirflowIntegrationRuntimeDAGFileRefreshError Número de errores al cargar los archivos DAG. Count Total IntegrationRuntimeName PT1M No
Errores de importación de procesamiento de DAG del entorno de ejecución de integración de Airflow AirflowIntegrationRuntimeDAGProcessingImportErrors Número de errores al intentar analizar archivos DAG. Count Total IntegrationRuntimeName PT1M No
Última duración del procesamiento de DAG del entorno de ejecución de integración de Airflow AirflowIntegrationRuntimeDAGProcessingLastDuration Segundos que se tardan en cargar el archivo DAG específico. Milisegundos Average IntegrationRuntimeName, DagFile PT1M No
Última ejecución hace unos segundos del procesamiento de DAG del entorno de ejecución de integración de Airflow AirflowIntegrationRuntimeDAGProcessingLastRunSecondsAgo Segundos desde que <dag_file> se procesó por última vez. Segundos Average IntegrationRuntimeName, DagFile PT1M No
Obstrucciones de ProcessingManager de DAG del entorno de ejecución de integración de Airflow AirflowIntegrationRuntimeDAGProcessingManagerStalls Número de elementos DagFileProcessorManager obstruidos. Count Total IntegrationRuntimeName PT1M No
Procesos de procesamiento de DAG de flujo del entorno de ejecución de integración de Airflow AirflowIntegrationRuntimeDAGProcessingProcesses Número relativo de procesos de análisis de DAG actualmente en ejecución. (Por ejemplo, esta diferencia es negativa si se han completado procesos desde que se envió la última métrica). Count Total IntegrationRuntimeName PT1M No
Tiempos de espera del procesador de procesamiento de DAG del entorno de ejecución de integración de Airflow AirflowIntegrationRuntimeDAGProcessingProcessorTimeouts Número de procesadores de archivos que se terminaron porque tardaron demasiado tiempo. Segundos Media IntegrationRuntimeName PT1M No
Tiempo total de análisis de procesamiento de DAG del entorno de ejecución de integración de Airflow AirflowIntegrationRuntimeDAGProcessingTotalParseTime Segundos que se tardan en examinar e importar archivos DAG dag_processing.file_path_queue_size. Segundos Media IntegrationRuntimeName PT1M No
Comprobación de dependencias de ejecución de DAG del entorno de ejecución de integración de Airflow AirflowIntegrationRuntimeDAGRunDependencyCheck Milisegundos que se tarda en comprobar las dependencias de DAG. Milisegundos Average IntegrationRuntimeName, DagId PT1M No
Error de duración de ejecución de DAG del entorno de ejecución de integración de Airflow AirflowIntegrationRuntimeDAGRunDurationFailed Segundos que tarda un elemento DagRun en alcanzar el estado con errores. Milisegundos Average IntegrationRuntimeName, DagId PT1M No
Duración correcta de la ejecución de DAG del entorno de ejecución de integración de Airflow AirflowIntegrationRuntimeDAGRunDurationSuccess Segundos que tarda un elemento DagRun en alcanzar el estado correcto. Milisegundos Average IntegrationRuntimeName, DagId PT1M No
Retraso en la programación de la primera tarea de ejecución de DAG del entorno de ejecución de integración de Airflow AirflowIntegrationRuntimeDAGRunFirstTaskSchedulingDelay Los segundos transcurridos entre el primer elemento start_date de la tarea y el inicio esperado de DagRun. Milisegundos Average IntegrationRuntimeName, DagId PT1M No
Retraso de la programación de ejecución de DAG del entorno de ejecución de integración de Airflow AirflowIntegrationRuntimeDAGRunScheduleDelay Segundos de retraso entre la fecha de inicio de DagRun programada y la fecha de inicio real de DagRun. Milisegundos Average IntegrationRuntimeName, DagId PT1M No
Ranuras abiertas del ejecutor del entorno de ejecución de integración de Airflow AirflowIntegrationRuntimeExecutorOpenSlots Número de ranuras abiertas en el ejecutor. Count Total IntegrationRuntimeName PT1M No
Tareas en cola del entorno de ejecución de integración de Airflow AirflowIntegrationRuntimeExecutorQueuedTasks Número de tareas en cola en el ejecutor. Count Total IntegrationRuntimeName PT1M No
Tareas en ejecución del ejecutor del entorno de ejecución de integración de Airflow AirflowIntegrationRuntimeExecutorRunningTasks Número de tareas en ejecución en el ejecutor. Count Total IntegrationRuntimeName PT1M No
Finalización del trabajo del entorno de ejecución de integración de Airflow AirflowIntegrationRuntimeJobEnd Número de trabajos de <job_name> finalizados, por ejemplo, SchedulerJob y LocalTaskJob. Count Total IntegrationRuntimeName, Job PT1M No
Error de latido del entorno de ejecución de integración de Airflow AirflowIntegrationRuntimeJobHeartbeatFailure Número de latidos con error para un trabajo de <job_name>, por ejemplo, SchedulerJob y LocalTaskJob. Count Total IntegrationRuntimeName, Job PT1M No
Inicio del trabajo del entorno de ejecución de integración de Airflow AirflowIntegrationRuntimeJobStart Número de trabajos de <job_name> iniciados, por ejemplo, SchedulerJob y LocalTaskJob. Count Total IntegrationRuntimeName, Job PT1M No
Porcentaje de memoria del entorno de ejecución de integración de Airflow AirflowIntegrationRuntimeMemoryPercentage Porcentaje de memoria que usan los entornos de ejecución de integración de Airflow. Percent Average IntegrationRuntimeName, ContainerName PT1M
Recuento de nodos del entorno de ejecución de integración de Airflow AirflowIntegrationRuntimeNodeCount Count Average IntegrationRuntimeName, ComputeNodeSize PT1M
Operaciones erróneas del operador del entorno de ejecución de integración de Airflow AirflowIntegrationRuntimeOperatorFailures Total de operaciones erróneas del operador. Count Total IntegrationRuntimeName, Operator PT1M No
Operaciones correctas del operador del entorno de ejecución de integración de Airflow AirflowIntegrationRuntimeOperatorSuccesses Total de operaciones correctas del operador. Count Total IntegrationRuntimeName, Operator PT1M No
Ranuras abiertas del grupo del entorno de ejecución de integración de Airflow AirflowIntegrationRuntimePoolOpenSlots Número de ranuras abiertas en el grupo. Count Total IntegrationRuntimeName, Pool PT1M No
Ranuras en cola del grupo del entorno de ejecución de integración de Airflow AirflowIntegrationRuntimePoolQueuedSlots Número de ranuras en cola en el grupo. Count Total IntegrationRuntimeName, Pool PT1M No
Ranuras de ejecución del grupo del entorno de ejecución de integración de Airflow AirflowIntegrationRuntimePoolRunningSlots Número de ranuras en ejecución en el grupo. Count Total IntegrationRuntimeName, Pool PT1M No
Tareas de privación del grupo del entorno de ejecución de integración de Airflow AirflowIntegrationRuntimePoolStarvingTasks Número de tareas de privación en el grupo. Count Total IntegrationRuntimeName, Pool PT1M No
Sección crítica ocupada del programador del entorno de ejecución de integración de Airflow AirflowIntegrationRuntimeSchedulerCriticalSectionBusy Recuento de veces que un proceso de programador intentó obtener un bloqueo en la sección crítica (necesario para enviar tareas al ejecutor) y encontró que lo bloqueaba otro proceso. Count Total IntegrationRuntimeName PT1M No
Duración crítica del programador del entorno de ejecución de integración de Airflow AirflowIntegrationRuntimeSchedulerCriticalSectionDuration Milisegundos invertidos en la sección crítica de un bucle de programador. Solo un programador a la vez puede escribir este bucle. Milisegundos Average IntegrationRuntimeName PT1M No
Intentos erróneos de correo electrónico del Acuerdo de Nivel de Servicio del programador del entorno de ejecución de integración de Airflow AirflowIntegrationRuntimeSchedulerFailedSLAEmailAttempts Número de intentos erróneos de notificación por correo electrónico del Acuerdo de Nivel de Servicio. Count Total IntegrationRuntimeName PT1M No
Latidos del programador del entorno de ejecución de integración de Airflow AirflowIntegrationRuntimeSchedulerHeartbeat Latidos del programador. Count Total IntegrationRuntimeName PT1M No
Tareas huérfanas del programador del entorno de ejecución de integración de Airflow adoptadas AirflowIntegrationRuntimeSchedulerOrphanedTasksAdopted Número de tareas huérfanas que adopta el Programador. Count Total IntegrationRuntimeName PT1M No
Tareas huérfanas del programador del entorno de ejecución de integración de Airflow desactivadas AirflowIntegrationRuntimeSchedulerOrphanedTasksCleared Número de tareas huérfanas que desactiva el Programador. Count Total IntegrationRuntimeName PT1M No
Archivos ejecutables de tareas del programador del entorno de ejecución de integración de Airflow AirflowIntegrationRuntimeSchedulerTasksExecutable Número de tareas listas para su ejecución (establecidas en cola) con respecto a los límites del grupo, la simultaneidad de DAG, el estado del ejecutor y la prioridad. Count Total IntegrationRuntimeName PT1M No
Tareas del programador del entorno de ejecución de integración de Airflow terminadas externamente AirflowIntegrationRuntimeSchedulerTasksKilledExternally Número de tareas terminadas externamente. Count Total IntegrationRuntimeName PT1M No
Tareas del programador del entorno de ejecución de integración de Airflow en ejecución AirflowIntegrationRuntimeSchedulerTasksRunning Count Total IntegrationRuntimeName PT1M No
Tareas de privación del programador del entorno de ejecución de integración de Airflow AirflowIntegrationRuntimeSchedulerTasksStarving Número de tareas que no se pueden programar debido a que no hay ninguna ranura abierta en el grupo. Count Total IntegrationRuntimeName PT1M No
Instancias de tarea iniciadas del entorno de ejecución de integración de Airflow AirflowIntegrationRuntimeStartedTaskInstances Count Total IntegrationRuntimeName, DagId, TaskId PT1M No
Instancia de tarea creada mediante el operador del entorno de ejecución de integración de Airflow AirflowIntegrationRuntimeTaskInstanceCreatedUsingOperator Número de instancias de tarea creadas para un operador específico. Count Total IntegrationRuntimeName, Operator PT1M No
Duración de la instancia de tarea del entorno de ejecución de integración de Airflow AirflowIntegrationRuntimeTaskInstanceDuration Milisegundos Average IntegrationRuntimeName, DagId, TaskID PT1M No
Errores de instancia de tarea del entorno de ejecución de integración de Airflow AirflowIntegrationRuntimeTaskInstanceFailures Errores generales de instancias de tareas. Count Total IntegrationRuntimeName PT1M No
Instancia de tarea del entorno de ejecución de integración de Airflow finalizada AirflowIntegrationRuntimeTaskInstanceFinished Instancias de tareas generales finalizadas. Count Total IntegrationRuntimeName, DagId, TaskId, State PT1M No
Instancia de tarea del entorno de ejecución de integración de Airflow realizada previamente con éxito AirflowIntegrationRuntimeTaskInstancePreviouslySucceeded Número de instancias de tarea anteriormente realizadas con éxito. Count Total IntegrationRuntimeName PT1M No
Instancia de tarea del entorno de ejecución de integración de Airflow correcta AirflowIntegrationRuntimeTaskInstanceSuccesses Instancias de tareas generales realizadas con éxito. Count Total IntegrationRuntimeName PT1M No
Tarea del entorno de ejecución de integración de Airflow quitada de DAG AirflowIntegrationRuntimeTaskRemovedFromDAG Número de tareas eliminadas para un DAG específico. (Es decir, la tarea ya no existe en DAG). Count Total IntegrationRuntimeName, DagId PT1M No
Tarea del entorno de ejecución de integración de Airflow restaurada en DAG AirflowIntegrationRuntimeTaskRestoredToDAG Número de tareas restauradas para un DAG específico. (Es decir, una instancia de tarea que se encontraba anteriormente en un estado REMOVED en la base de datos se agrega a un archivo DAG). Count Total IntegrationRuntimeName, DagId PT1M No
Desencadenadores del entorno de ejecución de integración de Airflow de subproceso principal bloqueado AirflowIntegrationRuntimeTriggersBlockedMainThread Número de desencadenadores que bloquearon el subproceso principal (probablemente porque no eran totalmente asincrónicos). Count Total IntegrationRuntimeName PT1M No
Error en los desencadenadores del entorno de ejecución de integración de Airflow AirflowIntegrationRuntimeTriggersFailed Número de desencadenadores que han producido un error antes de que pudieran desencadenar un evento. Count Total IntegrationRuntimeName PT1M No
Desencadenadores del entorno de ejecución de integración de Airflow en ejecución AirflowIntegrationRuntimeTriggersRunning Número de desencadenadores que se ejecutan actualmente para un desencadenador (descrito por nombre de host). Count Total IntegrationRuntimeName PT1M No
Desencadenadores del entorno de ejecución de integración de Airflow correctos AirflowIntegrationRuntimeTriggersSucceeded Número de desencadenadores que activaron al menos un evento. Count Total IntegrationRuntimeName PT1M No
Tareas zombis del entorno de ejecución de integración de Airflow terminadas AirflowIntegrationRuntimeZombiesKilled Tareas zombis terminadas. Count Total IntegrationRuntimeName PT1M No

Para obtener más información, consulta Métricas admitidas para Microsoft.DataFactory/factories.