Métricas y registros de diagnóstico para el Administrador de orquestación de flujo de trabajo
Nota:
El Administrador de orquestación de flujo de trabajo cuenta con la tecnología de Apache Airflow.
Este artículo te guía a través de los pasos para lo siguiente:
- Habilitar las métricas y los registros de diagnóstico del Administrador de orquestación de flujo de trabajo en Azure Data Factory.
- Ver registros y métricas.
- Ejecute una consulta .
- Supervisar las métricas y establecer el sistema de alertas en un error de grafo acíclico dirigido (DAG).
Requisitos previos
Necesita una suscripción de Azure. Si no tiene una suscripción a Azure, cree una cuenta gratuita de Azure antes de empezar.
Habilitación de métricas y registros de diagnóstico para el Administrador de orquestación de flujo de trabajo
Abre el recurso de Data Factory y selecciona Configuración de diagnóstico en el panel situado más a la izquierda. Después, seleccione Agregar configuración de diagnóstico.
Rellena el nombre de la Configuración de diagnóstico. Selecciona las siguientes categorías para los registros de Airflow:
- Registros de ejecución de tareas de Airflow
- Registros de trabajo de Airflow
- Registros de procesamiento de DAG de Airflow
- Registros del programador de Airflow
- Registros web de Airflow
- Si selecciona AllMetrics, varias métricas de Data Factory están disponibles para que las supervise o genere alertas. Estas incluyen las métricas de la actividad de Data Factory y el entorno de ejecución de integración del Administrador de orquestación de flujo de trabajo, como
AirflowIntegrationRuntimeCpuUsage
yAirflowIntegrationRuntimeMemory
.
En Detalles del destino, active la casilla Enviar al área de trabajo de Log Analytics.
Seleccione Guardar.
Ver registros
Después de agregar la configuración de diagnóstico, puedes encontrarla en la sección Configuración de diagnóstico. Para acceder a los registros y verlos, selecciona el área de trabajo de Log Analytics que has configurado.
Selecciona Ver registros en la sección Maximización de la experiencia de Log Analytics.
Se te dirige al área de trabajo de Log Analytics, donde puedes ver que las tablas seleccionadas se importaron automáticamente en el área de trabajo.
Otros vínculos útiles para el esquema:
- Referencia de registros de Azure Monitor: ADFAirflowSchedulerLogs | Microsoft Learn
- Referencia de registros de Azure Monitor: ADFAirflowTaskLogs | Microsoft Learn
- Referencia de registros de Azure Monitor: ADFAirflowWebLogs | Microsoft Learn
- Referencia de registros de Azure Monitor: ADFAirflowWorkerLogs | Microsoft Learn
- Referencia de registros de Azure Monitor: AirflowDagProcessingLogs | Microsoft Learn
Escriba una consulta.
Comencemos con la consulta más sencilla, que devuelve todos los registros en
ADFAirflowTaskLogs
. Puedes hacer doble clic en el nombre de la tabla para agregarlo a una ventana de consulta. También puedes escribir el nombre de la tabla directamente en la ventana.Para restringir los resultados de búsqueda, como filtrarlos en función de un identificador de tarea específico, puede usar la consulta siguiente:
ADFAirflowTaskLogs | where DagId == "<your_dag_id>" and TaskId == "<your_task_id>"
Del mismo modo, puedes crear consultas personalizadas según tus necesidades mediante cualquier tabla disponible en LogManagement
.
Para más información, vea:
- Tutorial de Log Analytics
- Introducción a Lenguaje de consulta Kusto (KQL): Azure Data Explorer | Microsoft Learn
Supervisión de métricas
Data Factory ofrece métricas completas para entornos de ejecución de integración de Airflow, lo que te permite supervisar eficazmente el rendimiento del entorno de ejecución de integración de Airflow y establecer mecanismos de alerta según sea necesario.
Abre tu recurso de Data Factory.
En el panel situado más a la izquierda, en la sección Supervisión, selecciona Métricas.
Selecciona la opción Ámbito>Espacio de nombres de métrica>Métrica que quieras supervisar.
Revisa el gráfico de varias líneas que visualiza el porcentaje de CPU de Integration Runtime y el tamaño de contenedor de DAG de Integration Runtime.
Puedes configurar una regla de alerta que se desencadene cuando las métricas cumplan condiciones específicas. Para más información, consulta Información general sobre las alertas de Azure Monitor.
Selecciona Guardar en el panel después de que el gráfico haya terminado o desaparezca.
Métricas de Airflow
En la tabla siguiente se muestran las métricas disponibles para el Administrador de orquestación de flujo de trabajo. Los encabezados de tabla son los siguientes:
- Métrica: el nombre para mostrar de la métrica tal como aparece en Azure Portal.
- Nombre en la API REST: el nombre de la métrica por el que se conoce en la API REST.
- Descripción: una descripción de la métrica.
- Unidad: unidad de medida.
- Agregación: el tipo de agregación predeterminado. Los valores válidos son Promedio, Mínimo, Máximo, Total y Recuento.
- Dimensiones: dimensiones disponibles para la métrica.
- Intervalos de agregación: intervalos en los que se obtiene una muestra de la métrica. Por ejemplo, PT1M indica que se obtiene una muestra de la métrica cada minuto, PT30M cada 30 minutos, PT1H cada hora, etc.
- Exportación de DS: indica si la métrica se puede exportar a los registros de Azure Monitor mediante la configuración de diagnóstico.
Métrica | Nombre en la API REST | Descripción | Unidad | Agregación | Dimensiones | Intervalos de agregación | Exportación de DS |
---|---|---|---|---|---|---|---|
Error de tiempo de espera de la tarea Celery del entorno de ejecución de integración de Airflow | AirflowIntegrationRuntimeCeleryTaskTimeoutError |
Número de errores de AirflowTaskTimeout que se producen al publicar la tarea en el agente de Celery. |
Count | Total | IntegrationRuntimeName |
PT1M | No |
DAG de base de datos de recopilación del entorno de ejecución de integración de Airflow | AirflowIntegrationRuntimeCollectDBDags |
Milisegundos tomados para capturar todos los DAG serializados de la base de datos. | Milisegundos | Average | IntegrationRuntimeName |
PT1M | No |
Porcentaje de CPU del entorno de ejecución de integración de Airflow | AirflowIntegrationRuntimeCpuPercentage |
Porcentaje de uso de CPU del entorno de ejecución de integración de Airflow. | Percent | Average | IntegrationRuntimeName , ContainerName |
PT1M | No |
Uso de memoria del entorno de ejecución de integración de Airflow | AirflowIntegrationRuntimeCpuUsage |
Millinúcleos que consume el entorno de ejecución de integración de Airflow, que indica los recursos de CPU usados en milésimas de un núcleo de CPU. | Milinúcleos | Average | IntegrationRuntimeName , ContainerName |
PT1M | Sí |
Tamaño de contenedor DAG del entorno de ejecución de integración de Airflow | AirflowIntegrationRuntimeDagBagSize |
Número de DAG encontrados cuando el programador ejecutó un examen en función de su configuración. | Count | Total | IntegrationRuntimeName |
PT1M | No |
Excepciones de devolución de llamada de DAG del entorno de ejecución de integración de Airflow | AirflowIntegrationRuntimeDagCallbackExceptions |
Número de excepciones generadas a partir de devoluciones de llamadas DAG. Cuando se producen excepciones, significa que la devolución de la llamada DAG no funciona. | Count | Total | IntegrationRuntimeName |
PT1M | No |
Error de actualización de archivos DAG del entorno de ejecución de integración de Airflow | AirflowIntegrationRuntimeDAGFileRefreshError |
Número de errores al cargar los archivos DAG. | Count | Total | IntegrationRuntimeName |
PT1M | No |
Errores de importación de procesamiento de DAG del entorno de ejecución de integración de Airflow | AirflowIntegrationRuntimeDAGProcessingImportErrors |
Número de errores al intentar analizar archivos DAG. | Count | Total | IntegrationRuntimeName |
PT1M | No |
Última duración del procesamiento de DAG del entorno de ejecución de integración de Airflow | AirflowIntegrationRuntimeDAGProcessingLastDuration |
Segundos que se tardan en cargar el archivo DAG específico. | Milisegundos | Average | IntegrationRuntimeName , DagFile |
PT1M | No |
Última ejecución hace unos segundos del procesamiento de DAG del entorno de ejecución de integración de Airflow | AirflowIntegrationRuntimeDAGProcessingLastRunSecondsAgo |
Segundos desde que <dag_file> se procesó por última vez. | Segundos | Average | IntegrationRuntimeName , DagFile |
PT1M | No |
Obstrucciones de ProcessingManager de DAG del entorno de ejecución de integración de Airflow | AirflowIntegrationRuntimeDAGProcessingManagerStalls |
Número de elementos DagFileProcessorManager obstruidos. |
Count | Total | IntegrationRuntimeName |
PT1M | No |
Procesos de procesamiento de DAG de flujo del entorno de ejecución de integración de Airflow | AirflowIntegrationRuntimeDAGProcessingProcesses |
Número relativo de procesos de análisis de DAG actualmente en ejecución. (Por ejemplo, esta diferencia es negativa si se han completado procesos desde que se envió la última métrica). | Count | Total | IntegrationRuntimeName |
PT1M | No |
Tiempos de espera del procesador de procesamiento de DAG del entorno de ejecución de integración de Airflow | AirflowIntegrationRuntimeDAGProcessingProcessorTimeouts |
Número de procesadores de archivos que se terminaron porque tardaron demasiado tiempo. | Segundos | Media | IntegrationRuntimeName |
PT1M | No |
Tiempo total de análisis de procesamiento de DAG del entorno de ejecución de integración de Airflow | AirflowIntegrationRuntimeDAGProcessingTotalParseTime |
Segundos que se tardan en examinar e importar archivos DAG dag_processing.file_path_queue_size . |
Segundos | Media | IntegrationRuntimeName |
PT1M | No |
Comprobación de dependencias de ejecución de DAG del entorno de ejecución de integración de Airflow | AirflowIntegrationRuntimeDAGRunDependencyCheck |
Milisegundos que se tarda en comprobar las dependencias de DAG. | Milisegundos | Average | IntegrationRuntimeName , DagId |
PT1M | No |
Error de duración de ejecución de DAG del entorno de ejecución de integración de Airflow | AirflowIntegrationRuntimeDAGRunDurationFailed |
Segundos que tarda un elemento DagRun en alcanzar el estado con errores. |
Milisegundos | Average | IntegrationRuntimeName , DagId |
PT1M | No |
Duración correcta de la ejecución de DAG del entorno de ejecución de integración de Airflow | AirflowIntegrationRuntimeDAGRunDurationSuccess |
Segundos que tarda un elemento DagRun en alcanzar el estado correcto. |
Milisegundos | Average | IntegrationRuntimeName , DagId |
PT1M | No |
Retraso en la programación de la primera tarea de ejecución de DAG del entorno de ejecución de integración de Airflow | AirflowIntegrationRuntimeDAGRunFirstTaskSchedulingDelay |
Los segundos transcurridos entre el primer elemento start_date de la tarea y el inicio esperado de DagRun . |
Milisegundos | Average | IntegrationRuntimeName , DagId |
PT1M | No |
Retraso de la programación de ejecución de DAG del entorno de ejecución de integración de Airflow | AirflowIntegrationRuntimeDAGRunScheduleDelay |
Segundos de retraso entre la fecha de inicio de DagRun programada y la fecha de inicio real de DagRun . |
Milisegundos | Average | IntegrationRuntimeName , DagId |
PT1M | No |
Ranuras abiertas del ejecutor del entorno de ejecución de integración de Airflow | AirflowIntegrationRuntimeExecutorOpenSlots |
Número de ranuras abiertas en el ejecutor. | Count | Total | IntegrationRuntimeName |
PT1M | No |
Tareas en cola del entorno de ejecución de integración de Airflow | AirflowIntegrationRuntimeExecutorQueuedTasks |
Número de tareas en cola en el ejecutor. | Count | Total | IntegrationRuntimeName |
PT1M | No |
Tareas en ejecución del ejecutor del entorno de ejecución de integración de Airflow | AirflowIntegrationRuntimeExecutorRunningTasks |
Número de tareas en ejecución en el ejecutor. | Count | Total | IntegrationRuntimeName |
PT1M | No |
Finalización del trabajo del entorno de ejecución de integración de Airflow | AirflowIntegrationRuntimeJobEnd |
Número de trabajos de <job_name> finalizados, por ejemplo, SchedulerJob y LocalTaskJob . |
Count | Total | IntegrationRuntimeName , Job |
PT1M | No |
Error de latido del entorno de ejecución de integración de Airflow | AirflowIntegrationRuntimeJobHeartbeatFailure |
Número de latidos con error para un trabajo de <job_name>, por ejemplo, SchedulerJob y LocalTaskJob . |
Count | Total | IntegrationRuntimeName , Job |
PT1M | No |
Inicio del trabajo del entorno de ejecución de integración de Airflow | AirflowIntegrationRuntimeJobStart |
Número de trabajos de <job_name> iniciados, por ejemplo, SchedulerJob y LocalTaskJob . |
Count | Total | IntegrationRuntimeName , Job |
PT1M | No |
Porcentaje de memoria del entorno de ejecución de integración de Airflow | AirflowIntegrationRuntimeMemoryPercentage |
Porcentaje de memoria que usan los entornos de ejecución de integración de Airflow. | Percent | Average | IntegrationRuntimeName , ContainerName |
PT1M | Sí |
Recuento de nodos del entorno de ejecución de integración de Airflow | AirflowIntegrationRuntimeNodeCount |
Count | Average | IntegrationRuntimeName , ComputeNodeSize |
PT1M | Sí | |
Operaciones erróneas del operador del entorno de ejecución de integración de Airflow | AirflowIntegrationRuntimeOperatorFailures |
Total de operaciones erróneas del operador. | Count | Total | IntegrationRuntimeName , Operator |
PT1M | No |
Operaciones correctas del operador del entorno de ejecución de integración de Airflow | AirflowIntegrationRuntimeOperatorSuccesses |
Total de operaciones correctas del operador. | Count | Total | IntegrationRuntimeName , Operator |
PT1M | No |
Ranuras abiertas del grupo del entorno de ejecución de integración de Airflow | AirflowIntegrationRuntimePoolOpenSlots |
Número de ranuras abiertas en el grupo. | Count | Total | IntegrationRuntimeName , Pool |
PT1M | No |
Ranuras en cola del grupo del entorno de ejecución de integración de Airflow | AirflowIntegrationRuntimePoolQueuedSlots |
Número de ranuras en cola en el grupo. | Count | Total | IntegrationRuntimeName , Pool |
PT1M | No |
Ranuras de ejecución del grupo del entorno de ejecución de integración de Airflow | AirflowIntegrationRuntimePoolRunningSlots |
Número de ranuras en ejecución en el grupo. | Count | Total | IntegrationRuntimeName , Pool |
PT1M | No |
Tareas de privación del grupo del entorno de ejecución de integración de Airflow | AirflowIntegrationRuntimePoolStarvingTasks |
Número de tareas de privación en el grupo. | Count | Total | IntegrationRuntimeName , Pool |
PT1M | No |
Sección crítica ocupada del programador del entorno de ejecución de integración de Airflow | AirflowIntegrationRuntimeSchedulerCriticalSectionBusy |
Recuento de veces que un proceso de programador intentó obtener un bloqueo en la sección crítica (necesario para enviar tareas al ejecutor) y encontró que lo bloqueaba otro proceso. | Count | Total | IntegrationRuntimeName |
PT1M | No |
Duración crítica del programador del entorno de ejecución de integración de Airflow | AirflowIntegrationRuntimeSchedulerCriticalSectionDuration |
Milisegundos invertidos en la sección crítica de un bucle de programador. Solo un programador a la vez puede escribir este bucle. | Milisegundos | Average | IntegrationRuntimeName |
PT1M | No |
Intentos erróneos de correo electrónico del Acuerdo de Nivel de Servicio del programador del entorno de ejecución de integración de Airflow | AirflowIntegrationRuntimeSchedulerFailedSLAEmailAttempts |
Número de intentos erróneos de notificación por correo electrónico del Acuerdo de Nivel de Servicio. | Count | Total | IntegrationRuntimeName |
PT1M | No |
Latidos del programador del entorno de ejecución de integración de Airflow | AirflowIntegrationRuntimeSchedulerHeartbeat |
Latidos del programador. | Count | Total | IntegrationRuntimeName |
PT1M | No |
Tareas huérfanas del programador del entorno de ejecución de integración de Airflow adoptadas | AirflowIntegrationRuntimeSchedulerOrphanedTasksAdopted |
Número de tareas huérfanas que adopta el Programador. | Count | Total | IntegrationRuntimeName |
PT1M | No |
Tareas huérfanas del programador del entorno de ejecución de integración de Airflow desactivadas | AirflowIntegrationRuntimeSchedulerOrphanedTasksCleared |
Número de tareas huérfanas que desactiva el Programador. | Count | Total | IntegrationRuntimeName |
PT1M | No |
Archivos ejecutables de tareas del programador del entorno de ejecución de integración de Airflow | AirflowIntegrationRuntimeSchedulerTasksExecutable |
Número de tareas listas para su ejecución (establecidas en cola) con respecto a los límites del grupo, la simultaneidad de DAG, el estado del ejecutor y la prioridad. | Count | Total | IntegrationRuntimeName |
PT1M | No |
Tareas del programador del entorno de ejecución de integración de Airflow terminadas externamente | AirflowIntegrationRuntimeSchedulerTasksKilledExternally |
Número de tareas terminadas externamente. | Count | Total | IntegrationRuntimeName |
PT1M | No |
Tareas del programador del entorno de ejecución de integración de Airflow en ejecución | AirflowIntegrationRuntimeSchedulerTasksRunning |
Count | Total | IntegrationRuntimeName |
PT1M | No | |
Tareas de privación del programador del entorno de ejecución de integración de Airflow | AirflowIntegrationRuntimeSchedulerTasksStarving |
Número de tareas que no se pueden programar debido a que no hay ninguna ranura abierta en el grupo. | Count | Total | IntegrationRuntimeName |
PT1M | No |
Instancias de tarea iniciadas del entorno de ejecución de integración de Airflow | AirflowIntegrationRuntimeStartedTaskInstances |
Count | Total | IntegrationRuntimeName , DagId , TaskId |
PT1M | No | |
Instancia de tarea creada mediante el operador del entorno de ejecución de integración de Airflow | AirflowIntegrationRuntimeTaskInstanceCreatedUsingOperator |
Número de instancias de tarea creadas para un operador específico. | Count | Total | IntegrationRuntimeName , Operator |
PT1M | No |
Duración de la instancia de tarea del entorno de ejecución de integración de Airflow | AirflowIntegrationRuntimeTaskInstanceDuration |
Milisegundos | Average | IntegrationRuntimeName , DagId , TaskID |
PT1M | No | |
Errores de instancia de tarea del entorno de ejecución de integración de Airflow | AirflowIntegrationRuntimeTaskInstanceFailures |
Errores generales de instancias de tareas. | Count | Total | IntegrationRuntimeName |
PT1M | No |
Instancia de tarea del entorno de ejecución de integración de Airflow finalizada | AirflowIntegrationRuntimeTaskInstanceFinished |
Instancias de tareas generales finalizadas. | Count | Total | IntegrationRuntimeName , DagId , TaskId , State |
PT1M | No |
Instancia de tarea del entorno de ejecución de integración de Airflow realizada previamente con éxito | AirflowIntegrationRuntimeTaskInstancePreviouslySucceeded |
Número de instancias de tarea anteriormente realizadas con éxito. | Count | Total | IntegrationRuntimeName |
PT1M | No |
Instancia de tarea del entorno de ejecución de integración de Airflow correcta | AirflowIntegrationRuntimeTaskInstanceSuccesses |
Instancias de tareas generales realizadas con éxito. | Count | Total | IntegrationRuntimeName |
PT1M | No |
Tarea del entorno de ejecución de integración de Airflow quitada de DAG | AirflowIntegrationRuntimeTaskRemovedFromDAG |
Número de tareas eliminadas para un DAG específico. (Es decir, la tarea ya no existe en DAG). | Count | Total | IntegrationRuntimeName , DagId |
PT1M | No |
Tarea del entorno de ejecución de integración de Airflow restaurada en DAG | AirflowIntegrationRuntimeTaskRestoredToDAG |
Número de tareas restauradas para un DAG específico. (Es decir, una instancia de tarea que se encontraba anteriormente en un estado REMOVED en la base de datos se agrega a un archivo DAG). | Count | Total | IntegrationRuntimeName , DagId |
PT1M | No |
Desencadenadores del entorno de ejecución de integración de Airflow de subproceso principal bloqueado | AirflowIntegrationRuntimeTriggersBlockedMainThread |
Número de desencadenadores que bloquearon el subproceso principal (probablemente porque no eran totalmente asincrónicos). | Count | Total | IntegrationRuntimeName |
PT1M | No |
Error en los desencadenadores del entorno de ejecución de integración de Airflow | AirflowIntegrationRuntimeTriggersFailed |
Número de desencadenadores que han producido un error antes de que pudieran desencadenar un evento. | Count | Total | IntegrationRuntimeName |
PT1M | No |
Desencadenadores del entorno de ejecución de integración de Airflow en ejecución | AirflowIntegrationRuntimeTriggersRunning |
Número de desencadenadores que se ejecutan actualmente para un desencadenador (descrito por nombre de host). | Count | Total | IntegrationRuntimeName |
PT1M | No |
Desencadenadores del entorno de ejecución de integración de Airflow correctos | AirflowIntegrationRuntimeTriggersSucceeded |
Número de desencadenadores que activaron al menos un evento. | Count | Total | IntegrationRuntimeName |
PT1M | No |
Tareas zombis del entorno de ejecución de integración de Airflow terminadas | AirflowIntegrationRuntimeZombiesKilled |
Tareas zombis terminadas. | Count | Total | IntegrationRuntimeName |
PT1M | No |
Para obtener más información, consulta Métricas admitidas para Microsoft.DataFactory/factories.