Implementación del procesamiento y el análisis de datos con Trabajos

Artículo
03/25/2024

Puede usar un trabajo de Azure Databricks para organizar las canalizaciones de procesamiento de datos, aprendizaje automático o análisis de datos en la plataforma de Databricks. Trabajos de Azure Databricks admite varios tipos de carga de trabajo, incluidos cuadernos, scripts, canalizaciones de Delta Live Tables, consultas de Databricks SQL y proyectos de dbt. Los siguientes artículos le guían en el uso de las características y opciones de trabajos de Azure Databricks para implementar las canalizaciones de datos.

Transformación, análisis y visualización de los datos con un trabajo de Azure Databricks

Puede usar un trabajo para crear una canalización de datos que ingiere, transforma, analiza y visualiza datos. El ejemplo de Uso de Databricks SQL en un trabajo de Azure Databricks compila una canalización que:

Usa un script de Python para capturar datos mediante una API REST.
Usa Delta Live Tables para ingerir y transformar los datos capturados y guardar los datos transformados en Delta Lake.
Usa la integración de Trabajos con Databricks SQL para analizar los datos transformados y crear gráficos para visualizar los resultados.

Usar transformaciones de dbt en un trabajo

Use el tipo de tarea dbt si va a realizar la transformación de datos con un proyecto principal de dbt y quiere integrar ese proyecto en un trabajo de Azure Databricks o si desea crear nuevas transformaciones de dbt y ejecutar esas transformaciones en un trabajo. Consulte Uso de transformaciones de dbt en un trabajo de Azure Databricks.

Usar un paquete de Python en un trabajo

Los archivos wheel de Python son una manera estándar de empaquetar y distribuir los archivos necesarios para ejecutar una aplicación de Python. Puede crear fácilmente un trabajo que use código de Python empaquetado como un archivo wheel de Python con el tipo de tarea Python wheel. Consulte Uso de un archivo wheel de Python en trabajos de Azure Databricks.

Uso del código empaquetado en un archivo JAR

Las bibliotecas y aplicaciones implementadas en un lenguaje JVM, como Java y Scala, se empaquetan normalmente en un archivo de archivo java (JAR). Trabajos de Azure Databricks admite el código empaquetado en un archivo JAR con el tipo de tarea JAR. Consulte Uso de un archivo JAR en un trabajo de Azure Databricks.

Uso de cuadernos o un código de Python mantenido en un repositorio central

Una manera común de administrar el control de versiones y la colaboración para artefactos de producción es usar un repositorio central como GitHub. Azure Databricks Jobs admite la creación y ejecución de trabajos mediante cuadernos o código de Python importado desde un repositorio, incluidos GitHub o carpetas de Git de Databricks. Vea Usar el código fuente controlado por versiones en un trabajo de Azure Databricks.

Orqueste sus trabajos con Apache Airflow

Databricks recomienda usar Trabajos de Azure Databricks para orquestar los flujos de trabajo. Sin embargo, Apache Airflow se usa normalmente como sistema de orquestación de flujo de trabajo y proporciona compatibilidad nativa con Trabajos de Azure Databricks. Aunque Trabajos de Azure Databricks proporciona una interfaz de usuario visual para crear los flujos de trabajo, Airflow usa archivos de Python para definir e implementar las canalizaciones de datos. Para obtener un ejemplo de creación y ejecución de un trabajo con Airflow, consulte Orquestación de trabajos de Azure Databricks con Apache Airflow.

Ejecute un trabajo mediante una entidad de servicio

Puede ejecutar los trabajos como cuenta de servicio mediante el uso de una aplicación y una entidad de servicio de Microsoft Entra ID (anteriormente Azure Active Directory). La ejecución de un trabajo como cuenta de servicio en lugar de un usuario individual le permite controlar el acceso al trabajo, asegurarse de que el trabajo tenga los permisos necesarios y evitar problemas si se quita un propietario de un trabajo de un área de trabajo. Para ver un tutorial sobre cómo crear y usar entidades de servicio para ejecutar trabajos de Azure Databricks, consulte Ejecución de trabajos con entidades de servicio de Microsoft Entra ID.