Implemente fluxos de trabalho de processamento e análise de dados com o Jobs

Artigo
04/19/2024

Você pode usar um trabalho do Azure Databricks para orquestrar seus pipelines de processamento de dados, aprendizado de máquina ou análise de dados na plataforma Databricks. Os Trabalhos do Azure Databricks dão suporte a vários tipos de carga de trabalho, incluindo blocos de anotações, scripts, pipelines Delta Live Tables, consultas SQL Databricks e projetos dbt . Os artigos a seguir orientam você no uso dos recursos e opções dos Trabalhos do Azure Databricks para implementar seus pipelines de dados.

Transforme, analise e visualize seus dados com um trabalho do Azure Databricks

Você pode usar um trabalho para criar um pipeline de dados que ingere, transforma, analisa e visualiza dados. O exemplo em Usar Databricks SQL em um trabalho do Azure Databricks cria um pipeline que:

Usa um script Python para buscar dados usando uma API REST.
Usa Delta Live Tables para ingerir e transformar os dados buscados e salvar os dados transformados no Delta Lake.
Usa a integração de Jobs com Databricks SQL para analisar os dados transformados e criar gráficos para visualizar os resultados.

Usar transformações dbt em um trabalho

Use o tipo de tarefa se estiver fazendo a dbt transformação de dados com um projeto dbt core e quiser integrar esse projeto em um trabalho do Azure Databricks, ou se quiser criar novas transformações dbt e executar essas transformações em um trabalho. Consulte Usar transformações dbt em um trabalho do Azure Databricks.

Usar um pacote Python em um trabalho

Os arquivos de roda Python são uma maneira padrão de empacotar e distribuir os arquivos necessários para executar um aplicativo Python. Você pode facilmente criar um trabalho que usa código Python empacotado como um arquivo de roda Python com o Python wheel tipo de tarefa. Consulte Usar um arquivo de roda Python em um trabalho do Azure Databricks.

Usar código empacotado em um JAR

Bibliotecas e aplicativos implementados em uma linguagem JVM, como Java e Scala, geralmente são empacotados em um arquivo Java archive (JAR). O Azure Databricks Jobs dá suporte ao código empacotado em um JAR com o tipo de JAR tarefa. Consulte Usar um JAR em um trabalho do Azure Databricks.

Usar blocos de anotações ou código Python mantidos em um repositório central

Uma maneira comum de gerenciar o controle de versão e a colaboração para artefatos de produção é usar um repositório central, como o GitHub. O Azure Databricks Jobs dá suporte à criação e execução de trabalhos usando blocos de anotações ou código Python importado de um repositório, incluindo pastas GitHub ou Databricks Git. Consulte Usar código-fonte controlado por versão em um trabalho do Azure Databricks.

Orquestre seus trabalhos com o Apache Airflow

O Databricks recomenda o uso do Azure Databricks Jobs para orquestrar seus fluxos de trabalho. No entanto, o Apache Airflow é comumente usado como um sistema de orquestração de fluxo de trabalho e fornece suporte nativo para trabalhos do Azure Databricks. Enquanto o Azure Databricks Jobs fornece uma interface do usuário visual para criar seus fluxos de trabalho, o Airflow usa arquivos Python para definir e implantar seus pipelines de dados. Para obter um exemplo de criação e execução de um trabalho com o Airflow, consulte Orquestrar trabalhos do Azure Databricks com o Apache Airflow.

Executar um trabalho usando uma entidade de serviço

Você pode executar seus trabalhos como uma conta de serviço usando um aplicativo Microsoft Entra ID (anteriormente Azure Ative Directory) e entidade de serviço. Executar um trabalho como uma conta de serviço em vez de um utilizador individual permite-lhe controlar o acesso ao trabalho, garantir que o trabalho tem as permissões necessárias e evitar problemas se o proprietário de um trabalho for removido de uma área de trabalho. Para obter um tutorial sobre como criar e usar uma entidade de serviço para executar um trabalho do Azure Databricks, consulte Executar um trabalho com uma entidade de serviço do Microsoft Entra ID.

Partilhar via