Como funciona o Azure Data Factory Workflow Orchestration Manager?

APLICA-SE A: Azure Data Factory Azure Synapse Analytics

Gorjeta

Experimente o Data Factory no Microsoft Fabric, uma solução de análise tudo-em-um para empresas. O Microsoft Fabric abrange tudo, desde a movimentação de dados até ciência de dados, análises em tempo real, business intelligence e relatórios. Saiba como iniciar uma nova avaliação gratuitamente!

Nota

O Workflow Orchestration Manager é alimentado pelo Apache Airflow.

Nota

O Workflow Orchestration Manager para Azure Data Factory depende do aplicativo Apache Airflow de código aberto. Documentação e mais tutoriais sobre o fluxo de ar podem ser encontrados nas páginas de documentação ou comunidade do Apache Airflow.

O Workflow Orchestration Manager no Azure Data Factory usa DAGs (Directed Acyclic Graphs) baseados em Python para executar seus fluxos de trabalho de orquestração. Para usar esse recurso, você precisa fornecer seus DAGs e plug-ins no Armazenamento de Blobs do Azure. Você pode iniciar a interface do usuário do Airflow a partir do ADF usando uma interface de linha de comando (CLI) ou um kit de desenvolvimento de software (SDK) para gerenciar seus DAGs.

Criar um ambiente do Workflow Orchestration Manager

As etapas a seguir configuram e configuram seu ambiente do Workflow Orchestration Manager.

Pré-requisitos

Subscrição do Azure: se não tem uma subscrição do Azure, crie uma conta gratuita antes de começar. Crie ou selecione um Data Factory existente na região onde a visualização do Workflow Orchestration Manager é suportada.

Passos para criar o ambiente

  1. Crie um novo ambiente do Workflow Orchestration Manager. Vá para Gerenciar hub ->Fluxo de ar (Visualização) ->+Novo para criar um novo ambiente de fluxo de ar

    Captura de tela que mostra como criar um novo ambiente Managed Apache Airflow.

  2. Forneça os detalhes (configuração do fluxo de ar)

    Captura de tela que mostra alguns detalhes do ambiente do Workflow Orchestration Manager.

    Importante

    Ao usar a autenticação básica , lembre-se do nome de usuário e senha especificados nesta tela. Será necessário efetuar login posteriormente na interface do usuário do Workflow Orchestration Manager. A opção padrão é o Microsoft Entra ID e não requer a criação de nome de usuário/senha para seu ambiente Airflow, mas usa a credencial do usuário conectado ao Azure Data Factory para fazer login/monitorar DAGs.

  3. Variáveis de ambiente um armazenamento de valor chave simples dentro do Airflow para armazenar e recuperar conteúdo ou configurações arbitrárias.

  4. Os requisitos podem ser usados para pré-instalar bibliotecas python. Você também pode atualizá-los mais tarde.

Importar DAGs

As etapas a seguir descrevem como importar DAGs para o Workflow Orchestration Manager.

Pré-requisitos

Você precisará carregar um DAG de exemplo em uma conta de armazenamento acessível (deve estar na pasta dags).

Nota

O armazenamento de Blob por trás da VNet não é suportado durante a visualização.
Configuração do KeyVault no storageLinkedServices não suportada para importar dags.

Exemplo de DAG Apache Airflow v2.x. Exemplo de DAG Apache Airflow v1.10.

Etapas para importar

  1. Copie e cole o conteúdo (v2.x ou v1.10 com base no ambiente Airflow que você configurou) em um novo arquivo chamado tutorial.py.

    Carregue o tutorial.py para um armazenamento de blobs. (Como carregar um ficheiro para o blob)

    Nota

    Você precisará selecionar um caminho de diretório de uma conta de armazenamento de blob que contenha pastas chamadas dags e plug-ins para importá-las para o ambiente Airflow. Os plugins não são obrigatórios. Você também pode ter um contêiner chamado dags e carregar todos os arquivos Airflow dentro dele.

  2. Selecione Fluxo de ar (Pré-visualização) em Gerir hub. Em seguida, passe o mouse sobre o ambiente de fluxo de ar criado anteriormente e selecione Importar arquivos para importar todos os DAGs e dependências para o ambiente de fluxo de ar.

    A captura de tela mostra a importação de arquivos no hub de gerenciamento.

  3. Crie um novo Serviço Vinculado para a conta de armazenamento acessível mencionada no pré-requisito (ou use um existente se você já tiver seus próprios DAGs).

    Captura de tela que mostra como criar um novo serviço vinculado.

  4. Use a conta de armazenamento onde você carregou o DAG (verifique o pré-requisito). Teste a conexão e selecione Criar.

    A captura de tela mostra alguns detalhes do serviço vinculado.

  5. Procure e selecione o fluxo de ar se estiver usando o exemplo de URL SAS ou selecione a pasta que contém a pasta dags com arquivos DAG.

    Nota

    Você pode importar DAGs e suas dependências por meio dessa interface. Você precisará selecionar um caminho de diretório de uma conta de armazenamento de blob que contenha pastas chamadas dags e plug-ins para importá-las para o ambiente Airflow. Os plugins não são obrigatórios.

    A captura de tela mostra o armazenamento de navegação em arquivos de importação.

    Captura de tela que mostra a navegação no fluxo de ar.

    A captura de tela mostra a importação em arquivos de importação.

    A captura de tela mostra a importação de dags.

Nota

A importação de DAGs pode levar alguns minutos durante a visualização. A central de notificações (ícone de sino na interface do usuário do ADF) pode ser usada para acompanhar as atualizações de status de importação.

Solução de problemas de importação do DAG

  • Problema: a importação do DAG está demorando mais de 5 minutos Atenuação: reduza o tamanho dos DAGs importados com uma única importação. Uma maneira de conseguir isso é criando várias pastas DAG com DAGs menores em vários contêineres.

  • Problema: os DAGs importados não aparecem quando você entra na interface do usuário do Airflow. Atenuação: entre na interface do usuário do Airflow e veja se há erros de análise do DAG. Isso pode acontecer se os arquivos DAG contiverem qualquer código incompatível. Você encontrará os números exatos das linhas e os arquivos, que têm o problema através da interface do usuário do Airflow.

    A captura de tela mostra problemas de importação dag.

O Monitor DAG é executado

Para monitorar os DAGs do Airflow, entre na interface do usuário do Airflow com o nome de usuário e a senha criados anteriormente.

  1. Selecione no ambiente de fluxo de ar criado.

    Captura de tela que mostra o ambiente Airflow criado.

  2. Entre usando o nome de usuário-senha fornecido durante a criação do Airflow Integration Runtime. (Você pode redefinir o nome de usuário ou senha editando o tempo de execução da integração do Airflow, se necessário)

    Captura de tela que mostra o login usando o nome de usuário-senha fornecido durante a criação do Airflow Integration Runtime.

Remover DAGs do ambiente de fluxo de ar

Se você estiver usando o Airflow versão 1.x, exclua os DAGs implantados em qualquer ambiente de fluxo de ar (IR), você precisará excluir os DAGs em dois locais diferentes.

  1. Excluir o DAG da interface do usuário do Airflow
  2. Excluir o DAG na interface do usuário do ADF

Nota

Esta é a experiência atual durante a Visualização Pública, e vamos melhorar essa experiência.