Dados de mapeamento no Azure Data Factory

APLICA-SE A: Azure Data Factory Azure Synapse Analytics

Dica

Experimente o Data Factory no Microsoft Fabric, uma solução de análise tudo-em-um para empresas. O Microsoft Fabric abrange desde movimentação de dados até ciência de dados, análise em tempo real, business intelligence e relatórios. Saiba como iniciar uma avaliação gratuita!

O que são os fluxos de dados de mapeamento?

Os fluxos de mapeamento de dados são transformações de dados visualmente projetadas no Data Factory. Eles permitem que os engenheiros de dados desenvolvam a lógica de transformação de dados sem escrever código. Os fluxos de dados resultantes são executados como atividades em pipelines do Azure Data Factory que usam clusters Apache Spark expandidos. As atividades de fluxo de dados podem ser operacionalizadas por meio das funcionalidades existentes de agendamento, controle, fluxo e monitoramento do Azure Data Factory.

Os fluxos de mapeamento de dados fornecem uma experiência totalmente visual sem necessidade de codificação. Seus fluxos de dados são executados em clusters de execução gerenciados pelo ADF para processamento de dados expandido. O Azure Data Factory cuida de toda a conversão de código, da otimização de caminho e da execução dos seus trabalhos de fluxo de dados.

Introdução

Os fluxos de dados são criados no painel recursos de fábrica como pipelines e conjuntos de dados. Para criar um fluxo de dados, selecione o sinal de adição ao lado de Recursos de Fábrica e escolha Fluxo de Dados.

Screenshot showing a new data flow. Essa ação leva você para a tela de fluxo de dados, na qual você pode criar a lógica de transformação. Selecione Adicionar origem para começar a configurar sua transformação de origem. Para obter mais informações, confira Transformação de origem.

Criar fluxos de dados

O fluxo de mapeamento de dados tem uma tela de criação exclusiva projetada para facilitar a criação da lógica de transformação. A tela de fluxo de dados é dividida em três partes: a barra superior, o grafo e o painel de configuração.

Screenshot shows the data flow canvas with top bar, graph, and configuration panel labeled.

Gráfico

O grafo exibe o fluxo de transformação. Ele mostra a linhagem dos dados de origem conforme eles fluem em um ou mais coletores. Para adicionar uma nova origem, selecione Adicionar origem. Para adicionar uma nova transformação, selecione o sinal de adição no canto inferior direito de uma transformação existente. Saiba mais sobre como gerenciar o grafo de fluxo de dados.

Screenshot shows the graph part of the canvas with a Search text box.

Painel de configuração

O painel de configuração mostra as configurações específicas para a transformação selecionada no momento. Se nenhuma transformação for selecionada, ele mostrará o fluxo de dados. Na configuração geral do fluxo de dados, você pode adicionar parâmetros por meio da guia Parâmetros. Para obter mais informações, confira Parâmetros de fluxo de mapeamento de dados.

Cada transformação contém pelo menos quatro guias de configuração.

Configurações de transformação

A primeira guia em cada painel de configuração de transformação contém as configurações específicas para essa transformação. Para obter mais informações, confira a página de documentação da transformação.

Screenshot showing the source settings tab.

Otimizar

A guia Otimizar contém configurações para esquemas de particionamento. Para saber mais sobre como otimizar seus fluxos de dados, confira o Guia de desempenho do fluxo de dados de mapeamento.

Screenshot shows the Optimize tab, which includes Partition option, Partition type, and Number of partitions.

Inspecionar

A guia Inspecionar fornece uma exibição dos metadados do fluxo de dados que você está transformando. Você pode ver as contagens de colunas, as colunas alteradas, as colunas adicionadas, os tipos de dados, a ordem das colunas e as referências das colunas. Inspecionar é uma exibição somente leitura de seus metadados. Você não precisa ter o modo de depuração habilitado para ver os metadados no painel Inspecionar.

Inspect

À medida que você alterar a forma de seus dados por meio de transformações, verá os metadados alterarem o fluxo por meio do painel Inspecionar. Se não houver um esquema definido na sua transformação de origem, os metadados não serão visíveis no painel Inspecionar. A falta de metadados é comum em cenários de descompasso de esquema.

Visualização dos dados

Se o modo de depuração estiver ativado, a guia Visualização de Dados fornecerá um instantâneo interativo dos dados em cada transformação. Para obter mais informações, confira Visualização de dados no modo de depuração.

Barra superior

A barra superior contém ações que afetam todo o fluxo de dados, como salvamento e validação. Você também pode exibir o código JSON subjacente e o script de fluxo de dados da sua lógica de transformação. Para obter mais informações, saiba mais sobre o script de fluxo de dados.

Transformações disponíveis

Exiba a visão geral de transformação fluxo de dados de mapeamento para obter uma lista das transformações disponíveis.

Tipos de dados de fluxo de dados

  • array
  • binary
  • booleano
  • complex
  • decimal (inclui precisão)
  • data
  • FLOAT
  • Número inteiro
  • long
  • mapa
  • short
  • string
  • timestamp

Atividade de fluxo de dados

Os fluxos de mapeamento de dados são operados nos pipelines do ADF usando a atividade de fluxo de dados. Basta que o usuário especifique qual runtime de integração usar e passe os valores de parâmetro. Para obter mais informações, confira Runtime de integração do Azure.

Modo de depuração

O modo de depuração permite ver interativamente os resultados de cada etapa de transformação enquanto você cria e depura seus fluxos de dados. A sessão de depuração pode ser usada ao criar sua lógica de fluxo de dados e ao executar depuração de pipeline com atividades de fluxo de dados. Para saber mais, confira a documentação do modo de depuração.

Monitorar fluxos de dados

O mapeamento de fluxo de dados integra-se com os recursos existentes de monitoramento de Azure Data Factory. Para saber como entender a saída de monitoramento do fluxo de dados, confira monitoramento de fluxos de dados de mapeamento.

A equipe do Azure Data Factory criou um guia de ajuste de desempenho para ajudar você a otimizar o tempo de execução de seus fluxos de dados depois de criar a lógica de negócios.