Share via


Dedupe linhas e localizar nulos usando trechos de fluxo de dados

APLICA-SE A: Azure Data Factory Azure Synapse Analytics

Gorjeta

Experimente o Data Factory no Microsoft Fabric, uma solução de análise tudo-em-um para empresas. O Microsoft Fabric abrange tudo, desde a movimentação de dados até ciência de dados, análises em tempo real, business intelligence e relatórios. Saiba como iniciar uma nova avaliação gratuitamente!

Usando trechos de código no mapeamento de fluxos de dados, você pode executar facilmente tarefas comuns, como eliminação de duplicação de dados e filtragem nula. Este artigo explica como adicionar facilmente essas funções aos seus pipelines usando trechos de script de fluxo de dados.

Criar um pipeline

  1. Selecione Novo Pipeline.

  2. Adicione uma atividade de fluxo de dados.

  3. Selecione a guia Configurações de origem, adicione uma transformação de origem e conecte-a a um de seus conjuntos de dados.

    Screenshot of the "Source settings" pane for adding a source type.

    Os trechos de verificação nula e dedupe usam padrões genéricos que aproveitam o desvio do esquema de fluxo de dados. Os trechos funcionam com qualquer esquema do seu conjunto de dados ou com conjuntos de dados que não têm esquema predefinido.

  4. Na seção "Linha distinta usando todas as colunas" do script de fluxo de dados (DFS), copie o trecho de código para DistinctRows.

  5. Vá para a página de documentação do Script de Fluxo de Dados e copie o trecho de código para Linhas Distintas.

    Screenshot of a source snippet.

  6. No script, após a definição de , pressione Enter e cole o trecho de source1código.

  7. Efetue um dos seguintes procedimentos:

    • Conecte este trecho de código colado à transformação de origem que você criou anteriormente no gráfico digitando source1 na frente do código colado.

    • Como alternativa, você pode conectar a nova transformação no designer selecionando o fluxo de entrada do novo nó de transformação no gráfico.

      Screenshot of the "Conditional split settings" pane.

    Agora, o fluxo de dados removerá as linhas duplicadas da origem através da transformação agregada, que agrupa por todas as linhas com um hash geral em todos os valores de coluna.

  8. Adicione um trecho de código para dividir seus dados em um fluxo que contenha linhas com nulos e outro fluxo sem nulos. Para tal:

  9. Volte para a biblioteca de trechos e, desta vez, copie o código para as verificações NULL.

    b. No designer de fluxo de dados, selecione Script novamente e cole esse novo código de transformação na parte inferior. Essa ação conecta o script à sua transformação anterior, colocando o nome dessa transformação na frente do trecho colado.

    Seu gráfico de fluxo de dados agora deve ser semelhante a este:

    Screenshot of the data flow graph.

Agora você criou um fluxo de dados de trabalho com deduping genérico e verificações nulas pegando trechos de código existentes da biblioteca de Scripts de Fluxo de Dados e adicionando-os ao seu design existente.

  • Crie o restante da lógica de fluxo de dados usando transformações de fluxos de dados de mapeamento.