Transformação de classificação no fluxo de dados de mapeamento

Artigo
07/25/2023

APLICA-SE A: Azure Data Factory Azure Synapse Analytics

Dica

Experimente o Data Factory no Microsoft Fabric, uma solução de análise tudo-em-um para empresas. O Microsoft Fabric abrange desde movimentação de dados até ciência de dados, análise em tempo real, business intelligence e relatórios. Saiba como iniciar uma avaliação gratuita!

Os fluxos de dados estão disponíveis nos pipelines do Azure Data Factory e do Azure Synapse. Este artigo se aplica ao fluxo de dados de mapeamento. Se você for iniciante nas transformações, veja o artigo introdutório Transformar dados usando um fluxo de dados de mapeamento.

A transformação de classificação permite que você classifique as linhas de entrada no fluxo de dados atual. Você pode escolher colunas individuais e classificá-las em ordem crescente ou decrescente.

Observação

Os fluxos de dados de mapeamento são executados em clusters do Spark que distribuem dados entre vários nós e partições. Se você optar por reparticionar seus dados em uma transformação subsequente, poderá perder sua classificação devido a essa recombinação de dados. A melhor maneira de manter a ordem de classificação em seu fluxo de dados é definir uma única partição na guia Otimizar na transformação e manter a transformação de Classificação o mais próximo possível do Coletor.

Configuração

Sort settings

Não diferencia maiúsculas de minúsculas: se você deseja ignorar maiúsculas e minúsculas ao classificar uma cadeia de caracteres ou campos de texto

Classificar Somente Dentro das Partições: à medida que os fluxos de dados são executados no Spark, cada fluxo de dados é dividido em partições. Essa configuração classifica os dados somente dentro das partições de entrada em vez de classificar todo o fluxo de dados.

Condições de classificação: escolha quais colunas você está classificando e em qual ordem a classificação acontece. A ordem determina a prioridade de classificação. Escolha se os nulos aparecerão ou não no início ou no final do fluxo de dados.

Colunas computadas

Para modificar ou extrair um valor de coluna antes de aplicar a classificação, passe o mouse sobre a coluna e selecione "coluna computada". Isso abrirá o construtor de expressões para criar uma expressão para a operação de classificação em vez de usar um valor de coluna.

Script de fluxo de dados

Sintaxe

<incomingStream>
    sort(
        desc(<sortColumn1>, { true | false }),
        asc(<sortColumn2>, { true | false }),
        ...
    ) ~> <sortTransformationName<>

Exemplo

Sort settings

O script de fluxo de dados para a configuração de classificação acima está no trecho de código abaixo.

BasketballStats sort(desc(PTS, true),
    asc(Age, true)) ~> Sort1

Após a classificação, talvez você queira usar a Transformação de Agregação