Sortera transformering i dataflödesmappning

GÄLLER FÖR: Azure Data Factory Azure Synapse Analytics

Dricks

Prova Data Factory i Microsoft Fabric, en allt-i-ett-analyslösning för företag. Microsoft Fabric omfattar allt från dataflytt till datavetenskap, realtidsanalys, business intelligence och rapportering. Lär dig hur du startar en ny utvärderingsversion kostnadsfritt!

Dataflöden är tillgängliga både i Azure Data Factory och Azure Synapse Pipelines. Den här artikeln gäller för mappning av dataflöden. Om du är nybörjare på transformeringar kan du läsa den inledande artikeln Transformera data med hjälp av ett mappningsdataflöde.

Med sorteringstransformeringen kan du sortera inkommande rader på den aktuella dataströmmen. Du kan välja enskilda kolumner och sortera dem i stigande eller fallande ordning.

Kommentar

Mappning av dataflöden körs på Spark-kluster som distribuerar data över flera noder och partitioner. Om du väljer att partitionera om dina data i en efterföljande transformering kan du förlora din sortering på grund av omfördelning av data. Det bästa sättet att upprätthålla sorteringsordningen i dataflödet är att ange en enskild partition på fliken Optimera i omvandlingen och hålla sorteringstransformeringen så nära mottagaren som möjligt.

Konfiguration

Sort settings

Skiftlägesokänsligt: Om du vill ignorera skiftläge när du sorterar sträng- eller textfält

Sortera endast inom partitioner: När dataflöden körs på spark delas varje dataström in i partitioner. Den här inställningen sorterar data endast inom inkommande partitioner i stället för att sortera hela dataströmmen.

Sorteringsvillkor: Välj vilka kolumner du sorterar efter och i vilken ordning sorteringen ska ske. Ordningen bestämmer sorteringsprioritet. Välj om null ska visas i början eller slutet av dataströmmen.

Beräknade kolumner

Om du vill ändra eller extrahera ett kolumnvärde innan du tillämpar sorteringen hovra över kolumnen och välj "beräknad kolumn". Då öppnas uttrycksverktyget för att skapa ett uttryck för sorteringsåtgärden i stället för att använda ett kolumnvärde.

Dataflödesskript

Syntax

<incomingStream>
    sort(
        desc(<sortColumn1>, { true | false }),
        asc(<sortColumn2>, { true | false }),
        ...
    ) ~> <sortTransformationName<>

Exempel

Sort settings

Dataflödesskriptet för sorteringskonfigurationen ovan finns i kodfragmentet nedan.

BasketballStats sort(desc(PTS, true),
    asc(Age, true)) ~> Sort1

Efter sortering kanske du vill använda aggregeringstransformeringen