Snabbstart: Transformera data med mappning av dataflöden

I den här snabbstarten använder du Azure Synapse Analytics för att skapa en pipeline som transformerar data från en Azure Data Lake Storage Gen2-källa (ADLS Gen2) till en ADLS Gen2-mottagare med hjälp av mappning av dataflöde. Konfigurationsmönstret i den här snabbstarten kan utökas när du transformerar data med hjälp av mappning av dataflöde

I den här snabbstarten gör du följande:

  • Skapa en pipeline med en Data Flow-aktivitet i Azure Synapse Analytics.
  • Skapa ett mappningsdataflöde med fyra transformningar.
  • Testkör pipelinen.
  • Övervaka en Data Flow aktivitet

Förutsättningar

  • Azure-prenumeration: Om du inte har någon Azure-prenumeration kan du skapa ett kostnadsfritt konto innan du börjar.

  • Azure Synapse arbetsyta: Skapa en Synapse-arbetsyta med hjälp Azure Portal följa anvisningarna i Snabbstart: Skapa en Synapse-arbetsyta.

  • Azure Storage-konto: Du använder ADLS-lagring som källa och mottagare för datalager. Om du inte har ett lagringskonto finns det anvisningar om hur du skapar ett i Skapa ett Azure Storage-konto.

    Filen som vi transformerar i den här självstudien MoviesDB.csv, som du hittar här. Om du vill hämta filen GitHub kopierar du innehållet till en valfri textredigerare för att spara lokalt som en .csv fil. Om du vill ladda upp filen till ditt lagringskonto kan Upload blobbar med Azure Portal. Exemplen refererar till en container med namnet "sample-data".

När din Azure Synapse har skapats har du två sätt att öppna Synapse Studio:

I den här snabbstarten använder vi arbetsytan med namnet "adftest2020" som exempel. Du kommer automatiskt till Synapse Studio startsidan.

Synapse Studio startsida

Skapa en pipeline med en Data Flow aktivitet

En pipeline innehåller det logiska flödet för en körning av en uppsättning aktiviteter. I det här avsnittet skapar du en pipeline som innehåller en Data Flow aktivitet.

  1. Gå till fliken Integrera. Välj plusikonen bredvid rubriken pipelines och välj Pipeline.

    Skapa en ny pipeline

  2. På sidan Egenskaperinställningar i pipelinen anger du TransformMovies som Namn.

  3. Under Flytta och transformera i fönstret Aktiviteter drar du Dataflöde till pipelinearbetsytan.

  4. I popup-fönstersidan Lägga till dataflöde väljer du Skapa nytt dataflöde -> Dataflöde. Klicka på OK när du är klar.

    Skapa ett dataflöde

  5. Ge dataflödet namnet TransformMoviessidan Egenskaper.

Skapa transformeringslogik på dataflödesarbetsytan

När du har skapat Flow dataflöde skickas du automatiskt till dataflödesarbetsytan. I det här steget skapar du ett dataflöde som tar MoviesDB.csv i ADLS-lagring och aggregerar det genomsnittliga omdömet för komiker från 1910 till 2000. Sedan skriver du tillbaka den här filen till ADLS-lagringen.

  1. Ovanför dataflödesarbetsytan drar du skjutreglaget För felsökning av dataflöde på. Felsökningsläget möjliggör interaktiv testning av transformeringslogiken mot ett spark-livekluster. Data Flow tar 5–7 minuter att värma upp och användarna rekommenderas att aktivera felsökning först om de planerar att göra Data Flow utveckling. Mer information finns i Felsökningsläge.

    Dra i felsökningen

  2. På dataflödesarbetsytan lägger du till en källa genom att klicka på rutan Lägg till källa.

  3. Ge källan namnet MoviesDB. Klicka på Ny för att skapa en ny källdatauppsättning.

    Skapa en ny källdatauppsättning

  4. Välj Azure Data Lake Storage Gen2. Klicka på Fortsätt.

    Välj Azure Data Lake Storage Gen2

  5. Välj DelimitedText. Klicka på Fortsätt.

  6. Ge datauppsättningen namnet MoviesDB. I listrutan länkad tjänst väljer du Nytt.

  7. På skärmen för skapande av länkad tjänst ger du ADLS Gen2 länkade tjänsten ADLSGen2 och anger din autentiseringsmetod. Ange sedan autentiseringsuppgifterna för anslutningen. I den här snabbstarten använder vi kontonyckeln för att ansluta till vårt lagringskonto. Du kan klicka på Testa anslutning för att verifiera att dina autentiseringsuppgifter har angetts korrekt. Klicka på Skapa när du är klar.

    Skapa en länkad källtjänst

  8. När du är tillbaka på skärmen för att skapa datauppsättningen går du till fältet Filsökväg och anger var filen finns. I den här snabbstarten finns filen "MoviesDB.csv" i containern "sample-data". Eftersom filen har rubriker markerar du Första raden som rubrik. Välj Från anslutning/arkiv för att importera huvudschemat direkt från filen i lagringen. Klicka på OK när du är klar.

    Inställningar för källdatauppsättningen

  9. Om felsökningsklustret har startat går du till fliken Dataförhandsvisning i källtransformeringen och klickar på Uppdatera för att hämta en ögonblicksbild av data. Du kan använda dataförhandsvisning för att verifiera att omvandlingen är korrekt konfigurerad.

    Förhandsgranskning

  10. Bredvid källnoden på dataflödesarbetsytan klickar du på plusikonen för att lägga till en ny transformering. Den första transformeringen som du lägger till är ett Filter.

    Lägga till ett filter

  11. Ge filtertransformeringen namnet FilterYears. Klicka på uttrycksrutan bredvid Filtrera på för att öppna uttrycksverktyget. Här anger du filtreringsvillkoret.

  12. Med uttrycksverktyget för dataflöden kan du interaktivt skapa uttryck som ska användas i olika transformationer. Uttryck kan innehålla inbyggda funktioner, kolumner från indataschemat och användardefinierade parametrar. Mer information om hur du skapar uttryck finns i Data Flow expression builder.

    I den här snabbstarten vill du filtrera filmer med genrer som kom ut mellan åren 1910 och 2000. Eftersom year för närvarande är en sträng måste du konvertera den till ett heltal med hjälp av toInteger() funktionen . Använd operatorerna större än eller lika med (>=) och mindre än eller lika med (<=) för att jämföra med literalårsvärdena 1910 och 200-. Union these expressions together with the && (and) operator. Uttrycket kommer ut som:

    toInteger(year) >= 1910 && toInteger(year) <= 2000

    Om du vill ta reda på vilka filmer som är komiker kan du använda funktionen för att hitta mönstret rlike() "Gör" i kolumngenreerna. Union the rlike expression with the year comparison to get:

    toInteger(year) >= 1910 && toInteger(year) <= 2000 && rlike(genres, 'Comedy')

    Ange filtreringsvillkor

    Om du har ett aktivt felsökningskluster kan du verifiera logiken genom att klicka på Uppdatera för att se utdata för uttryck jämfört med de indata som används. Det finns fler än ett rätt svar på hur du kan åstadkomma den här logiken med hjälp av språket för dataflödesuttryck.

    Klicka på Spara och slutför när du är klar med uttrycket.

  13. Hämta en dataförhandsgranskning för att verifiera att filtret fungerar korrekt.

  14. Nästa transformering som du lägger till är en aggregeringsomvandling under Schemamodifierare.

    Lägga till en aggregering

  15. Ge aggregeringsomvandlingen namnet AggregateComedyRatings. På fliken Gruppera efter väljer du år i listrutan för att gruppera sammansättningarna efter det år som filmen kom ut.

    Mängdinställningar 1

  16. Gå till fliken Aggregeringar. I den vänstra textrutan ger du aggregeringskolumnen namnet AverageComedyRating. Klicka på rutan för rätt uttryck för att ange mängduttrycket via uttrycksverktyget.

    Mängdinställningar 2

  17. Använd mängdfunktionen för att få medelvärdet av avg() kolumnklassificering. Eftersom Klassificering är en sträng avg() och tar in numeriska indata måste vi konvertera värdet till ett tal via funktionen toInteger() . Det här uttrycket ser ut så här:

    avg(toInteger(Rating))

    Klicka på Spara och slutför när du är klar.

    Genomsnittligt omdöme

  18. Gå till fliken Dataförhandsgranskning för att visa transformeringsutdata. Observera att endast två kolumner finns där, year och AverageComedyRating.

    Förhandsversion av aggregerade data

  19. Därefter vill du lägga till en Sink-transformering under Mål.

    Lägg till en mottagare

  20. Ge mottagaren namnet Sink. Klicka på Ny för att skapa din datauppsättning för mottagare.

  21. Välj Azure Data Lake Storage Gen2. Klicka på Fortsätt.

  22. Välj DelimitedText. Klicka på Fortsätt.

  23. Namnge din datauppsättning för mottagare FilmerSink. För länkad tjänst väljer du ADLS Gen2 länkade tjänst som du skapade i steg 7. Ange en utdatamapp att skriva dina data till. I den här snabbstarten skriver vi till mappen "output" i containern "sample-data". Mappen behöver inte finnas i förväg och kan skapas dynamiskt. Ange Första raden som rubrik som true och välj Ingen för Importera schema. Klicka på OK när du är klar.

    Egenskaper för datauppsättning för mottagare

Nu har du skapat ditt dataflöde. Du är redo att köra den i din pipeline.

Köra och övervaka data Flow

Du kan felsöka en pipeline innan du publicerar den. I det här steget ska du utlösa en felsökningskörning av dataflödespipelinen. Även om dataförhandsvisningen inte skriver data skriver en felsökningskörning data till mottagarmålet.

  1. Gå till pipelinearbetsytan. Klicka på Felsök för att utlösa en felsökningskörning.

    Felsökningspipeline

  2. Pipelinefelsökning av Data Flow aktiviteter använder det aktiva felsökningsklustret, men det tar ändå minst en minut att initiera. Du kan följa förloppet via fliken Utdata. När körningen är lyckad klickar du på glasögonikonen för att öppna övervakningsfönstret.

    Felsökning av utdata

  3. I övervakningsfönstret kan du se antalet rader och den tid som spenderas i varje transformeringssteg.

    Transformeringsövervakning

  4. Klicka på en transformering för att få detaljerad information om kolumnerna och partitionering av data.

    Transformeringsinformation

Om du har följt den här snabbstarten korrekt bör du ha skrivit 83 rader och 2 kolumner i mappen för mottagare. Du kan verifiera data genom att kontrollera din bloblagring.

Nästa steg

Gå vidare till följande artiklar om du vill veta Azure Synapse Analytics support: