Snabbstart: Flytta och transformera data med dataflöden och datapipelines

I den här självstudien får du lära dig hur dataflödet och datapipelines kan skapa en kraftfull och omfattande Data Factory-lösning.

Förutsättningar

För att komma igång måste du ha följande förutsättningar:

Dataflöden jämfört med pipelines

Med Dataflows Gen2 kan du använda ett gränssnitt med låg kod och över 300 data och AI-baserade transformeringar för att enkelt rensa, förbereda och transformera data med större flexibilitet än något annat verktyg. Med datapipelines kan du använda avancerade funktioner för dataorkestrering för att skapa flexibla dataarbetsflöden som uppfyller företagets behov. I en pipeline kan du skapa logiska grupper av aktiviteter som utför en uppgift, vilket kan vara att anropa ett dataflöde för att rensa och förbereda dina data. Även om det finns en viss överlappning mellan de två, beror valet av vilka som ska användas för ett visst scenario på om du behöver fullständig rikedom av pipelines eller kan använda de enklare men mer begränsade funktionerna i dataflöden. Mer information finns i beslutsguiden för infrastrukturresurser

Transformera data med dataflöden

Följ de här stegen för att konfigurera ditt dataflöde.

Steg 1: Skapa ett dataflöde

  1. Välj din Infrastrukturaktiverade arbetsyta och välj sedan Ny. Välj sedan Dataflöde Gen2.

    Screenshot showing where to start creating a dataflow gen2.

  2. Fönstret dataflödesredigerare visas. Välj kortet Importera från SQL Server .

    Screenshot showing the dataflow editor window.

Steg 2: Hämta data

  1. I dialogrutan Anslut till datakälla som visas härnäst anger du informationen för att ansluta till din Azure SQL-databas och väljer sedan Nästa. I det här exemplet använder du exempeldatabasen AdventureWorksLT som konfigurerades när du konfigurerade Azure SQL-databasen i förutsättningarna.

    Screenshot showing how to connect to an Azure SQL database.

  2. Välj de data som du vill transformera och välj sedan Skapa. För den här snabbstarten väljer du SalesLT.Customer från AdventureWorksLT-exempeldata som tillhandahålls för Azure SQL DB och sedan knappen Välj relaterade tabeller för att automatiskt inkludera två andra relaterade tabeller.

    Screenshot showing where to choose from the available data.

Steg 3: Transformera dina data

  1. Om den inte är markerad väljer du knappen Diagramvy längs statusfältet längst ned på sidan eller väljer Diagramvy under menyn Visa överst i Power Query-redigeraren. Något av dessa alternativ kan växla diagramvyn.

    Screenshot showing where to select diagram view.

  2. Högerklicka på salesLT-kundfråganeller välj den lodräta ellipsen till höger om frågan och välj sedan Slå samman frågor.

    Screenshot showing where to find the Merge queries option.

  3. Konfigurera sammanfogningen genom att välja tabellen SalesLTOrderHeader som den högra tabellen för sammanfogningen, Kolumnen CustomerID från varje tabell som kopplingskolumn och Vänster yttre som kopplingstyp. Välj sedan OK för att lägga till kopplingsfrågan.

    Screenshot of the Merge configuration screen.

  4. Välj knappen Lägg till datamål, som ser ut som en databassymbol med en pil ovanför, från den nya kopplingsfrågan som du nyss skapade. Välj sedan Azure SQL Database som måltyp.

    Screenshot highlighting the Add data destination button on the newly created merge query.

  5. Ange information för din Azure SQL-databasanslutning där sammanslagningsfrågan ska publiceras. I det här exemplet kan du använda AdventureWorksLT-databasen som vi använde som datakälla för målet också.

    Screenshot showing the Connect to data destination dialog with sample values populated.

  6. Välj en databas för att lagra data och ange ett tabellnamn och välj sedan Nästa.

    Screenshot showing the Choose destination target window.

  7. Du kan lämna standardinställningarna i dialogrutan Välj målinställningar och bara välja Spara inställningar utan att göra några ändringar här.

    Screenshot showing the Choose destination settings dialog.

  8. Välj Publicera igen på dataflödesredigerarens sida för att publicera dataflödet.

    Screenshot highlighting the Publish button on the dataflow gen2 editor.

Flytta data med datapipelines

Nu när du har skapat ett Dataflöde Gen2 kan du använda det i en pipeline. I det här exemplet kopierar du data som genererats från dataflödet till textformat i ett Azure Blob Storage-konto.

Steg 1: Skapa en ny datapipeline

  1. Välj Ny på arbetsytan och välj sedan Datapipeline.

    Screenshot showing where to start a new data pipeline.

  2. Namnge pipelinen och välj sedan Skapa.

    Screenshot showing the new pipeline creation prompt with a sample pipeline name.

Steg 2: Konfigurera ditt dataflöde

  1. Lägg till en ny dataflödesaktivitet i datapipelinen genom att välja Dataflöde på fliken Aktiviteter .

    Screenshot showing where to select the Dataflow option.

  2. Välj dataflödet på pipelinearbetsytan och sedan fliken Inställningar. Välj det dataflöde som du skapade tidigare i listrutan.

    Screenshot showing how to choose the dataflow you created.

  3. Välj Spara och kör sedan dataflödet för att först fylla i den sammanfogade frågetabell som du skapade i föregående steg.

    Screenshot showing where to select Run.

Steg 3: Använd kopieringsassistenten för att lägga till en kopieringsaktivitet

  1. Välj Kopiera data på arbetsytan för att öppna verktyget Kopieringsassistenten för att komma igång. Eller välj Använd kopieringsassistenten i listrutan Kopiera data under fliken Aktiviteter i menyfliksområdet.

    Screenshot showing the two ways to access the copy assistant.

  2. Välj din datakälla genom att välja en typ av datakälla. I den här självstudien använder du Azure SQL Database som användes tidigare när du skapade dataflödet för att generera en ny sammanslagningsfråga. Rulla nedåt under exempeldataerbjudandena och välj fliken Azure och sedan Azure SQL Database. Välj sedan Nästa för att fortsätta.

    Screenshot showing where to choose a data source.

  3. Skapa en anslutning till datakällan genom att välja Skapa ny anslutning. Fyll i nödvändig anslutningsinformation på panelen och ange AdventureWorksLT för databasen, där vi genererade sammanslagningsfrågan i dataflödet. Välj sedan Nästa.

    Screenshot showing where to create a new connection.

  4. Välj den tabell som du genererade i dataflödessteget tidigare och välj sedan Nästa.

    Screenshot showing how to select from available tables.

  5. Välj Azure Blob Storage som mål och välj sedan Nästa.

    Screenshot showing the Azure Blob Storage data destination.

  6. Skapa en anslutning till målet genom att välja Skapa ny anslutning. Ange information för anslutningen och välj sedan Nästa.

    Screenshot showing how to create a connection.

  7. Välj mappsökvägen och ange ett filnamn och välj sedan Nästa.

    Screenshot showing how to select folder path and file name.

  8. Välj Nästa igen för att acceptera standardfilformatet, kolumn avgränsare, rad avgränsare och komprimeringstyp, om du vill inkludera ett huvud.

    Screenshot showing the configuration options for the file in Azure Blob Storage.

  9. Slutför inställningarna. Granska sedan och välj Spara + Kör för att slutföra processen.

    Screenshot showing how to review copy data settings.

Steg 5: Utforma din datapipeline och spara för att köra och läsa in data

  1. Om du vill köra kopieringsaktiviteten efter dataflödesaktiviteten drar du från Lyckades på dataflödesaktiviteten till kopieringsaktiviteten. Kopieringsaktiviteten körs bara efter att dataflödesaktiviteten har slutförts.

    Screenshot showing how to make the dataflow run take place after the copy activity.

  2. Välj Spara för att spara datapipelinen. Välj sedan Kör för att köra datapipelinen och läsa in dina data.

    Screenshot showing where to select Save and Run.

Schemalägg pipelinekörning

När du har utvecklat och testat din pipeline kan du schemalägga den så att den körs automatiskt.

  1. På fliken Start i fönstret pipelineredigerare väljer du Schema.

    A screenshot of the Schedule button on the menu of the Home tab in the pipeline editor.

  2. Konfigurera schemat efter behov. Exemplet här schemalägger pipelinen så att den körs dagligen kl. 20:00 till slutet av året.

    Screenshot showing the schedule configuration for a pipeline to run daily at 8:00 PM until the end of the year.

Det här exemplet visar hur du skapar och konfigurerar ett Dataflöde Gen2 för att skapa en sammanslagningsfråga och lagra den i en Azure SQL-databas och sedan kopierar data från databasen till en textfil i Azure Blob Storage. Du har lärt dig att:

  • Skapa ett dataflöde.
  • Transformera data med dataflödet.
  • Skapa en datapipeline med hjälp av dataflödet.
  • Beställ körningen av stegen i pipelinen.
  • Kopiera data med kopieringsassistenten.
  • Kör och schemalägg din datapipeline.

Gå sedan vidare för att lära dig mer om att övervaka dina pipelinekörningar.