Gegevens veilig transformeren met behulp van toewijzingsgegevensstroomTransform data securely by using mapping data flow

VAN TOEPASSING OP: Azure Data Factory Azure Synapse Analytics

Zie Inleiding tot Azure Data Factory als u niet bekend bent met Azure Data Factory.If you're new to Azure Data Factory, see Introduction to Azure Data Factory.

In deze zelfstudie gebruikt u de gebruikersinterface (UI) van Data Factory om een pijplijn te maken waarmee gegevens worden gekopieerd en getransformeerd van een Azure Data Lake Storage Gen2-bron naar een Data Lake Storage Gen2-sink (beide voor toegang tot alleen geselecteerde netwerken) met behulp van toewijzingsgegevensstroom in Data Factory Managed Virtual Network.In this tutorial, you'll use the Data Factory user interface (UI) to create a pipeline that copies and transforms data from an Azure Data Lake Storage Gen2 source to a Data Lake Storage Gen2 sink (both allowing access to only selected networks) by using mapping data flow in Data Factory Managed Virtual Network. U kunt het configuratiepatroon in deze zelfstudie uitbreiden wanneer u gegevens transformeert met behulp van een toewijzingsgegevensstroom.You can expand on the configuration pattern in this tutorial when you transform data by using mapping data flow.

In deze zelfstudie voert u de volgende stappen uit:In this tutorial, you do the following steps:

  • Een data factory maken.Create a data factory.
  • Maak een pijplijn met een gegevensstroomactiviteit.Create a pipeline with a data flow activity.
  • Bouw een toewijzingsgegevensstroom met vier transformaties.Build a mapping data flow with four transformations.
  • De uitvoering van de pijplijn testen.Test run the pipeline.
  • Een gegevensstroomactiviteit bewaken.Monitor a data flow activity.

VereistenPrerequisites

  • Azure-abonnement.Azure subscription. Als u nog geen abonnement op Azure hebt, maak dan een gratis Azure-account aan voordat u begint.If you don't have an Azure subscription, create a free Azure account before you begin.
  • Azure-opslagaccount.Azure storage account. U gebruikt Data Lake Storage als bron- en sinkgegevensopslag.You use Data Lake Storage as source and sink data stores. Als u geen opslagaccount hebt, raadpleegt u het artikel Een opslagaccount maken om een account te maken.If you don't have a storage account, see Create an Azure storage account for steps to create one. Zorg ervoor dat het opslagaccount alleen toegang toestaat vanuit geselecteerde netwerken.Ensure the storage account allows access only from selected networks.

Het bestand dat we in deze zelfstudie transformeren, is moviesDB.csv, dat u kunt vinden op deze GitHub-inhoudssite.The file that we'll transform in this tutorial is moviesDB.csv, which can be found at this GitHub content site. Als u het bestand wilt ophalen uit GitHub, kopieert u de inhoud naar een teksteditor van uw keuze om het lokaal op te slaan als csv-bestand.To retrieve the file from GitHub, copy the contents to a text editor of your choice to save it locally as a .csv file. Zie Blobs uploaden met de Azure Portal om het bestand naar uw opslagaccount te Azure Portal.To upload the file to your storage account, see Upload blobs with the Azure portal. De voorbeelden verwijzen naar een container met de naam sample-data.The examples will reference a container named sample-data.

Een gegevensfactory makenCreate a data factory

In deze stap maakt u een data factory en opent u de Data Factory ui om een pijplijn te maken in de data factory.In this step, you create a data factory and open the Data Factory UI to create a pipeline in the data factory.

  1. Open Microsoft Edge of Google Chrome.Open Microsoft Edge or Google Chrome. Op dit moment wordt de Data Factory-gebruikersinterface alleen ondersteund in de webbrowsers Microsoft Edge en Google Chrome.Currently, only Microsoft Edge and Google Chrome web browsers support the Data Factory UI.

  2. Selecteer in het linkermenu Een resource maken > Analyse > Data Factory.On the left menu, select Create a resource > Analytics > Data Factory.

  3. Voer op de pagina Nieuwe data factory ADFTutorialDataFactory in bij Naam.On the New data factory page, under Name, enter ADFTutorialDataFactory.

    De naam van de data factory moet wereldwijd uniek zijn.The name of the data factory must be globally unique. Als u een foutbericht ontvangt over de naamwaarde, voert u een andere naam in voor de data factory (bijvoorbeeld uwnaamADFTutorialDataFactory).If you receive an error message about the name value, enter a different name for the data factory (for example, yournameADFTutorialDataFactory). Zie Data Factory - Naamgevingsregels voor meer informatie over naamgevingsregels voor Data Factory-artefacten.For naming rules for Data Factory artifacts, see Data Factory naming rules.

  4. Selecteer het Azure-abonnement waarin u de data factory wilt maken.Select the Azure subscription in which you want to create the data factory.

  5. Voer een van de volgende stappen uit voor Resourcegroep:For Resource Group, take one of the following steps:

    • Selecteer Bestaande gebruiken en selecteer een bestaande resourcegroep in de vervolgkeuzelijst.Select Use existing, and select an existing resource group from the drop-down list.
    • Selecteer Nieuwe maken en voer de naam van een resourcegroep in.Select Create new, and enter the name of a resource group.

    Zie Resourcegroepen gebruiken om Azure-resources te beheren voor meer informatie.To learn about resource groups, see Use resource groups to manage your Azure resources.

  6. Selecteer V2 onder Versie.Under Version, select V2.

  7. Selecteer onder Locatie een locatie voor de data factory.Under Location, select a location for the data factory. In de vervolgkeuzelijst worden alleen ondersteunde locaties weergegeven.Only locations that are supported appear in the drop-down list. Gegevensopslag (bijvoorbeeld Azure Storage en Azure SQL Database) en berekeningen (bijvoorbeeld Azure HDInsight) die door de data factory worden gebruikt, kunnen zich in andere regio's.Data stores (for example, Azure Storage and Azure SQL Database) and computes (for example, Azure HDInsight) used by the data factory can be in other regions.

  8. Selecteer Maken.Select Create.

  9. Als het maken is voltooid, ziet u de melding in het meldingencentrum.After the creation is finished, you see the notice in the Notifications center. Selecteer Naar de resource gaan om naar de pagina Data Factory te gaan.Select Go to resource to go to the Data Factory page.

  10. Selecteer de tegel Maken en controleren om de Data Factory-gebruikersinterface te openen op een afzonderlijk tabblad.Select Author & Monitor to launch the Data Factory UI in a separate tab.

Een Azure IR maken in Data Factory Managed Virtual NetworkCreate an Azure IR in Data Factory Managed Virtual Network

In deze stap maakt u een Azure IR en Data Factory Managed Virtual Network.In this step, you create an Azure IR and enable Data Factory Managed Virtual Network.

  1. Ga in Data Factory portal naar Beheren en selecteer Nieuw om een nieuw Azure IR.In the Data Factory portal, go to Manage, and select New to create a new Azure IR.

    Schermopname van het maken van een Azure IR.

  2. Kies op de pagina Integratieruntime instellen welke integratieruntime moet worden gemaakt op basis van de vereiste mogelijkheden.On the Integration runtime setup page, choose what integration runtime to create based on required capabilities. In deze zelfstudie selecteert u Azure, zelf-hostend en klikt u vervolgens op Doorgaan.In this tutorial, select Azure, Self-Hosted and then click Continue.

  3. Selecteer Azure en klik vervolgens op Doorgaan om een Azure Integration Runtime te maken.Select Azure and then click Continue to create an Azure Integration runtime.

    Schermopname met een nieuw Azure IR.

  4. Selecteer onder Configuratie van virtueel netwerk (preview) de optie Inschakelen.Under Virtual network configuration (Preview), select Enable.

    Schermopname van het inschakelen van een Azure IR.

  5. Selecteer Maken.Select Create.

Een pijplijn maken met een gegevensstroomactiviteitCreate a pipeline with a data flow activity

In deze stap maakt u een pijplijn die een gegevensstroomactiviteit bevat.In this step, you'll create a pipeline that contains a data flow activity.

  1. Selecteer op de pagina Aan de slag de optie Pijplijn maken.On the Let's get started page, select Create pipeline.

    Schermopname waarin het maken van een pijplijn wordt weergegeven.

  2. Voer in het deelvenster Eigenschappen voor de pijplijn TransformMovies in als naam van de pijplijn.In the properties pane for the pipeline, enter TransformMovies for the pipeline name.

  3. Vouw in het deelvenster Activiteiten de actie Verplaatsen en transformeren uit.In the Activities pane, expand Move and Transform. Sleep de Gegevensstroom van het deelvenster naar het pijplijn-canvas.Drag the Data Flow activity from the pane to the pipeline canvas.

  4. Selecteer in het pop-up pop-up van Gegevensstroom toevoegen de optie Nieuwe gegevensstroom maken en selecteer vervolgens Toewijzing Gegevensstroom.In the Adding data flow pop-up, select Create new data flow and then select Mapping Data Flow. Selecteer OK wanneer u klaar bent.Select OK when you're finished.

    Schermopname van Toewijzingstoewijzing Gegevensstroom.

  5. Noem de gegevensstroom TransformMovies in het deelvenster Eigenschappen.Name your data flow TransformMovies in the properties pane.

  6. Schuif in de bovenste balk van het pijplijn-canvas de Gegevensstroom schuifregelaar voor foutopsporing in.In the top bar of the pipeline canvas, slide the Data Flow debug slider on. Met de foutopsporingsmodus kunt u transformatielogica interactief testen op een live Spark-cluster.Debug mode allows for interactive testing of transformation logic against a live Spark cluster. Gegevensstroom-clusters duurt 5-7 minuten om op te warmen en gebruikers wordt aangeraden om eerst foutopsporing in te schakelen als ze van plan zijn om Gegevensstroom ontwikkelen.Data Flow clusters take 5-7 minutes to warm up and users are recommended to turn on debug first if they plan to do Data Flow development. Zie Foutopsporingsmodus voor meer informatie.For more information, see Debug Mode.

    Schermopname van de schuifregelaar Gegevensstroom voor foutopsporing.

Transformatielogica bouwen in het gegevensstroom-canvasBuild transformation logic in the data flow canvas

Nadat u de gegevensstroom hebt gemaakt, wordt u automatisch naar het gegevensstroomvas verzonden.After you create your data flow, you'll be automatically sent to the data flow canvas. In deze stap bouwt u een gegevensstroom die het moviesDB.csv-bestand in Data Lake Storage gebruikt en de gemiddelde classificatie van comedies van 1910 tot 2000 aggregeert.In this step, you'll build a data flow that takes the moviesDB.csv file in Data Lake Storage and aggregates the average rating of comedies from 1910 to 2000. Vervolgens schrijft u dit bestand terug naar Data Lake Storage.You'll then write this file back to Data Lake Storage.

De brontransformatie toevoegenAdd the source transformation

In deze stap stelt u een Data Lake Storage Gen2 als bron.In this step, you set up Data Lake Storage Gen2 as a source.

  1. Voeg in het canvas van de gegevensstroom een bron toe door het vak Bron toevoegen te selecteren.In the data flow canvas, add a source by selecting the Add Source box.

  2. Noem uw bron MoviesDB.Name your source MoviesDB. Selecteer Nieuw om een nieuwe bronset te maken.Select New to create a new source dataset.

  3. Selecteer Azure Data Lake Storage Gen2 en selecteer vervolgens Doorgaan.Select Azure Data Lake Storage Gen2, and then select Continue.

  4. Selecteer DelimitedText en selecteer vervolgens Doorgaan.Select DelimitedText, and then select Continue.

  5. Noem uw gegevensset MoviesDB.Name your dataset MoviesDB. Selecteer nieuwe in de vervolgkeuzekeuze vervolgkeuzekeuze voor de gekoppelde service.In the linked service drop-down, select New.

  6. Geef in het scherm voor het maken van de gekoppelde service Data Lake Storage Gen2 gekoppelde service ADLSGen2 op en geef uw verificatiemethode op.In the linked service creation screen, name your Data Lake Storage Gen2 linked service ADLSGen2 and specify your authentication method. Voer vervolgens uw verbindingsreferenties in.Then enter your connection credentials. In deze zelfstudie gebruiken we Accountsleutel om verbinding te maken met ons opslagaccount.In this tutorial, we're using Account key to connect to our storage account.

  7. Zorg ervoor dat u Interactieve creatie inschakelt.Make sure you enable Interactive authoring. Het kan een minuut duren om deze functie in te stellen.It might take a minute to be enabled.

    Schermopname waarin interactieve creatie wordt weergegeven.

  8. Selecteer Verbinding testen.Select Test connection. Dit moet mislukken omdat het opslagaccount geen toegang tot het account inschakelen zonder het maken en goedkeuren van een privé-eindpunt.It should fail because the storage account doesn't enable access into it without the creation and approval of a private endpoint. In het foutbericht wordt een koppeling weergegeven om een privé-eindpunt te maken dat u kunt volgen om een beheerd privé-eindpunt te maken.In the error message, you should see a link to create a private endpoint that you can follow to create a managed private endpoint. U kunt ook rechtstreeks naar het tabblad Beheren gaan en de instructies in deze sectie volgen om een beheerd privé-eindpunt te maken.An alternative is to go directly to the Manage tab and follow instructions in this section to create a managed private endpoint.

  9. Houd het dialoogvenster geopend en ga vervolgens naar uw opslagaccount.Keep the dialog box open, and then go to your storage account.

  10. Volg de instructies in deze sectie om de persoonlijke koppeling goed te keuren.Follow instructions in this section to approve the private link.

  11. Ga terug naar het dialoogvenster.Go back to the dialog box. Selecteer Test de verbinding opnieuw en selecteer vervolgens Maken om de gekoppelde service te implementeren.Select Test connection again, and select Create to deploy the linked service.

  12. Voer in het scherm voor het maken van de gegevensset in waar het bestand zich bevindt onder het veld Bestandspad.On the dataset creation screen, enter where your file is located under the File path field. In deze zelfstudie bevindt het bestand moviesDB.csv zich in de container sample-data.In this tutorial, the file moviesDB.csv is located in the container sample-data. Omdat het bestand headers bevat, selecteert u het selectievakje Eerste rij als koptekst.Because the file has headers, select the First row as header check box. Selecteer Uit verbinding/archief om het headerschema rechtstreeks vanuit het bestand in de opslag te importeren.Select From connection/store to import the header schema directly from the file in storage. Selecteer OK wanneer u klaar bent.Select OK when you're finished.

    Schermopname van het bronpad.

  13. Als uw foutopsporingscluster is gestart, gaat u naar het tabblad Gegevensvoorbeeld van de brontransformatie en selecteert u Vernieuwen om een momentopname van de gegevens op te halen.If your debug cluster has started, go to the Data Preview tab of the source transformation and select Refresh to get a snapshot of the data. U kunt het voorbeeld van gegevens gebruiken om te controleren of uw transformatie correct is geconfigureerd.You can use the data preview to verify your transformation is configured correctly.

    Schermopname van het tabblad Gegevensvoorbeeld.

Een beheerd privé-eindpunt makenCreate a managed private endpoint

Als u de hyperlink niet hebt gebruikt tijdens het testen van de voorgaande verbinding, volgt u het pad.If you didn't use the hyperlink when you tested the preceding connection, follow the path. Nu moet u een beheerd privé-eindpunt maken dat u verbindt met de gekoppelde service die u hebt gemaakt.Now you need to create a managed private endpoint that you'll connect to the linked service you created.

  1. Ga naar het tabblad Beheren.Go to the Manage tab.

    Notitie

    Het tabblad Beheren is mogelijk niet beschikbaar voor alle exemplaren van Data Factory.The Manage tab might not be available for all Data Factory instances. Als u het niet ziet, kunt u toegang krijgen tot privé-eindpunten door Auteur > Verbindingen > Privé-eindpunt te selecteren.If you don't see it, you can access private endpoints by selecting Author > Connections > Private Endpoint.

  2. Ga naar het gedeelte Beheerde privé-eindpunten.Go to the Managed private endpoints section.

  3. Selecteer + Nieuwe onder Beheerde privé-eindpunten.Select + New under Managed private endpoints.

    Schermafbeelding met de knoppen Beheerde privé-eindpunten en Nieuw.

  4. Selecteer de Azure Data Lake Storage Gen2 in de lijst en selecteer Doorgaan.Select the Azure Data Lake Storage Gen2 tile from the list, and select Continue.

  5. Voer de naam in van het opslagaccount dat u hebt gemaakt.Enter the name of the storage account you created.

  6. Selecteer Maken.Select Create.

  7. Na enkele seconden wordt voor de privékoppeling een goedkeuring vereist.After a few seconds, you should see that the private link created needs an approval.

  8. Selecteer het privé-eindpunt dat u hebt gemaakt.Select the private endpoint that you created. U ziet een hyperlink waarmee u het privé-eindpunt kunt goedkeuren op het niveau van het opslagaccount.You can see a hyperlink that will lead you to approve the private endpoint at the storage account level.

    Schermopname van het deelvenster Privé-eindpunt beheren.

  1. Ga in het opslagaccount naar Privé-eindpuntverbindingen in het gedeelte Instellingen.In the storage account, go to Private endpoint connections under the Settings section.

  2. Schakel het selectievakje in bij het privé-eindpunt dat u hebt gemaakt en selecteer Goedkeuren.Select the check box by the private endpoint you created, and select Approve.

    Schermopname van de knop Privé-eindpunt goedkeuren.

  3. Voeg een beschrijving toe en selecteer ja.Add a description, and select yes.

  4. Ga terug naar het gedeelte Beheerde privé-eindpunten van het tabblad Beheren in Data Factory.Go back to the Managed private endpoints section of the Manage tab in Data Factory.

  5. Na ongeveer een minuut wordt de goedkeuring voor uw privé-eindpunt weergegeven.After about a minute, you should see the approval appear for your private endpoint.

De filtertransformatie toevoegenAdd the filter transformation

  1. Selecteer naast het bron-knooppunt op het canvas van de gegevensstroom het pluspictogram om een nieuwe transformatie toe te voegen.Next to your source node on the data flow canvas, select the plus icon to add a new transformation. De eerste transformatie die u toevoegt, is filter.The first transformation you'll add is a Filter.

    Schermopname van het toevoegen van een filter.

  2. Noem de filtertransformatie FilterYears.Name your filter transformation FilterYears. Selecteer het expressievak naast Filteren op om de opbouwer voor expressies te openen.Select the expression box next to Filter on to open the expression builder. Hier geeft u de filtervoorwaarde op.Here you'll specify your filtering condition.

    Schermopname van FilterYears.

  3. Met de opbouwer van gegevensstroomexpressie kunt u interactief expressies bouwen voor gebruik in verschillende transformaties.The data flow expression builder lets you interactively build expressions to use in various transformations. Expressies kunnen ingebouwde functies, kolommen uit het invoerschema en door de gebruiker gedefinieerde parameters bevatten.Expressions can include built-in functions, columns from the input schema, and user-defined parameters. Zie Opbouw van gegevensstroomexpressie voor meer informatie over het bouwen van expressies.For more information on how to build expressions, see Data flow expression builder.

    • In deze zelfstudie wilt u films filteren in het genre genre uit de jaren 1910 en 2000.In this tutorial, you want to filter movies in the comedy genre that came out between the years 1910 and 2000. Omdat het jaar momenteel een tekenreeks is, moet u deze converteren naar een geheel getal met behulp van de toInteger() functie .Because the year is currently a string, you need to convert it to an integer by using the toInteger() function. Gebruik de operatoren groter dan of gelijk aan (>=) en kleiner dan of gelijk aan (<=) om de letterlijke jaarwaarden 1910 en 2000 te vergelijken.Use the greater than or equal to (>=) and less than or equal to (<=) operators to compare against the literal year values 1910 and 2000. Deze expressies samenbrengen met de operator en (&&).Union these expressions together with the and (&&) operator. De expressie komt als volgt uit:The expression comes out as:

      toInteger(year) >= 1910 && toInteger(year) <= 2000

    • Als u wilt weten welke films comedies zijn, kunt u de functie gebruiken om het patroon rlike() 'Ën' te vinden in de kolomkolom.To find which movies are comedies, you can use the rlike() function to find the pattern 'Comedy' in the column genres. Maak de rlike-expressie samen met de jaarvergelijking om het volgende te krijgen:Union the rlike expression with the year comparison to get:

      toInteger(year) >= 1910 && toInteger(year) <= 2000 && rlike(genres, 'Comedy')

    • Als u een actief foutopsporingscluster hebt, kunt u uw logica controleren door Vernieuwen te selecteren om de expressie-uitvoer weer te geven in vergelijking met de gebruikte invoer.If you have a debug cluster active, you can verify your logic by selecting Refresh to see the expression output compared to the inputs used. Er is meer dan één juist antwoord op hoe u deze logica kunt uitvoeren met behulp van de expressietaal van de gegevensstroom.There's more than one right answer on how you can accomplish this logic by using the data flow expression language.

      Schermopname van de filterexpressie.

    • Selecteer Opslaan en voltooien nadat u klaar bent met uw expressie.Select Save and finish after you're finished with your expression.

  4. Haal een voorbeeld van gegevens op om te controleren of het filter correct werkt.Fetch a Data Preview to verify the filter is working correctly.

    Schermopname van het gefilterde voorbeeld van gegevens.

De aggregatietransformatie toevoegenAdd the aggregate transformation

  1. De volgende transformatie die u toevoegt, is een Aggregatietransformatie onder Schema-modifier.The next transformation you'll add is an Aggregate transformation under Schema modifier.

    Schermopname van het toevoegen van de aggregatie.

  2. Noem de aggregatietransformatie AggregateComedyRating.Name your aggregate transformation AggregateComedyRating. Op het tabblad Groeperen op selecteert u jaar in de vervolgkeuzevak om de aggregaties te groeperen op het jaar waarin de film is uit gekomen.On the Group by tab, select year from the drop-down box to group the aggregations by the year the movie came out.

    Schermopname van de aggregatiegroep.

  3. Ga naar het tabblad Statistische gegevens. Noem in het linkertekstvak de aggregatiekolom AverageComedyRating.Go to the Aggregates tab. In the left text box, name the aggregate column AverageComedyRating. Selecteer het juiste expressievak om de samengetagde expressie in te voeren via de opbouwer van de expressie.Select the right expression box to enter the aggregate expression via the expression builder.

    Schermopname van de naam van de samengevoegde kolom.

  4. Gebruik de statistische functie om het gemiddelde van kolom Waardering op te avg() halen.To get the average of column Rating, use the avg() aggregate function. Omdat Waardering een tekenreeks is en numerieke invoer gebruikt, moeten we de waarde converteren naar een avg() getal via de functie toInteger() .Because Rating is a string and avg() takes in a numerical input, we must convert the value to a number via the toInteger() function. Deze expressie ziet er als volgende uit:This expression looks like:

    avg(toInteger(Rating))

  5. Selecteer Opslaan en voltooien nadat u klaar bent.Select Save and finish after you're finished.

    Schermopname van het opslaan van de aggregatie.

  6. Ga naar het tabblad Gegevensvoorbeeld om de transformatie-uitvoer weer te geven.Go to the Data Preview tab to view the transformation output. U ziet dat er slechts twee kolommen zijn: year en AverageComedyRating.Notice only two columns are there, year and AverageComedyRating.

De sinktransformatie toevoegenAdd the sink transformation

  1. Vervolgens wilt u een Sink-transformatie toevoegen onder Doel.Next, you want to add a Sink transformation under Destination.

    Schermopname van het toevoegen van een sink.

  2. Noem uw sink Sink.Name your sink Sink. Selecteer Nieuw om uw sink-gegevensset te maken.Select New to create your sink dataset.

    Schermopname van het maken van een sink.

  3. Selecteer op de pagina Nieuwe gegevensset Azure Data Lake Storage Gen2 selecteer vervolgens Doorgaan.On the New dataset page, select Azure Data Lake Storage Gen2 and then select Continue.

  4. Selecteer op de pagina Indeling selecteren de optie DelimitedText en selecteer vervolgens Doorgaan.On the Select format page, select DelimitedText and then select Continue.

  5. Noem uw sink-gegevensset MoviesSink.Name your sink dataset MoviesSink. Kies voor gekoppelde service dezelfde gekoppelde ADLSGen2-service die u hebt gemaakt voor brontransformatie.For linked service, choose the same ADLSGen2 linked service you created for source transformation. Voer een uitvoermap in om uw gegevens naar te schrijven.Enter an output folder to write your data to. In deze zelfstudie schrijven we naar de mapuitvoer in de container sample-data.In this tutorial, we're writing to the folder output in the container sample-data. De map hoeft niet vooraf te bestaan en kan dynamisch worden gemaakt.The folder doesn't need to exist beforehand and can be dynamically created. Schakel het selectievakje Eerste rij als koptekst in en selecteer Geen bij Schema importeren.Select the First row as header check box, and select None for Import schema. Selecteer OK.Select OK.

    Schermopname van het sinkpad.

U bent nu klaar met het bouwen van uw gegevensstroom.Now you've finished building your data flow. U bent klaar om deze in uw pijplijn uit te voeren.You're ready to run it in your pipeline.

De gegevensstroom uitvoeren en bewakenRun and monitor the data flow

U kunt fouten opsporen in een pijplijn voordat u deze publiceert.You can debug a pipeline before you publish it. In deze stap activeert u een foutopsporingsrun van de gegevensstroompijplijn.In this step, you trigger a debug run of the data flow pipeline. Hoewel in het voorbeeld van gegevens geen gegevens worden geschreven, schrijft een foutopsporingsrun gegevens naar uw sinkbestemming.While the data preview doesn't write data, a debug run will write data to your sink destination.

  1. Ga naar het pijplijn-canvas.Go to the pipeline canvas. Selecteer Fouten opsporen om een foutopsporingsrun te activeren.Select Debug to trigger a debug run.

  2. Pijplijnopsporing van gegevensstroomactiviteiten maakt gebruik van het actieve foutopsporingscluster, maar het duurt nog steeds minstens een minuut om te initialiseren.Pipeline debugging of data flow activities uses the active debug cluster but still takes at least a minute to initialize. U kunt de voortgang volgen via het tabblad Uitvoer. Nadat de run is geslaagd, selecteert u het pictogram van een bril voor details van de run.You can track the progress via the Output tab. After the run is successful, select the eyeglasses icon for run details.

  3. Op de detailpagina ziet u het aantal rijen en de tijd die is besteed aan elke transformatiestap.On the details page, you can see the number of rows and the time spent on each transformation step.

    Schermopname van een bewakingsuit voeren.

  4. Selecteer een transformatie voor gedetailleerde informatie over de kolommen en partitionering van de gegevens.Select a transformation to get detailed information about the columns and partitioning of the data.

Als u deze zelfstudie correct hebt gevolgd, moet u 83 rijen en 2 kolommen in uw sinkmap hebben geschreven.If you followed this tutorial correctly, you should have written 83 rows and 2 columns into your sink folder. U kunt controleren of de gegevens juist zijn door uw blobopslag te controleren.You can verify the data is correct by checking your blob storage.

SamenvattingSummary

In deze zelfstudie hebt u de Data Factory-gebruikersinterface gebruikt om een pijplijn te maken waarmee gegevens worden gekopieerd en getransformeerd van een Data Lake Storage Gen2-bron naar een Data Lake Storage Gen2-sink (beide bieden toegang tot alleen geselecteerde netwerken) met behulp van toewijzingsgegevensstroom in Data Factory Managed Virtual Network.In this tutorial, you used the Data Factory UI to create a pipeline that copies and transforms data from a Data Lake Storage Gen2 source to a Data Lake Storage Gen2 sink (both allowing access to only selected networks) by using mapping data flow in Data Factory Managed Virtual Network.