Bezpieczne przekształcanie danych przy użyciu przepływu danych mapowaniaTransform data securely by using mapping data flow

dotyczy: Azure Data Factory usługi Azure Synapse Analytics

Jeśli jesteś nowym użytkownikiem usługi Azure Data Factory, zobacz Wprowadzenie do usługi Azure Data Factory.If you're new to Azure Data Factory, see Introduction to Azure Data Factory.

W tym samouczku użyjesz interfejsu użytkownika usługi Data Factory do utworzenia potoku, który kopiuje i przekształca dane ze źródła usługi Azure Data Lake Storage Gen2 do ujścia usługi Data Lake Storage Gen2 (obie zezwalają na dostęp tylko do wybranych sieci) przy użyciu przepływu danych mapowania w ujściu usługi Data Factory Managed Virtual Network.In this tutorial, you'll use the Data Factory user interface (UI) to create a pipeline that copies and transforms data from an Azure Data Lake Storage Gen2 source to a Data Lake Storage Gen2 sink (both allowing access to only selected networks) by using mapping data flow in Data Factory Managed Virtual Network. W tym samouczku można rozszerzyć wzorzec konfiguracji podczas przekształcania danych przy użyciu przepływu danych mapowania.You can expand on the configuration pattern in this tutorial when you transform data by using mapping data flow.

W tym samouczku wykonasz następujące czynności:In this tutorial, you do the following steps:

  • Tworzenie fabryki danych.Create a data factory.
  • Tworzenie potoku z działaniem przepływu danych.Create a pipeline with a data flow activity.
  • Tworzenie przepływu danych mapowania z czterema przekształceniami.Build a mapping data flow with four transformations.
  • Testowe uruchamianie potoku.Test run the pipeline.
  • Monitorowanie działania przepływu danych.Monitor a data flow activity.

Wymagania wstępnePrerequisites

  • Subskrypcja platformy Azure.Azure subscription. Jeśli nie masz subskrypcji platformy Azure, przed rozpoczęciem utwórz bezpłatne konto platformy Azure.If you don't have an Azure subscription, create a free Azure account before you begin.
  • Konto usługi Azure Storage.Azure storage account. Używasz Data Lake Storage jako magazynów danych źródła i ujścia.You use Data Lake Storage as source and sink data stores. Jeśli nie masz konta magazynu, utwórz je, wykonując czynności przedstawione w artykule Tworzenie konta magazynu platformy Azure.If you don't have a storage account, see Create an Azure storage account for steps to create one. Upewnij się, że konto magazynu zezwala na dostęp tylko z wybranych sieci.Ensure the storage account allows access only from selected networks.

Plik, który przekształcimy w tym samouczku, jest moviesDB.csv, który można znaleźć w tej witrynie zawartości GitHub.The file that we'll transform in this tutorial is moviesDB.csv, which can be found at this GitHub content site. Aby pobrać plik z usługi GitHub, skopiuj jego zawartość do wybranego edytora tekstów, aby zapisać go lokalnie jako plik CSV.To retrieve the file from GitHub, copy the contents to a text editor of your choice to save it locally as a .csv file. Aby przekazać plik na konto magazynu, zobacz Przekazywanie obiektów blob za pomocą Azure Portal.To upload the file to your storage account, see Upload blobs with the Azure portal. Przykłady będą odwoływać się do kontenera o nazwie sample-data.The examples will reference a container named sample-data.

Tworzenie fabryki danychCreate a data factory

W tym kroku utworzysz fabrykę danych i otworzysz interfejs użytkownika Data Factory, aby utworzyć potok w fabryce danych.In this step, you create a data factory and open the Data Factory UI to create a pipeline in the data factory.

  1. Otwórz przeglądarkę Microsoft Edge lub Google Chrome.Open Microsoft Edge or Google Chrome. Obecnie tylko przeglądarki Microsoft Edge i Google Chrome obsługują interfejs Data Factory użytkownika.Currently, only Microsoft Edge and Google Chrome web browsers support the Data Factory UI.

  2. W menu po lewej stronie wybierz pozycję Utwórz zasób > Analiza > Data Factory.On the left menu, select Create a resource > Analytics > Data Factory.

  3. Na stronie Nowa fabryka danych w polu Nazwa wprowadź wartość ADFTutorialDataFactory.On the New data factory page, under Name, enter ADFTutorialDataFactory.

    Nazwa fabryki danych musi być globalnie unikatowa.The name of the data factory must be globally unique. Jeśli zostanie wyświetlony komunikat o błędzie z wartością nazwy, wprowadź inną nazwę fabryki danych (na przykład twojanazwaADFTutorialDataFactory).If you receive an error message about the name value, enter a different name for the data factory (for example, yournameADFTutorialDataFactory). Reguły nazewnictwa dla artefaktów usługi Data Factory można znaleźć w artykule Data Factory — reguły nazewnictwa.For naming rules for Data Factory artifacts, see Data Factory naming rules.

  4. Wybierz subskrypcję platformy Azure, w której chcesz utworzyć fabrykę danych.Select the Azure subscription in which you want to create the data factory.

  5. W obszarze Grupa zasobów wykonaj jedną z następujących czynności:For Resource Group, take one of the following steps:

    • Wybierz pozycję Użyj istniejącej, a następnie wybierz istniejącą grupę zasobów z listy rozwijanej.Select Use existing, and select an existing resource group from the drop-down list.
    • Wybierz pozycję Utwórz nową i wprowadź nazwę grupy zasobów.Select Create new, and enter the name of a resource group.

    Informacje na temat grup zasobów znajdują się w artykule Using resource groups to manage your Azure resources (Używanie grup zasobów do zarządzania zasobami platformy Azure).To learn about resource groups, see Use resource groups to manage your Azure resources.

  6. W obszarze Wersja wybierz pozycję V2.Under Version, select V2.

  7. W obszarze Lokalizacja wybierz lokalizację fabryki danych.Under Location, select a location for the data factory. Na liście rozwijanej są wyświetlane tylko obsługiwane lokalizacje.Only locations that are supported appear in the drop-down list. Magazyny danych (na przykład usługi Azure Storage i Azure SQL Database) oraz jednostki obliczeniowe (na przykład Azure HDInsight) używane przez fabrykę danych mogą być w innych regionach.Data stores (for example, Azure Storage and Azure SQL Database) and computes (for example, Azure HDInsight) used by the data factory can be in other regions.

  8. Wybierz przycisk Utwórz.Select Create.

  9. Po zakończeniu tworzenia w Centrum powiadomień zostanie wyświetlony ten powiadomienie.After the creation is finished, you see the notice in the Notifications center. Wybierz pozycję Przejdź do zasobu, aby przejść do Data Factory zasobów.Select Go to resource to go to the Data Factory page.

  10. Wybierz pozycję Tworzenie i monitorowanie, aby uruchomić interfejs użytkownika usługi Data Factory na osobnej karcie.Select Author & Monitor to launch the Data Factory UI in a separate tab.

Tworzenie Azure IR w programie Data Factory managed Virtual NetworkCreate an Azure IR in Data Factory Managed Virtual Network

W tym kroku utworzysz nową Azure IR i włączysz usługę Data Factory Managed Virtual Network.In this step, you create an Azure IR and enable Data Factory Managed Virtual Network.

  1. W portalu Data Factory przejdź do opcji Zarządzaj i wybierz pozycję Nowy, aby utworzyć nową Azure IR.In the Data Factory portal, go to Manage, and select New to create a new Azure IR.

    Zrzut ekranu przedstawiający tworzenie nowego Azure IR.

  2. Na stronie Konfiguracja środowiska Integration Runtime wybierz środowisko Integration Runtime do utworzenia na podstawie wymaganych możliwości.On the Integration runtime setup page, choose what integration runtime to create based on required capabilities. W tym samouczku wybierz pozycję Azure (Self-Hosted), a następnie kliknij przycisk Continue (Kontynuuj).In this tutorial, select Azure, Self-Hosted and then click Continue.

  3. Wybierz pozycję Azure, a następnie kliknij przycisk Kontynuuj, aby utworzyć środowisko Azure Integration Runtime.Select Azure and then click Continue to create an Azure Integration runtime.

    Zrzut ekranu przedstawiający nową Azure IR.

  4. W obszarze Konfiguracja sieci wirtualnej (wersja zapoznawcza) wybierz pozycję Włącz.Under Virtual network configuration (Preview), select Enable.

    Zrzut ekranu przedstawiający włączanie nowego Azure IR.

  5. Wybierz przycisk Utwórz.Select Create.

Tworzenie potoku za pomocą działania przepływu danychCreate a pipeline with a data flow activity

W tym kroku utworzysz potok zawierający działanie przepływu danych.In this step, you'll create a pipeline that contains a data flow activity.

  1. Na stronie Zaczynajmy wybierz pozycję Utwórz potok.On the Let's get started page, select Create pipeline.

    Zrzut ekranu przedstawiający tworzenie potoku.

  2. W okienku właściwości potoku wprowadź transformaty jako nazwę potoku.In the properties pane for the pipeline, enter TransformMovies for the pipeline name.

  3. W okienku Działania rozwiń pozycję Przenieś i przekształć.In the Activities pane, expand Move and Transform. Przeciągnij Przepływ danych z okienka na kanwę potoku.Drag the Data Flow activity from the pane to the pipeline canvas.

  4. W oknie podręcznym Dodawanie przepływu danych wybierz pozycję Utwórz nowy przepływ danych, a następnie wybierz pozycję Mapowanie Przepływ danych.In the Adding data flow pop-up, select Create new data flow and then select Mapping Data Flow. Po zakończeniu wybierz przycisk OK.Select OK when you're finished.

    Zrzut ekranu przedstawiający mapowanie Przepływ danych.

  5. Nazwij przepływ danych Transform Przepływy w okienku właściwości.Name your data flow TransformMovies in the properties pane.

  6. Na górnym pasku kanwy potoku przesuń suwak Przepływ danych debugowania.In the top bar of the pipeline canvas, slide the Data Flow debug slider on. Tryb debugowania umożliwia interaktywne testowanie logiki przekształcania względem klastra Spark na żywo.Debug mode allows for interactive testing of transformation logic against a live Spark cluster. Przepływ danych rozgrzewki w klastrach potrwają 5–7 minut, a użytkownicy zalecają włączenie debugowania najpierw, jeśli planują Przepływ danych dewelopera.Data Flow clusters take 5-7 minutes to warm up and users are recommended to turn on debug first if they plan to do Data Flow development. Aby uzyskać więcej informacji, zobacz Tryb debugowania.For more information, see Debug Mode.

    Zrzut ekranu przedstawiający suwak debugowania przepływu danych.

Tworzenie logiki przekształcania na kanwie przepływu danychBuild transformation logic in the data flow canvas

Po utworzeniu przepływu danych zostaniesz automatycznie wysłany do kanwy przepływu danych.After you create your data flow, you'll be automatically sent to the data flow canvas. W tym kroku zostanie skompilowany przepływ danych, który pobiera plik moviesDB.csv w pliku Data Lake Storage i agreguje średnią ocenę comedies z lat 1910–2000.In this step, you'll build a data flow that takes the moviesDB.csv file in Data Lake Storage and aggregates the average rating of comedies from 1910 to 2000. Następnie zapiszesz ten plik z powrotem w Data Lake Storage.You'll then write this file back to Data Lake Storage.

Dodawanie przekształcenia źródłaAdd the source transformation

W tym kroku skonfigurujemy Data Lake Storage Gen2 jako źródło.In this step, you set up Data Lake Storage Gen2 as a source.

  1. Na kanwie przepływu danych dodaj źródło, wybierając pole Dodaj źródło.In the data flow canvas, add a source by selecting the Add Source box.

  2. Nadaj źródłowej bazie danych MoviesDB nazwę.Name your source MoviesDB. Wybierz pozycję Nowy, aby utworzyć nowy źródłowy zestaw danych.Select New to create a new source dataset.

  3. Wybierz Azure Data Lake Storage Gen2, a następnie wybierz pozycję Kontynuuj.Select Azure Data Lake Storage Gen2, and then select Continue.

  4. Wybierz pozycję DelimitedText (Tekst rozdzielany), a następnie wybierz pozycję Continue (Kontynuuj).Select DelimitedText, and then select Continue.

  5. Nadaj zestawowi danych nazwę MoviesDB.Name your dataset MoviesDB. Z listy rozwijanej połączona usługa wybierz pozycję Nowy.In the linked service drop-down, select New.

  6. Na ekranie tworzenia połączonej usługi nazwij Data Lake Storage Gen2 usługi ADLSGen2 i określ metodę uwierzytelniania.In the linked service creation screen, name your Data Lake Storage Gen2 linked service ADLSGen2 and specify your authentication method. Następnie wprowadź poświadczenia połączenia.Then enter your connection credentials. W tym samouczku używamy klucza konta do nawiązania połączenia z kontem magazynu.In this tutorial, we're using Account key to connect to our storage account.

  7. Upewnij się, że włączyć opcję Tworzenie interakcyjne.Make sure you enable Interactive authoring. Może to potrwać minutę.It might take a minute to be enabled.

    Zrzut ekranu przedstawiający tworzenie interakcyjne.

  8. Wybierz pozycję Testuj połączenie.Select Test connection. Powinno to kończyć się niepowodzeniem, ponieważ konto magazynu nie umożliwia dostępu do niego bez utworzenia i zatwierdzenia prywatnego punktu końcowego.It should fail because the storage account doesn't enable access into it without the creation and approval of a private endpoint. W komunikacie o błędzie powinien zostać wyświetlony link do tworzenia prywatnego punktu końcowego, który można śledzić w celu utworzenia zarządzanego prywatnego punktu końcowego.In the error message, you should see a link to create a private endpoint that you can follow to create a managed private endpoint. Alternatywą jest bezpośrednie przejdź do karty Zarządzanie i postępuj zgodnie z instrukcjami w tej sekcji, aby utworzyć zarządzany prywatny punkt końcowy.An alternative is to go directly to the Manage tab and follow instructions in this section to create a managed private endpoint.

  9. Nie otwieraj okna dialogowego, a następnie przejdź do swojego konta magazynu.Keep the dialog box open, and then go to your storage account.

  10. Postępuj zgodnie z instrukcjami w tej sekcji, aby zatwierdzić link prywatny.Follow instructions in this section to approve the private link.

  11. Wstecz do okna dialogowego.Go back to the dialog box. Wybierz Test connection ponownie, a następnie wybierz pozycję Utwórz, aby wdrożyć usługę połączona.Select Test connection again, and select Create to deploy the linked service.

  12. Na ekranie tworzenia zestawu danych wprowadź miejsce, w którym znajduje się plik, w polu Ścieżka pliku.On the dataset creation screen, enter where your file is located under the File path field. W tym samouczku plik moviesDB.csv znajduje się w kontenerze sample-data.In this tutorial, the file moviesDB.csv is located in the container sample-data. Ponieważ plik ma nagłówki, zaznacz pole wyboru Pierwszy wiersz jako nagłówek.Because the file has headers, select the First row as header check box. Wybierz pozycję Z połączenia/magazynu, aby zaimportować schemat nagłówka bezpośrednio z pliku w magazynie.Select From connection/store to import the header schema directly from the file in storage. Po zakończeniu wybierz przycisk OK.Select OK when you're finished.

    Zrzut ekranu przedstawiający ścieżkę źródłową.

  13. Jeśli klaster debugowania został uruchomiony, przejdź do karty Podgląd danych przekształcenia źródła i wybierz pozycję Odśwież, aby pobrać migawkę danych.If your debug cluster has started, go to the Data Preview tab of the source transformation and select Refresh to get a snapshot of the data. Podgląd danych umożliwia sprawdzenie, czy przekształcenie jest poprawnie skonfigurowane.You can use the data preview to verify your transformation is configured correctly.

    Zrzut ekranu przedstawiający kartę Podgląd danych.

Tworzenie zarządzanego prywatnego punktu końcowegoCreate a managed private endpoint

Jeśli podczas poprzednich testów połączenia nie używasz hiperlinku, postępuj zgodnie ze ścieżką.If you didn't use the hyperlink when you tested the preceding connection, follow the path. Teraz musisz utworzyć zarządzany prywatny punkt końcowy, który połączysz z utworzoną połączoną usługą.Now you need to create a managed private endpoint that you'll connect to the linked service you created.

  1. Przejdź do karty Zarządzanie.Go to the Manage tab.

    Uwaga

    Karta Zarządzanie może nie być dostępna dla wszystkich Data Factory wystąpień.The Manage tab might not be available for all Data Factory instances. Jeśli go nie widzisz, możesz uzyskać dostęp do prywatnych punktów końcowych, wybierając pozycję Tworzenie połączeń z prywatnym > > punktem końcowym.If you don't see it, you can access private endpoints by selecting Author > Connections > Private Endpoint.

  2. Przejdź do sekcji Zarządzane prywatne punkty końcowe.Go to the Managed private endpoints section.

  3. Wybierz pozycję + Nowy w obszarze Zarządzane prywatne punkty końcowe.Select + New under Managed private endpoints.

    Zrzut ekranu przedstawiający przycisk Nowe zarządzane prywatne punkty końcowe.

  4. Wybierz kafelek Azure Data Lake Storage Gen2 z listy, a następnie wybierz pozycję Kontynuuj.Select the Azure Data Lake Storage Gen2 tile from the list, and select Continue.

  5. Wprowadź nazwę utworzonego konta magazynu.Enter the name of the storage account you created.

  6. Wybierz przycisk Utwórz.Select Create.

  7. Po kilku sekundach powinno być widać, że utworzony link prywatny wymaga zatwierdzenia.After a few seconds, you should see that the private link created needs an approval.

  8. Wybierz utworzony prywatny punkt końcowy.Select the private endpoint that you created. Zostanie wyświetlony hiperlink, który spowoduje zatwierdzenie prywatnego punktu końcowego na poziomie konta magazynu.You can see a hyperlink that will lead you to approve the private endpoint at the storage account level.

    Zrzut ekranu przedstawiający okienko Zarządzanie prywatnym punktem końcowym.

  1. Na koncie magazynu przejdź do sekcji Połączenia z prywatnym punktem końcowym w sekcji Ustawienia.In the storage account, go to Private endpoint connections under the Settings section.

  2. Zaznacz pole wyboru obok utworzonego prywatnego punktu końcowego, a następnie wybierz pozycję Zatwierdź.Select the check box by the private endpoint you created, and select Approve.

    Zrzut ekranu przedstawiający przycisk Zatwierdź prywatny punkt końcowy.

  3. Dodaj opis i wybierz pozycję Tak.Add a description, and select yes.

  4. Wstecz sekcję Zarządzane prywatne punkty końcowe na karcie Zarządzanie w Data Factory.Go back to the Managed private endpoints section of the Manage tab in Data Factory.

  5. Po około minucie powinno zostać wyświetlone zatwierdzenie prywatnego punktu końcowego.After about a minute, you should see the approval appear for your private endpoint.

Dodawanie przekształcenia filtruAdd the filter transformation

  1. Obok węzła źródłowego na kanwie przepływu danych wybierz ikonę plusa, aby dodać nowe przekształcenie.Next to your source node on the data flow canvas, select the plus icon to add a new transformation. Pierwsze przekształcenie, które dodasz, to filtr.The first transformation you'll add is a Filter.

    Zrzut ekranu przedstawiający dodawanie filtru.

  2. Nazwij przekształcenie filtru FilterYears .Name your filter transformation FilterYears. Wybierz pole wyrażenia obok pola Filtruj, aby otworzyć konstruktora wyrażeń.Select the expression box next to Filter on to open the expression builder. W tym miejscu określisz warunek filtrowania.Here you'll specify your filtering condition.

    Zrzut ekranu przedstawiający filtr Roku.

  3. Konstruktor wyrażeń przepływu danych umożliwia interaktywne tworzenie wyrażeń do użycia w różnych przekształceniach.The data flow expression builder lets you interactively build expressions to use in various transformations. Wyrażenia mogą zawierać wbudowane funkcje, kolumny ze schematu wejściowego i parametry zdefiniowane przez użytkownika.Expressions can include built-in functions, columns from the input schema, and user-defined parameters. Aby uzyskać więcej informacji na temat tworzenia wyrażeń, zobacz Konstruktor wyrażeń przepływu danych.For more information on how to build expressions, see Data flow expression builder.

    • W tym samouczku chcesz filtrować filmy według gatunku muzyki, który pojawił się w latach 1910–2000.In this tutorial, you want to filter movies in the comedy genre that came out between the years 1910 and 2000. Ponieważ rok jest obecnie ciągiem, należy przekonwertować go na liczbę całkowitą przy użyciu toInteger() funkcji .Because the year is currently a string, you need to convert it to an integer by using the toInteger() function. Użyj operatory większe niż lub równe (>=) i mniejsze niż lub równe (<=), aby porównać je z wartościami literału roku 1910 i 2000.Use the greater than or equal to (>=) and less than or equal to (<=) operators to compare against the literal year values 1910 and 2000. Te wyrażenia są połączone z operatorem i (&&).Union these expressions together with the and (&&) operator. Wyrażenie jest wyrażane w następujący sposób:The expression comes out as:

      toInteger(year) >= 1910 && toInteger(year) <= 2000

    • Aby dowiedzieć się, które filmy są comedies, możesz użyć funkcji , aby znaleźć wzorzec rlike() "Stan" w gatunekach kolumn.To find which movies are comedies, you can use the rlike() function to find the pattern 'Comedy' in the column genres. Zsuń wyrażenie rlike z porównaniem roku, aby uzyskać:Union the rlike expression with the year comparison to get:

      toInteger(year) >= 1910 && toInteger(year) <= 2000 && rlike(genres, 'Comedy')

    • Jeśli klaster debugowania jest aktywny, możesz zweryfikować logikę, wybierając pozycję Odśwież, aby wyświetlić dane wyjściowe wyrażenia w porównaniu do użytych danych wejściowych.If you have a debug cluster active, you can verify your logic by selecting Refresh to see the expression output compared to the inputs used. Istnieje więcej niż jedna właściwa odpowiedź na temat sposobu wykonania tej logiki przy użyciu języka wyrażeń przepływu danych.There's more than one right answer on how you can accomplish this logic by using the data flow expression language.

      Zrzut ekranu przedstawiający wyrażenie filtru.

    • Po zakończeniu pracy z wyrażeniem wybierz pozycję Zapisz i zakończ.Select Save and finish after you're finished with your expression.

  4. Pobierz podgląd danych, aby sprawdzić, czy filtr działa prawidłowo.Fetch a Data Preview to verify the filter is working correctly.

    Zrzut ekranu przedstawiający przefiltrowany podgląd danych.

Dodawanie przekształcenia agregacjiAdd the aggregate transformation

  1. Następne przekształcenie, które dodasz, to agregacja przekształcenia w obszarze Modyfikator schematu.The next transformation you'll add is an Aggregate transformation under Schema modifier.

    Zrzut ekranu przedstawiający dodawanie agregacji.

  2. Nazwij przekształcenie agregujące AggregateComedyRating.Name your aggregate transformation AggregateComedyRating. Na karcie Grupuj według wybierz rok z pola listy rozwijanej, aby pogrupować agregacje według roku, w którym pojawił się film.On the Group by tab, select year from the drop-down box to group the aggregations by the year the movie came out.

    Zrzut ekranu przedstawiający grupę zagregowaną.

  3. Przejdź do karty Agregacje. W polu tekstowym po lewej stronie nadaj kolumnie agregacji nazwę AverageComedyRating.Go to the Aggregates tab. In the left text box, name the aggregate column AverageComedyRating. Wybierz odpowiednie pole wyrażenia, aby wprowadzić wyrażenie agregowania za pomocą konstruktora wyrażeń.Select the right expression box to enter the aggregate expression via the expression builder.

    Zrzut ekranu przedstawiający nazwę kolumny agregacji.

  4. Aby uzyskać średnią kolumny Ocena, użyj avg() funkcji agregowania.To get the average of column Rating, use the avg() aggregate function. Ponieważ funkcja Rating jest ciągiem i przyjmuje liczbowe dane wejściowe, musimy przekonwertować wartość na liczbę za avg() pośrednictwem funkcji toInteger() .Because Rating is a string and avg() takes in a numerical input, we must convert the value to a number via the toInteger() function. To wyrażenie wygląda następująco:This expression looks like:

    avg(toInteger(Rating))

  5. Po zakończeniu wybierz pozycję Zapisz i zakończ.Select Save and finish after you're finished.

    Zrzut ekranu przedstawiający zapisywanie agregacji.

  6. Przejdź do karty Podgląd danych, aby wyświetlić dane wyjściowe przekształcenia.Go to the Data Preview tab to view the transformation output. Zwróć uwagę, że istnieją tylko dwie kolumny: year i AverageComedyRating.Notice only two columns are there, year and AverageComedyRating.

Dodawanie przekształcenia ujściaAdd the sink transformation

  1. Następnie chcesz dodać przekształcenie ujścia w obszarze Miejsce docelowe.Next, you want to add a Sink transformation under Destination.

    Zrzut ekranu przedstawiający dodawanie ujścia.

  2. Nadaj ujściu nazwę ujścia.Name your sink Sink. Wybierz pozycję Nowy, aby utworzyć zestaw danych ujścia.Select New to create your sink dataset.

    Zrzut ekranu przedstawiający tworzenie ujścia.

  3. Na stronie Nowy zestaw danych wybierz pozycję Azure Data Lake Storage Gen2 a następnie wybierz pozycję Kontynuuj.On the New dataset page, select Azure Data Lake Storage Gen2 and then select Continue.

  4. Na stronie Wybieranie formatu wybierz pozycję OgranicznikTekst, a następnie wybierz pozycję Kontynuuj.On the Select format page, select DelimitedText and then select Continue.

  5. Nadaj zestawowi danych ujścia nazwę MoviesSink.Name your sink dataset MoviesSink. W przypadku połączonej usługi wybierz tę samą usługę połączona USŁUGI ADLSGen2, która została utworzona na podstawie przekształcenia źródła.For linked service, choose the same ADLSGen2 linked service you created for source transformation. Wprowadź folder wyjściowy, w którym będą zapisywane dane.Enter an output folder to write your data to. W tym samouczku będziemy pisać do danych wyjściowych folderu w kontenerze sample-data.In this tutorial, we're writing to the folder output in the container sample-data. Folder nie musi istnieć wcześniej i można go utworzyć dynamicznie.The folder doesn't need to exist beforehand and can be dynamically created. Zaznacz pole wyboru Pierwszy wiersz jako nagłówek, a następnie wybierz pozycję Brak dla opcji Importuj schemat.Select the First row as header check box, and select None for Import schema. Wybierz przycisk OK.Select OK.

    Zrzut ekranu przedstawiający ścieżkę ujścia.

Teraz ukończono tworzenie przepływu danych.Now you've finished building your data flow. Wszystko jest gotowe do uruchomienia w potoku.You're ready to run it in your pipeline.

Uruchamianie i monitorowanie przepływu danychRun and monitor the data flow

Potok można debugować przed jego opublikowaniem.You can debug a pipeline before you publish it. W tym kroku wyzwolisz uruchomienie debugowania potoku przepływu danych.In this step, you trigger a debug run of the data flow pipeline. Podczas gdy podgląd danych nie zapisuje danych, przebieg debugowania zapisze dane w miejscu docelowym ujścia.While the data preview doesn't write data, a debug run will write data to your sink destination.

  1. Przejdź do kanwy potoku.Go to the pipeline canvas. Wybierz pozycję Debuguj, aby wyzwolić uruchomienie debugowania.Select Debug to trigger a debug run.

  2. Debugowanie potoku działań przepływu danych używa aktywnego klastra debugowania, ale inicjowanie nadal trwa co najmniej minutę.Pipeline debugging of data flow activities uses the active debug cluster but still takes at least a minute to initialize. Postęp można śledzić za pomocą karty Dane wyjściowe. Po pomyślnym uruchomieniu wybierz ikonę okularów, aby uzyskać szczegółowe informacje o uruchomieniu.You can track the progress via the Output tab. After the run is successful, select the eyeglasses icon for run details.

  3. Na stronie szczegółów można zobaczyć liczbę wierszy i czas spędzony w każdym kroku przekształcania.On the details page, you can see the number of rows and the time spent on each transformation step.

    Zrzut ekranu przedstawiający przebieg monitorowania.

  4. Wybierz przekształcenie, aby uzyskać szczegółowe informacje na temat kolumn i partycjonowania danych.Select a transformation to get detailed information about the columns and partitioning of the data.

Jeśli ten samouczek został wykonane prawidłowo, w folderze ujścia powinny być zapisane 83 wiersze i 2 kolumny.If you followed this tutorial correctly, you should have written 83 rows and 2 columns into your sink folder. Możesz sprawdzić, czy dane są poprawne, sprawdzając magazyn obiektów blob.You can verify the data is correct by checking your blob storage.

PodsumowanieSummary

W tym samouczku interfejs użytkownika usługi Data Factory został użyty do utworzenia potoku, który kopiuje i przekształca dane ze źródła Data Lake Storage Gen2 do ujścia usługi Data Lake Storage Gen2 (obie zezwalają na dostęp tylko do wybranych sieci) przy użyciu przepływu danych mapowania w ujściu usługi Data Factory Managed Virtual Network.In this tutorial, you used the Data Factory UI to create a pipeline that copies and transforms data from a Data Lake Storage Gen2 source to a Data Lake Storage Gen2 sink (both allowing access to only selected networks) by using mapping data flow in Data Factory Managed Virtual Network.