Szybki start: przekształcanie danych przy użyciu przepływów danych mapowania

W tym przewodniku Szybki start użyjesz usługi Azure Synapse Analytics do utworzenia potoku, który przekształca dane ze źródła Azure Data Lake Storage Gen2 (ADLS Gen2) do ujścia usługi ADLS Gen2 przy użyciu przepływu danych mapowania. Wzorzec konfiguracji w tym przewodniku Szybki start można rozszerzyć podczas przekształcania danych przy użyciu przepływu danych mapowania

W tym przewodniku Szybki start wykonasz następujące czynności:

  • Utwórz potok z działaniem Przepływ danych w usłudze Azure Synapse Analytics.
  • Utwórz przepływ danych mapowania z czterema przekształceniami.
  • Testowe uruchamianie potoku.
  • Monitorowanie działania Przepływ danych

Wymagania wstępne

  • Subskrypcja platformy Azure: jeśli nie masz subskrypcji platformy Azure, przed rozpoczęciem utwórz bezpłatne konto platformy Azure .

  • Azure Synapse obszar roboczy: utwórz obszar roboczy usługi Synapse przy użyciu Azure Portal zgodnie z instrukcjami w przewodniku Szybki start: tworzenie obszaru roboczego usługi Synapse.

  • Konto usługi Azure Storage: magazyn usługi ADLS jest używany jako magazyny danych źródła i ujścia . Jeśli nie masz konta magazynu, utwórz je, wykonując czynności przedstawione w artykule Tworzenie konta magazynu platformy Azure.

    Plik, który przekształcamy w tym samouczku, jest MoviesDB.csv, który można znaleźć tutaj. Aby pobrać plik z usługi GitHub, skopiuj zawartość do wybranego edytora tekstów, aby zapisać lokalnie jako plik .csv. Aby przekazać plik na konto magazynu, zobacz Przekazywanie obiektów blob przy użyciu Azure Portal. Przykłady będą odwoływać się do kontenera o nazwie "sample-data".

Po utworzeniu obszaru roboczego Azure Synapse istnieją dwa sposoby otwierania Synapse Studio:

  • Otwórz obszar roboczy usługi Synapse w Azure Portal. Wybierz pozycję Otwórz na karcie Otwórz Synapse Studio w obszarze Wprowadzenie.
  • Otwórz Azure Synapse Analytics i zaloguj się do obszaru roboczego.

W tym przewodniku Szybki start jako przykład użyjemy obszaru roboczego o nazwie "adftest2020". Spowoduje to automatyczne przejście do strony głównej Synapse Studio.

strona główna Synapse Studio

Tworzenie potoku za pomocą działania Przepływ danych

Potok zawiera logiczny przepływ wykonywania zestawu działań. W tej sekcji utworzysz potok zawierający działanie Przepływ danych.

  1. Przejdź do karty Integracja . Wybierz ikonę znaku plus obok nagłówka potoków i wybierz pozycję Potok.

    Tworzenie nowego potoku

  2. Na stronie Ustawienia właściwości potoku wprowadź wartość TransformRabias w polu Nazwa.

  3. W obszarze Przenieś i przekształć w okienku Działania przeciągnij przepływ danych na kanwę potoku.

  4. W oknie podręcznym Dodawanie przepływu danych wybierz pozycję Utwórz nowy przepływ danych ->Przepływ danych. Po zakończeniu kliknij przycisk OK .

    Tworzenie przepływu danych

  5. Nadaj przepływowi danych nazwę TransformRobie na stronie Właściwości .

Tworzenie logiki przekształcania na kanwie przepływu danych

Po utworzeniu Przepływ danych nastąpi automatyczne wysłanie do kanwy przepływu danych. W tym kroku utworzysz przepływ danych, który pobiera MoviesDB.csv w magazynie usługi ADLS i agreguje średnią ocenę komedii z 1910 do 2000 roku. Następnie zapiszesz ten plik z powrotem do magazynu usługi ADLS.

  1. Nad kanwą przepływu danych przesuń suwak debugowania przepływu danych . Tryb debugowania umożliwia interaktywne testowanie logiki transformacji względem dynamicznego klastra Spark. Przepływ danych klastry zajmują od 5 do 7 minut, a użytkownicy zaleca się włączenie debugowania w pierwszej kolejności, jeśli planują wykonać Przepływ danych programowania. Aby uzyskać więcej informacji, zobacz Tryb debugowania.

    Przesuń debugowanie na

  2. Na kanwie przepływu danych dodaj źródło, klikając pole Dodaj źródło .

  3. Nazwij źródłową bazę danych MoviesDB. Kliknij pozycję Nowy , aby utworzyć nowy źródłowy zestaw danych.

    Tworzenie nowego źródłowego zestawu danych

  4. Wybierz pozycję Azure Data Lake Storage Gen2. Kliknij przycisk Kontynuuj.

    Wybieranie Azure Data Lake Storage Gen2

  5. Wybierz pozycję RozdzielanyTekst. Kliknij przycisk Kontynuuj.

  6. Nadaj zestawowi danych nazwę MoviesDB. Na liście rozwijanej Połączona usługa wybierz pozycję Nowy.

  7. Na ekranie tworzenia połączonej usługi nazwij połączoną usługę ADLS Gen2 usługę ADLSGen2 i określ metodę uwierzytelniania. Następnie wprowadź poświadczenia połączenia. W tym przewodniku Szybki start używamy klucza konta do nawiązywania połączenia z kontem magazynu. Możesz kliknąć pozycję Testuj połączenie , aby sprawdzić, czy poświadczenia zostały wprowadzone poprawnie. Po zakończeniu kliknij pozycję Utwórz .

    Tworzenie źródłowej połączonej usługi

  8. Po powrocie do ekranu tworzenia zestawu danych w polu Ścieżka pliku wprowadź miejsce, w którym znajduje się plik. W tym przewodniku Szybki start plik "MoviesDB.csv" znajduje się w kontenerze "sample-data". Ponieważ plik ma nagłówki, zaznacz pozycję Pierwszy wiersz jako nagłówek. Wybierz pozycję Z połączenia/magazynu , aby zaimportować schemat nagłówka bezpośrednio z pliku w magazynie. Po zakończeniu kliknij przycisk OK .

    Ustawienia zestawu danych źródłowych

  9. Jeśli klaster debugowania został uruchomiony, przejdź do karty Podgląd danych przekształcenia źródła i kliknij przycisk Odśwież , aby uzyskać migawkę danych. Możesz użyć podglądu danych, aby sprawdzić, czy transformacja jest poprawnie skonfigurowana.

    Podgląd danych

  10. Obok węzła źródłowego na kanwie przepływu danych kliknij ikonę plusa, aby dodać nowe przekształcenie. Pierwszą dodaną transformacją jest filtr.

    Dodawanie filtru

  11. Nadaj transformacji filtru nazwę FilterYears. Kliknij pole wyrażenia obok pozycji Filtruj , aby otworzyć konstruktora wyrażeń. W tym miejscu określisz warunek filtrowania.

  12. Konstruktor wyrażeń przepływu danych umożliwia interaktywne tworzenie wyrażeń do użycia w różnych przekształceniach. Wyrażenia mogą obejmować wbudowane funkcje, kolumny ze schematu wejściowego i parametry zdefiniowane przez użytkownika. Aby uzyskać więcej informacji na temat tworzenia wyrażeń, zobacz Przepływ danych konstruktora wyrażeń.

    W tym przewodniku Szybki start chcesz filtrować filmy komedii gatunkowej, które pojawiły się między latami 1910 i 2000. Ponieważ rok jest obecnie ciągiem, musisz przekonwertować go na liczbę całkowitą przy użyciu toInteger() funkcji . Użyj operatorów większej lub równej (>=) i mniejszej lub równej operatorom (<=), aby porównać wartości roku literału 1910 i 200-. Ujmij te wyrażenia razem z operatorem && (i). Wyrażenie jest zwracane jako:

    toInteger(year) >= 1910 && toInteger(year) <= 2000

    Aby dowiedzieć się, które filmy są komediami, możesz użyć rlike() funkcji , aby znaleźć wzorzec "Komedia" w gatunkach kolumn. Ujmij wyrażenie z rlike porównaniem roku, aby uzyskać:

    toInteger(year) >= 1910 && toInteger(year) <= 2000 && rlike(genres, 'Comedy')

    Określanie warunku filtrowania

    Jeśli klaster debugowania jest aktywny, możesz zweryfikować logikę, klikając pozycję Odśwież , aby wyświetlić dane wyjściowe wyrażenia w porównaniu z użytymi danymi wejściowymi. Istnieje więcej niż jedna prawidłowa odpowiedź na temat tego, jak można wykonać tę logikę przy użyciu języka wyrażeń przepływu danych.

    Po zakończeniu pracy z wyrażeniem kliknij pozycję Zapisz i zakończ .

  13. Pobierz podgląd danych , aby sprawdzić, czy filtr działa poprawnie.

  14. Następne przekształcenie, które dodasz, to przekształcenie agregacji w obszarze Modyfikator schematu.

    Dodawanie agregacji

  15. Nadaj agregacji nazwę AggregateComedyRatings. Na karcie Grupuj według wybierz rok z listy rozwijanej, aby pogrupować agregacje według roku, w ramach których pojawił się film.

    Ustawienia agregacji 1

  16. Przejdź do karty Agregacje . W polu tekstowym po lewej stronie nadaj kolumnie agregującej nazwę AverageComedyRating. Kliknij odpowiednie pole wyrażenia, aby wprowadzić wyrażenie agregacji za pomocą konstruktora wyrażeń.

    Ustawienia agregacji 2

  17. Aby uzyskać średnią kolumny Ocena, użyj funkcji agregującej avg() . Ponieważ ocena jest ciągiem i avg() przyjmuje dane wejściowe liczbowe, musimy przekonwertować wartość na liczbę za pośrednictwem toInteger() funkcji . To wyrażenie wygląda następująco:

    avg(toInteger(Rating))

    Po zakończeniu kliknij przycisk Zapisz i zakończ .

    Średnia ocena komedii

  18. Przejdź do karty Podgląd danych , aby wyświetlić dane wyjściowe przekształcenia. Zwróć uwagę, że istnieją tylko dwie kolumny: rok i AverageComedyRating.

    Podgląd agregacji danych

  19. Następnie chcesz dodać przekształcenie ujścia w obszarze Miejsce docelowe.

    Dodawanie ujścia

  20. Nazwij ujście ujścia. Kliknij pozycję Nowy , aby utworzyć zestaw danych ujścia.

  21. Wybierz pozycję Azure Data Lake Storage Gen2. Kliknij przycisk Kontynuuj.

  22. Wybierz pozycję RozdzielanyTekst. Kliknij przycisk Kontynuuj.

  23. Nadaj zestawowi danych ujście nazwę MoviesSink. W przypadku połączonej usługi wybierz połączoną usługę ADLS Gen2 utworzoną w kroku 7. Wprowadź folder wyjściowy do zapisania danych. W tym przewodniku Szybki start zapisujemy dane w folderze "output" w kontenerze "sample-data". Folder nie musi istnieć wcześniej i można go dynamicznie tworzyć. Ustaw wartość Pierwszy wiersz jako nagłówek na wartość true, a następnie wybierz pozycję Brak w polu Schemat importu. Po zakończeniu kliknij przycisk OK .

    Właściwości zestawu danych ujścia

Teraz zakończono tworzenie przepływu danych. Wszystko jest gotowe do uruchomienia w potoku.

Uruchamianie i monitorowanie Przepływ danych

Potok można debugować przed jego opublikowaniem. W tym kroku wyzwolisz przebieg debugowania potoku przepływu danych. Chociaż podgląd danych nie zapisuje danych, przebieg debugowania zapisze dane w miejscu docelowym ujścia.

  1. Przejdź do kanwy potoku. Kliknij pozycję Debuguj , aby wyzwolić przebieg debugowania.

    Debugowanie potoku

  2. Debugowanie potoku działań Przepływ danych używa aktywnego klastra debugowania, ale inicjowanie trwa co najmniej minutę. Postęp można śledzić za pomocą karty Dane wyjściowe . Po pomyślnym uruchomieniu kliknij ikonę okularów, aby otworzyć okienko monitorowania.

    Debugowanie danych wyjściowych

  3. W okienku monitorowania można zobaczyć liczbę wierszy i czas spędzony w każdym kroku transformacji.

    Monitorowanie transformacji

  4. Kliknij przekształcenie, aby uzyskać szczegółowe informacje o kolumnach i partycjonowaniu danych.

    Szczegóły przekształcenia

Jeśli postępujesz zgodnie z tym przewodnikiem Szybki start poprawnie, musisz zapisać 83 wiersze i 2 kolumny w folderze ujścia. Dane można zweryfikować, sprawdzając magazyn obiektów blob.

Następne kroki

Przejdź do następujących artykułów, aby dowiedzieć się więcej o obsłudze usługi Azure Synapse Analytics: