Ćwiczenie — używanie przekształceń obliczeniowych w usłudze Azure Data Factory

8 min

W niektórych przypadkach transformacja bez użycia kodu na dużą skalę może nie spełniać Twoich wymagań. Za pomocą usługi Azure Data Factory można pozyskiwać nieprzetworzone dane zebrane z różnych źródeł i pracować z różnymi zasobami obliczeniowymi, takimi jak Azure Databricks, Azure HDInsight lub inne zasoby obliczeniowe, aby je zrestrukturyzować zgodnie z wymaganiami.

Usługi ADF i Azure Databricks

Na przykład integracja usługi Azure Databricks z usługą ADF umożliwia dodawanie notesów usługi Databricks w potoku usługi ADF w celu wykorzystania możliwości analizy i przekształcania danych usługi Databricks. Dodanie notesu do przepływu danych umożliwia strukturyzowanie i przekształcanie danych pierwotnych załadowanych do usługi ADF z różnych źródeł. Po przekształceniu danych w usłudze Databricks można załadować je do dowolnego źródłowego magazynu danych.

Pozyskiwanie i przekształcanie danych za pomocą kombinacji funkcji usług ADF i Azure Databricks obejmuje następujące podstawowe etapy:

Tworzenie konta usługi Azure Storage — pierwszym krokiem jest utworzenie konta usługi Azure Storage w celu przechowywania pozyskanych i przekształconych danych.
Tworzenie wystąpienia usługi Azure Data Factory — po skonfigurowaniu konta magazynu należy utworzyć wystąpienie usługi Azure Data Factory w witrynie Azure Portal.
Tworzenie potoku przepływu danych — po skonfigurowaniu i uruchomieniu magazynu i usługi ADF należy utworzyć potok, w którym pierwszym krokiem będzie skopiowanie danych ze źródła za pomocą działania kopiowania usługi ADF. Działanie kopiowania umożliwia kopiowanie danych z różnych źródeł lokalnych i w chmurze.
Dodawanie notesu usługi Databricks do potoku — po skopiowaniu danych do usługi ADF można dodać do potoku notes usługi Databricks, umieszczając go po działaniu kopiowania. Ten notes może zawierać składnię oraz kod używane do przekształcania i czyszczenia danych pierwotnych stosownie do potrzeb.
Wykonywanie analiz na danych — po oczyszczeniu danych i dostosowaniu ich struktury oraz formatu możesz używać notesów usługi Databricks do dalszego trenowania lub analizowania w celu uzyskania wymaganych wyników wyjściowych.

Wiesz już, co to jest usługa Azure Data Factory oraz jak jej integracja z usługą Azure Databricks usprawnia ładowanie i przekształcanie danych. Teraz utworzymy przykładowy kompleksowy przepływ danych.

Integrowanie notesów usługi Azure Databricks z potokiem usługi Azure Data Factory

Istnieje wiele zadań, które należy wykonać w celu zintegrowania notesów usługi Azure Databricks z potokiem usługi Azure Data Factory w następujący sposób:

Wygeneruj token dostępu usługi Databricks.
Generowanie notesu usługi Databricks
Tworzenie połączonych usług
Utwórz potok, który używa działania notesu usługi Databricks.
Wyzwalanie uruchomienia potoku.

Uwaga

W poniższych krokach założono, że klaster usługi Azure Databricks jest już aprowizowany

Zadanie 1. Generowanie tokenu dostępu usługi Databricks.

W witrynie Azure Portal kliknij pozycję Grupy zasobów, a następnie kliknij pozycję awrgstudxx, a następnie kliknij pozycję awdbwsstudxx , gdzie xx są inicjałami Twojej nazwy.
Kliknij pozycję Uruchom obszar roboczy
Kliknij użytkownika Ustawienia w lewym dolnym rogu obszaru roboczego usługi Databricks.
Kliknij pozycję Użytkownik Ustawienia.
Przejdź do karty Tokeny dostępu i kliknij przycisk Generuj nowy token .
Wprowadź opis w komentarzu "W przypadku integracji z usługą ADF" i ustaw okres istnienia 10 dni, a następnie kliknij pozycję Generuj
Skopiuj wygenerowany token i zapisz go w Notatnik, a następnie kliknij pozycję Gotowe.

Zadanie 2. Generowanie notesu usługi Databricks

Po lewej stronie ekranu kliknij ikonę Obszar roboczy , a następnie kliknij strzałkę obok wyrazu Obszar roboczy, a następnie kliknij pozycję Utwórz , a następnie kliknij pozycję Folder. Nadaj folderowi nazwę adftutorial, a następnie kliknij pozycję Utwórz folder. Folder adftutorial zostanie wyświetlony w obszarze roboczym.
Kliknij strzałkę listy rozwijanej obok pozycji adftutorial, a następnie kliknij pozycję Utwórz, a następnie kliknij przycisk Notes.
W oknie dialogowym Tworzenie notesu wpisz nazwę elementu mynotebook i upewnij się, że język zawiera język Python, a następnie kliknij pozycję Utwórz. Zostanie wyświetlony notes z tytułem elementu mynotebook/

W nowo utworzonym notesie „mynotebook” dodaj następujący kod:

# Creating widgets for leveraging parameters, and printing the parameters

dbutils.widgets.text("input", "","")
dbutils.widgets.get("input")
y = getArgument("input")
print ("Param -\'input':")
print (y)

Uwaga

że ścieżka notesu to /adftutorial/mynotebook

Zadanie 3. Tworzenie połączonych usług

W przeglądarce Microsoft Edge kliknij kartę portalu W witrynie Azure Portal i wróć do usługi Azure Data Factory, a następnie kliknij pozycję Otwórz program Azure Data Factory Studio.
Po lewej stronie ekranu kliknij ikonę Zarządzaj .
W obszarze Połączenie ions kliknij pozycję Połączone usługi.
W połączonej usłudze w górnej części ekranu kliknij pozycję + Nowy,
Kliknij kartę Obliczenia , kliknij pozycję Azure Databricks, a następnie kliknij pozycję Kontynuuj.
Na ekranie Nowa połączona usługa (Azure Databricks) wypełnij następujące szczegóły i kliknij przycisk Zakończ
- Nazwa: xx_dbls, gdzie xx to Twoje inicjały
- Obszar roboczy usługi Databricks: awdbwsstudxx, gdzie xx to Twoje inicjały
- Wybierz klaster: użyj istniejącego
- Domena/region: należy wypełnić
- Token dostępu: skopiuj token dostępu z Notatnik i wklej go w tym polu
- Wybierz z istniejącego klastra: awdbclstudxx, gdzie xx to Twoje inicjały
- Pozostaw inne opcje do ustawień domyślnych
Uwaga

Po kliknięciu przycisku Zakończ zostanie zwrócony ekran Tworzenie i monitorowanie , na którym utworzono xx_dbls z innymi połączonymi usługami utworzonymi w poprzednim przykładzie.

Zadanie 4. Tworzenie potoku korzystającego z działania notesu usługi Databricks.

Po lewej stronie ekranu kliknij ikonę Autor , a następnie kliknij pozycję Potok. Spowoduje to otwarcie karty z projektantem potoku.
W dolnej części projektanta potoku kliknij kartę Parametry, a następnie kliknij pozycję + Nowy
Utwórz parametr o nazwie z typem ciągu
W menu Działania rozwiń węzeł Databricks.
Kliknij i przeciągnij notes na kanwę.
We właściwościach okna Notebook1 u dołu wykonaj następujące kroki:
- Przejdź do karty Azure Databricks.
- Wybierz xx_dbls , które zostały utworzone w poprzedniej procedurze.
- Przejdź do karty Ustawienia i umieść ciąg /adftutorial/mynotebook w ścieżce notesu.
- Rozwiń węzeł Podstawowe parametry, a następnie kliknij pozycję + Nowy
- Utwórz parametr o nazwie danych wejściowych z wartością @pipeline().parameters.name
W notesie 1 kliknij pozycję Weryfikuj obok przycisku Zapisz jako szablon. Po prawej stronie ekranu zostanie wyświetlone okno z komunikatem "Potok został zweryfikowany. Nie znaleziono żadnych błędów. Kliknij przycisk , >> aby zamknąć okno.
Kliknij pozycję Publikuj wszystko, aby opublikować połączoną usługę i potok.

Uwaga

Zostanie wyświetlony komunikat informujący o pomyślnym wdrożeniu.

Zadanie 5. Wyzwalanie uruchomienia potoku

W notesie 1 kliknij pozycję Dodaj wyzwalacz, a następnie kliknij pozycję Wyzwól teraz obok przycisku Debuguj.
W oknie dialogowym Uruchamianie potoku zostanie wyświetlony monit o podanie parametru name. Jako parametru użyj w tym miejscu wartości /path/filename. Kliknij przycisk Zakończ. Czerwone kółko pojawia się nad działaniem Notebook1 na kanwie.

Zadanie 6. Monitorowanie potoku

Po lewej stronie ekranu kliknij kartę Monitorowanie . Upewnij się, że zostanie wyświetlony przebieg potoku. Utworzenie klastra zadań usługi Databricks, w którym jest wykonywany notes, trwa około 5–8 minut.
Okresowo wybieraj pozycję Odśwież, aby sprawdzić stan uruchomienia potoku.
Aby wyświetlić uruchomienia działań skojarzone z uruchomieniem potoku, wybierz pozycję Wyświetl uruchomienia działań w kolumnie Akcje.

Zadanie 7. Weryfikowanie danych wyjściowych

W przeglądarce Microsoft Edge kliknij kartę mynotebook — Databricks
W obszarze roboczym usługi Azure Databricks kliknij pozycję Klastry i możesz zobaczyć stan zadania jako oczekujące na wykonanie, uruchomienie lub zakończenie.
Kliknij klaster awdbclstudxx, a następnie kliknij dziennik zdarzeń, aby wyświetlić działania.

Uwaga

Powinien zostać wyświetlony typ zdarzenia Rozpoczynający się od czasu wyzwolenia uruchomienia potoku.

Kontynuuj