Ćwiczenie — używanie przekształceń obliczeniowych w usłudze Azure Data Factory
W niektórych przypadkach transformacja bez użycia kodu na dużą skalę może nie spełniać Twoich wymagań. Za pomocą usługi Azure Data Factory można pozyskiwać nieprzetworzone dane zebrane z różnych źródeł i pracować z różnymi zasobami obliczeniowymi, takimi jak Azure Databricks, Azure HDInsight lub inne zasoby obliczeniowe, aby je zrestrukturyzować zgodnie z wymaganiami.
Usługi ADF i Azure Databricks
Na przykład integracja usługi Azure Databricks z usługą ADF umożliwia dodawanie notesów usługi Databricks w potoku usługi ADF w celu wykorzystania możliwości analizy i przekształcania danych usługi Databricks. Dodanie notesu do przepływu danych umożliwia strukturyzowanie i przekształcanie danych pierwotnych załadowanych do usługi ADF z różnych źródeł. Po przekształceniu danych w usłudze Databricks można załadować je do dowolnego źródłowego magazynu danych.
Pozyskiwanie i przekształcanie danych za pomocą kombinacji funkcji usług ADF i Azure Databricks obejmuje następujące podstawowe etapy:
Tworzenie konta usługi Azure Storage — pierwszym krokiem jest utworzenie konta usługi Azure Storage w celu przechowywania pozyskanych i przekształconych danych.
Tworzenie wystąpienia usługi Azure Data Factory — po skonfigurowaniu konta magazynu należy utworzyć wystąpienie usługi Azure Data Factory w witrynie Azure Portal.
Tworzenie potoku przepływu danych — po skonfigurowaniu i uruchomieniu magazynu i usługi ADF należy utworzyć potok, w którym pierwszym krokiem będzie skopiowanie danych ze źródła za pomocą działania kopiowania usługi ADF. Działanie kopiowania umożliwia kopiowanie danych z różnych źródeł lokalnych i w chmurze.
Dodawanie notesu usługi Databricks do potoku — po skopiowaniu danych do usługi ADF można dodać do potoku notes usługi Databricks, umieszczając go po działaniu kopiowania. Ten notes może zawierać składnię oraz kod używane do przekształcania i czyszczenia danych pierwotnych stosownie do potrzeb.
Wykonywanie analiz na danych — po oczyszczeniu danych i dostosowaniu ich struktury oraz formatu możesz używać notesów usługi Databricks do dalszego trenowania lub analizowania w celu uzyskania wymaganych wyników wyjściowych.
Wiesz już, co to jest usługa Azure Data Factory oraz jak jej integracja z usługą Azure Databricks usprawnia ładowanie i przekształcanie danych. Teraz utworzymy przykładowy kompleksowy przepływ danych.
Integrowanie notesów usługi Azure Databricks z potokiem usługi Azure Data Factory
Istnieje wiele zadań, które należy wykonać w celu zintegrowania notesów usługi Azure Databricks z potokiem usługi Azure Data Factory w następujący sposób:
Wygeneruj token dostępu usługi Databricks.
Generowanie notesu usługi Databricks
Tworzenie połączonych usług
Utwórz potok, który używa działania notesu usługi Databricks.
Wyzwalanie uruchomienia potoku.
Uwaga
W poniższych krokach założono, że klaster usługi Azure Databricks jest już aprowizowany
Zadanie 1. Generowanie tokenu dostępu usługi Databricks.
W witrynie Azure Portal kliknij pozycję Grupy zasobów, a następnie kliknij pozycję awrgstudxx, a następnie kliknij pozycję awdbwsstudxx , gdzie xx są inicjałami Twojej nazwy.
Kliknij pozycję Uruchom obszar roboczy
Kliknij użytkownika Ustawienia w lewym dolnym rogu obszaru roboczego usługi Databricks.
Kliknij pozycję Użytkownik Ustawienia.
Przejdź do karty Tokeny dostępu i kliknij przycisk Generuj nowy token .
Wprowadź opis w komentarzu "W przypadku integracji z usługą ADF" i ustaw okres istnienia 10 dni, a następnie kliknij pozycję Generuj
Skopiuj wygenerowany token i zapisz go w Notatnik, a następnie kliknij pozycję Gotowe.
Zadanie 2. Generowanie notesu usługi Databricks
Po lewej stronie ekranu kliknij ikonę Obszar roboczy , a następnie kliknij strzałkę obok wyrazu Obszar roboczy, a następnie kliknij pozycję Utwórz , a następnie kliknij pozycję Folder. Nadaj folderowi nazwę adftutorial, a następnie kliknij pozycję Utwórz folder. Folder adftutorial zostanie wyświetlony w obszarze roboczym.
Kliknij strzałkę listy rozwijanej obok pozycji adftutorial, a następnie kliknij pozycję Utwórz, a następnie kliknij przycisk Notes.
W oknie dialogowym Tworzenie notesu wpisz nazwę elementu mynotebook i upewnij się, że język zawiera język Python, a następnie kliknij pozycję Utwórz. Zostanie wyświetlony notes z tytułem elementu mynotebook/
W nowo utworzonym notesie „mynotebook” dodaj następujący kod:
# Creating widgets for leveraging parameters, and printing the parameters dbutils.widgets.text("input", "","") dbutils.widgets.get("input") y = getArgument("input") print ("Param -\'input':") print (y)
Uwaga
że ścieżka notesu to /adftutorial/mynotebook
Zadanie 3. Tworzenie połączonych usług
W przeglądarce Microsoft Edge kliknij kartę portalu W witrynie Azure Portal i wróć do usługi Azure Data Factory, a następnie kliknij pozycję Otwórz program Azure Data Factory Studio.
Po lewej stronie ekranu kliknij ikonę Zarządzaj .
W obszarze Połączenie ions kliknij pozycję Połączone usługi.
W połączonej usłudze w górnej części ekranu kliknij pozycję + Nowy,
Kliknij kartę Obliczenia , kliknij pozycję Azure Databricks, a następnie kliknij pozycję Kontynuuj.
Na ekranie Nowa połączona usługa (Azure Databricks) wypełnij następujące szczegóły i kliknij przycisk Zakończ
- Nazwa: xx_dbls, gdzie xx to Twoje inicjały
- Obszar roboczy usługi Databricks: awdbwsstudxx, gdzie xx to Twoje inicjały
- Wybierz klaster: użyj istniejącego
- Domena/region: należy wypełnić
- Token dostępu: skopiuj token dostępu z Notatnik i wklej go w tym polu
- Wybierz z istniejącego klastra: awdbclstudxx, gdzie xx to Twoje inicjały
- Pozostaw inne opcje do ustawień domyślnych
Uwaga
Po kliknięciu przycisku Zakończ zostanie zwrócony ekran Tworzenie i monitorowanie , na którym utworzono xx_dbls z innymi połączonymi usługami utworzonymi w poprzednim przykładzie.
Zadanie 4. Tworzenie potoku korzystającego z działania notesu usługi Databricks.
Po lewej stronie ekranu kliknij ikonę Autor , a następnie kliknij pozycję Potok. Spowoduje to otwarcie karty z projektantem potoku.
W dolnej części projektanta potoku kliknij kartę Parametry, a następnie kliknij pozycję + Nowy
Utwórz parametr o nazwie z typem ciągu
W menu Działania rozwiń węzeł Databricks.
Kliknij i przeciągnij notes na kanwę.
We właściwościach okna Notebook1 u dołu wykonaj następujące kroki:
Przejdź do karty Azure Databricks.
Wybierz xx_dbls , które zostały utworzone w poprzedniej procedurze.
Przejdź do karty Ustawienia i umieść ciąg /adftutorial/mynotebook w ścieżce notesu.
Rozwiń węzeł Podstawowe parametry, a następnie kliknij pozycję + Nowy
Utwórz parametr o nazwie danych wejściowych z wartością @pipeline().parameters.name
W notesie 1 kliknij pozycję Weryfikuj obok przycisku Zapisz jako szablon. Po prawej stronie ekranu zostanie wyświetlone okno z komunikatem "Potok został zweryfikowany. Nie znaleziono żadnych błędów. Kliknij przycisk , >> aby zamknąć okno.
Kliknij pozycję Publikuj wszystko, aby opublikować połączoną usługę i potok.
Uwaga
Zostanie wyświetlony komunikat informujący o pomyślnym wdrożeniu.
Zadanie 5. Wyzwalanie uruchomienia potoku
W notesie 1 kliknij pozycję Dodaj wyzwalacz, a następnie kliknij pozycję Wyzwól teraz obok przycisku Debuguj.
W oknie dialogowym Uruchamianie potoku zostanie wyświetlony monit o podanie parametru name. Jako parametru użyj w tym miejscu wartości /path/filename. Kliknij przycisk Zakończ. Czerwone kółko pojawia się nad działaniem Notebook1 na kanwie.
Zadanie 6. Monitorowanie potoku
Po lewej stronie ekranu kliknij kartę Monitorowanie . Upewnij się, że zostanie wyświetlony przebieg potoku. Utworzenie klastra zadań usługi Databricks, w którym jest wykonywany notes, trwa około 5–8 minut.
Okresowo wybieraj pozycję Odśwież, aby sprawdzić stan uruchomienia potoku.
Aby wyświetlić uruchomienia działań skojarzone z uruchomieniem potoku, wybierz pozycję Wyświetl uruchomienia działań w kolumnie Akcje.
Zadanie 7. Weryfikowanie danych wyjściowych
W przeglądarce Microsoft Edge kliknij kartę mynotebook — Databricks
W obszarze roboczym usługi Azure Databricks kliknij pozycję Klastry i możesz zobaczyć stan zadania jako oczekujące na wykonanie, uruchomienie lub zakończenie.
Kliknij klaster awdbclstudxx, a następnie kliknij dziennik zdarzeń, aby wyświetlić działania.
Uwaga
Powinien zostać wyświetlony typ zdarzenia Rozpoczynający się od czasu wyzwolenia uruchomienia potoku.