Jak działa program Azure Data Factory Workflow Orchestration Manager?

DOTYCZY: Azure Data Factory Azure Synapse Analytics

Napiwek

Wypróbuj usługę Data Factory w usłudze Microsoft Fabric — rozwiązanie analityczne typu all-in-one dla przedsiębiorstw. Usługa Microsoft Fabric obejmuje wszystko, od przenoszenia danych do nauki o danych, analizy w czasie rzeczywistym, analizy biznesowej i raportowania. Dowiedz się, jak bezpłatnie rozpocząć nową wersję próbną !

Uwaga

Menedżer orkiestracji przepływu pracy jest obsługiwany przez platformę Apache Airflow.

Uwaga

Program Workflow Orchestration Manager dla usługi Azure Data Factory korzysta z aplikacji typu open source Apache Airflow. Dokumentację i więcej samouczków dotyczących rozwiązania Airflow można znaleźć na stronach dokumentacji lub społeczności platformy Apache Airflow.

Menedżer orkiestracji przepływu pracy w usłudze Azure Data Factory używa opartych na języku Python grafów Acyklicznych (DAG) do uruchamiania przepływów pracy aranżacji. Aby użyć tej funkcji, musisz podać grupy DAG i wtyczki w usłudze Azure Blob Storage. Interfejs użytkownika platformy Airflow można uruchomić z poziomu usługi ADF przy użyciu interfejsu wiersza polecenia (CLI) lub zestawu sdk (software development kit), aby zarządzać grupami DAG.

Tworzenie środowiska menedżera orkiestracji przepływu pracy

Poniższe kroki umożliwiają skonfigurowanie i skonfigurowanie środowiska programu Workflow Orchestration Manager.

Wymagania wstępne

Subskrypcja platformy Azure: jeśli nie masz subskrypcji platformy Azure, przed rozpoczęciem utwórz bezpłatne konto. Utwórz lub wybierz istniejącą fabrykę danych w regionie, w którym jest obsługiwana wersja zapoznawcza programu Workflow Orchestration Manager.

Procedura tworzenia środowiska

  1. Utwórz nowe środowisko programu Workflow Orchestration Manager. Przejdź do obszaru Zarządzanie koncentratorem ->Airflow (wersja zapoznawcza) -+>Nowy , aby utworzyć nowe środowisko Airflow

    Zrzut ekranu przedstawiający sposób tworzenia nowego zarządzanego środowiska platformy Apache Airflow.

  2. Podaj szczegóły (konfiguracja rozwiązania Airflow)

    Zrzut ekranu przedstawiający szczegóły środowiska programu Workflow Orchestration Manager.

    Ważne

    Podczas korzystania z uwierzytelniania podstawowego pamiętaj nazwę użytkownika i hasło określone na tym ekranie. Będzie konieczne zalogowanie się później w interfejsie użytkownika programu Workflow Orchestration Manager. Opcja domyślna to Microsoft Entra ID i nie wymaga utworzenia nazwy użytkownika/hasła dla środowiska Airflow, ale zamiast tego używa poświadczeń zalogowanego użytkownika do usługi Azure Data Factory, aby zalogować się/monitorować grupy DAG.

  3. Zmienne środowiskowe prosty magazyn wartości klucza w środowisku Airflow do przechowywania i pobierania dowolnej zawartości lub ustawień.

  4. Wymagania mogą służyć do wstępnego instalowania bibliotek języka Python. Można je również zaktualizować później.

Importowanie grup DAG

W poniższych krokach opisano sposób importowania grup DAG do programu Workflow Orchestration Manager.

Wymagania wstępne

Musisz przekazać przykładową grupę DAG na dostępne konto magazynu (powinno znajdować się w folderze dags).

Uwaga

Usługa Blob Storage za siecią wirtualną nie jest obsługiwana w okresie obowiązywania wersji zapoznawczej.
Konfiguracja usługi KeyVault w usłudze storageLinkedServices nie jest obsługiwana do importowania grup dags.

Przykładowy plik DAG platformy Apache Airflow w wersji 2.x. Przykładowy zestaw danych Apache Airflow w wersji 1.10 DAG.

Kroki importowania

  1. Skopiuj zawartość (v2.x lub v1.10 na podstawie skonfigurowanego środowiska Airflow) do nowego pliku o nazwie tutorial.py.

    Przekaż tutorial.py do magazynu obiektów blob. (Jak przekazać plik do obiektu blob)

    Uwaga

    Musisz wybrać ścieżkę katalogu z konta magazynu obiektów blob, które zawiera foldery o nazwach dags i wtyczki, aby zaimportować je do środowiska Airflow. Wtyczki nie są obowiązkowe. Możesz również mieć kontener o nazwie dags i przekazać wszystkie pliki Airflow w nim.

  2. Wybierz pozycję Airflow (wersja zapoznawcza) w obszarze Zarządzaj centrum. Następnie umieść kursor na wcześniej utworzonym środowisku Airflow i wybierz pozycję Importuj pliki, aby zaimportować wszystkie grupy DAG i zależności do środowiska Airflow.

    Zrzut ekranu przedstawiający importowanie plików w centrum zarządzania.

  3. Utwórz nową połączoną usługę z dostępnym kontem magazynu wymienionym w wymaganiach wstępnych (lub użyj istniejącej usługi, jeśli masz już własne grupy DAG).

    Zrzut ekranu przedstawiający sposób tworzenia nowej połączonej usługi.

  4. Użyj konta magazynu, na którym przekazano grupę DAG (sprawdź wymagania wstępne). Przetestuj połączenie, a następnie wybierz pozycję Utwórz.

    Zrzut ekranu przedstawia niektóre szczegóły połączonej usługi.

  5. Przeglądaj i wybierz przepływ powietrza, jeśli używasz przykładowego adresu URL sygnatury dostępu współdzielonego lub wybierz folder zawierający folder dags z plikami DAG.

    Uwaga

    Możesz zaimportować grupy DAG i ich zależności za pomocą tego interfejsu. Musisz wybrać ścieżkę katalogu z konta magazynu obiektów blob, które zawiera foldery o nazwach dags i wtyczki, aby zaimportować je do środowiska Airflow. Wtyczki nie są obowiązkowe.

    Zrzut ekranu przedstawiający przeglądanie magazynu w plikach importu.

    Zrzut ekranu przedstawiający przeglądanie w przepływie powietrza.

    Zrzut ekranu przedstawiający importowanie plików importu.

    Zrzut ekranu przedstawiający importowanie grup dags.

Uwaga

Importowanie grup DAG może potrwać kilka minut w wersji zapoznawczej. Centrum powiadomień (ikona dzwonka w interfejsie użytkownika usługi ADF) może służyć do śledzenia aktualizacji stanu importu.

Rozwiązywanie problemów z importowaniem grup DAG

  • Problem: Importowanie grup DAG zajmuje ponad 5 minut środki zaradcze: Zmniejsz rozmiar zaimportowanych grup DAG przy użyciu pojedynczego importu. Jednym ze sposobów osiągnięcia tego celu jest utworzenie wielu folderów DAG z mniejszymi grupami DAG w wielu kontenerach.

  • Problem: Zaimportowane grupy DAG nie są wyświetlane podczas logowania się do interfejsu użytkownika aplikacji Airflow. Środki zaradcze: zaloguj się do interfejsu użytkownika przepływu powietrza i sprawdź, czy występują błędy analizowania języka DAG. Może się tak zdarzyć, jeśli pliki DAG zawierają dowolny niezgodny kod. Znajdziesz dokładne numery wierszy i pliki, które mają problem za pośrednictwem interfejsu użytkownika przepływu powietrza.

    Zrzut ekranu przedstawiający problemy z importowaniem narzędzia dag.

Monitorowanie przebiegów grup DAG

Aby monitorować grupy DAG przepływu powietrza, zaloguj się do interfejsu użytkownika aplikacji Airflow przy użyciu wcześniej utworzonej nazwy użytkownika i hasła.

  1. Wybierz utworzone środowisko Airflow.

    Zrzut ekranu przedstawiający utworzone środowisko Airflow.

  2. Zaloguj się przy użyciu hasła użytkownika podanego podczas tworzenia środowiska Airflow Integration Runtime. (W razie potrzeby możesz zresetować nazwę użytkownika lub hasło, edytując środowisko Airflow Integration Runtime )

    Zrzut ekranu przedstawiający logowanie przy użyciu hasła użytkownika podanego podczas tworzenia środowiska Airflow Integration Runtime.

Usuwanie grup DAG ze środowiska Airflow

Jeśli używasz środowiska Airflow w wersji 1.x, usuń grupy DAG wdrożone w dowolnym środowisku Airflow (IR), musisz usunąć grupy DAG w dwóch różnych miejscach.

  1. Usuwanie grupy DAG z interfejsu użytkownika przepływu powietrza
  2. Usuwanie grupy DAG w interfejsie użytkownika usługi ADF

Uwaga

Jest to bieżące środowisko w publicznej wersji zapoznawczej i będziemy ulepszać to środowisko.