Szybki start: tworzenie fabryki danych przy użyciu Azure Portal i programu Azure Data Factory Studio

DOTYCZY: Azure Data Factory Azure Synapse Analytics

W tym przewodniku Szybki start opisano sposób używania interfejsu użytkownika usługi Azure Data Factory w celu tworzenia i monitorowania fabryki danych. Potok tworzony w tej fabryce danych kopiuje dane z jednego folderu do innego folderu w usłudze Azure Blob Storage. Aby przekształcić dane przy użyciu Azure Data Factory, zobacz Mapowanie przepływu danych.

Uwaga

Jeśli jesteś nowym użytkownikiem usługi Azure Data Factory, przed wykonaniem kroków zawartych w tym przewodniku Szybki start zobacz Wprowadzenie do usługi Azure Data Factory.

Wymagania wstępne

Subskrypcja platformy Azure

Jeśli nie masz subskrypcji platformy Azure, przed rozpoczęciem utwórz bezpłatne konto.

Role platformy Azure

Aby utworzyć wystąpienia usługi Data Factory, konto użytkownika używane do logowania się na platformie Azure musi być członkiem roli współautora lub właściciela albo administratorem subskrypcji platformy Azure. Aby wyświetlić uprawnienia, które masz w subskrypcji, przejdź do Azure Portal, wybierz swoją nazwę użytkownika w prawym górnym rogu, wybierz ikonę "...", aby uzyskać więcej opcji, a następnie wybierz pozycję Moje uprawnienia. Jeśli masz dostęp do wielu subskrypcji, wybierz odpowiednią subskrypcję.

Aby utworzyć zasoby podrzędne — w tym zestawy danych, połączone usługi, potoki, wyzwalacze i środowiska Integration Runtime — oraz nimi zarządzać w usłudze Data Factory, należy spełnić następujące wymagania:

  • Aby tworzyć zasoby podrzędne i zarządzać nimi w Azure Portal, musisz należeć do roli Współautor usługi Data Factory na poziomie grupy zasobów lub wyższym.
  • W przypadku tworzenia zasobów podrzędnych i zarządzania nimi za pomocą programu PowerShell lub zestawu SDK rola współautora na poziomie grupy zasobów lub wyższej jest wystarczająca.

Aby uzyskać przykładowe instrukcje dotyczące dodawania użytkownika do roli, zobacz artykuł Add roles (Dodawanie ról).

Aby uzyskać więcej informacji, zobacz następujące artykuły:

Konto usługi Azure Storage

W tym przewodniku Szybki start użyjesz konta usługi Azure Storage ogólnego przeznaczenia (w szczególności usługi Blob Storage) jako źródłowego i docelowego magazynu danych. Jeśli nie masz konta usługi Azure Storage ogólnego przeznaczenia, zobacz Tworzenie konta magazynu, aby je utworzyć.

Uzyskiwanie nazwy konta magazynu

W tym przewodniku Szybki start potrzebna jest nazwa konta usługi Azure Storage. Poniższa procedura zawiera kroki pobierania nazwy konta magazynu:

  1. W przeglądarce internetowej przejdź do Azure Portal i zaloguj się przy użyciu nazwy użytkownika i hasła platformy Azure.
  2. W menu Azure Portal wybierz pozycję Wszystkie usługi, a następnie wybierz pozycję Storage>Storage konta. Możesz również wyszukać i wybrać Storage konta na dowolnej stronie.
  3. Na stronie Storage konta przefiltruj konto magazynu (w razie potrzeby), a następnie wybierz konto magazynu.

Możesz również wyszukać i wybrać Storage konta na dowolnej stronie.

Tworzenie kontenera obiektów blob

W tej sekcji utworzysz kontener obiektów blob o nazwie adftutorial w usłudze Azure Blob Storage.

  1. Na stronie konta magazynu wybierz pozycję PrzeglądKontenery>.

  2. Na pasku narzędzi strony Account nameContainers - >wybierz pozycję< Kontener.

  3. W oknie dialogowym Nowy kontener wprowadź jako nazwę adftutorial, a następnie wybierz przycisk OK. Strona <Nazwa> - kontaKontenery została zaktualizowana w celu uwzględnienia elementu adftutorial na liście kontenerów.

    List of containers

Dodawanie folderu wejściowego i pliku dla kontenera obiektów blob

W tej sekcji utworzysz folder o nazwie input w utworzonym kontenerze, a następnie przekażesz przykładowy plik do folderu wejściowego. Przed rozpoczęciem otwórz edytor tekstów, taki jak Notatnik, i utwórz plik o nazwie emp.txt z następującą zawartością:

John, Doe
Jane, Doe

Zapisz plik w folderze C:\ADFv2QuickStartPSH . (Jeśli folder jeszcze nie istnieje, utwórz go). Następnie wróć do Azure Portal i wykonaj następujące kroki:

  1. Na stronie Nazwa - >kontaKontenery, na której została przerwana, wybierz pozycję adftutorial ze zaktualizowanej listy kontenerów<.

    1. Jeśli okno zostało zamknięte lub zostało otwarte na innej stronie, zaloguj się ponownie do Azure Portal.
    2. W menu Azure Portal wybierz pozycję Wszystkie usługi, a następnie wybierz pozycję Storage>Storage konta. Możesz również wyszukać i wybrać Storage konta na dowolnej stronie.
    3. Wybierz konto magazynu, a następnie wybierz pozycję Konteneryadftutorial>.
  2. Na pasku narzędzi strony kontenera adftutorial wybierz pozycję Upload.

  3. Na stronie Upload obiektu blob wybierz pole Pliki, a następnie przejdź do i wybierz plik emp.txt.

  4. Rozwiń nagłówek Zaawansowane . Strona jest teraz wyświetlana w następujący sposób:

    Select Advanced link

  5. W polu Upload do folderu wprowadź dane wejściowe.

  6. Wybierz przycisk Przekaż. Na liście powinien pojawić się plik emp.txt i stan przekazywania.

  7. Wybierz ikonę Zamknij (X), aby zamknąć stronę Upload obiektu blob.

Pozostaw otwartą stronę kontenera adftutorial . Będzie ona używana do weryfikowania danych wyjściowych na końcu tego samouczka Szybki start.

Wideo

Obejrzenie tego filmu wideo ułatwi zapoznanie się z interfejsem użytkownika usługi Data Factory:

Tworzenie fabryki danych

  1. Uruchom przeglądarkę internetową Microsoft Edge lub Google Chrome. Obecnie interfejs użytkownika usługi Data Factory jest obsługiwany tylko przez przeglądarki internetowe Microsoft Edge i Google Chrome.

  2. Przejdź do witryny Azure Portal.

  3. W menu witryny Azure Portal wybierz pozycję Utwórz zasób.

  4. Wybierz pozycję Integracja, a następnie wybierz pozycję Data Factory.

    Data Factory selection in the New pane.

  5. Na stronie Tworzenie fabryki danych na karcie Podstawy wybierz subskrypcję platformy Azure, w której chcesz utworzyć fabrykę danych.

  6. W obszarze Grupa zasobów wykonaj jedną z następujących czynności:

    a. Wybierz istniejącą grupę zasobów z listy rozwijanej.

    b. Wybierz pozycję Utwórz nową i wprowadź nazwę nowej grupy zasobów.

    Informacje na temat grup zasobów znajdują się w artykule Using resource groups to manage your Azure resources (Używanie grup zasobów do zarządzania zasobami platformy Azure).

  7. W polu Region wybierz lokalizację fabryki danych.

    Ta lista zawiera tylko lokalizacje, które są obsługiwane przez usługę Data Factory i w których będą przechowywane metadane usługi Azure Data Factory. Skojarzone magazyny danych (takie jak azure Storage i Azure SQL Database) oraz obliczenia (takie jak usługa Azure HDInsight), których usługa Data Factory używa, może działać w innych regionach.

  8. W polu Nazwa wprowadź wartość ADFTutorialDataFactory. Nazwa fabryki danych Azure musi być globalnie unikatowa. Jeśli zostanie wyświetlony następujący błąd, zmień nazwę fabryki danych (na przykład <twojanazwaADFTutorialDataFactory>) i spróbuj utworzyć ją ponownie. Artykuł Usługa Data Factory — reguły nazewnictwa zawiera reguły nazewnictwa artefaktów usługi Data Factory.

    New data factory error message for duplicate name.

  9. W obszarze Wersja wybierz pozycję V2.

  10. Wybierz pozycję Dalej: Konfiguracja usługi Git, a następnie zaznacz pole wyboru Skonfiguruj usługę Git później .

  11. Wybierz pozycję Przejrzyj i utwórz, a następnie wybierz pozycję Utwórz po zakończeniu walidacji. Po zakończeniu tworzenia wybierz pozycję Przejdź do zasobu , aby przejść do strony Fabryka danych .

  12. Wybierz pozycję Otwórz na kafelku Otwórz Azure Data Factory Studio, aby uruchomić aplikację interfejsu użytkownika Azure Data Factory na osobnej karcie przeglądarki.

    Home page for the Azure Data Factory, with the Open Azure Data Factory Studio tile.

    Uwaga

    Jeśli zobaczysz, że przeglądarka internetowa jest zablokowana w obszarze "Autoryzowanie", wyczyść pole wyboru Blokuj pliki cookie innych firm i dane witryny . Możesz też zachować jego zaznaczenie, utworzyć wyjątek dla login.microsoftonline.com, a następnie spróbować ponownie otworzyć aplikację.

Tworzenie usługi połączonej

W tej procedurze utworzysz połączoną usługę, aby połączyć konto usługi Azure Storage z fabryką danych. Połączona usługa ma informacje o połączeniu, których usługa Data Factory używa w środowisku uruchomieniowym do nawiązywania z nią połączenia.

  1. Na stronie interfejsu użytkownika Azure Data Factory otwórz kartę Zarządzanie w okienku po lewej stronie.

  2. Na stronie Połączone usługi wybierz pozycję +Nowe , aby utworzyć nową połączoną usługę.

    New linked service.

  3. Na stronie Nowa połączona usługa wybierz pozycję Azure Blob Storage, a następnie wybierz pozycję Dalej.

  4. Na stronie Nowa połączona usługa (Azure Blob Storage) wykonaj następujące kroki:

    a. Wprowadź wartość AzureStorageLinkedService w polu Nazwa.

    b. W polu nazwa konta Storage wybierz nazwę konta usługi Azure Storage.

    c. Wybierz pozycję Testuj połączenie, aby sprawdzić, czy usługa Data Factory może nawiązać połączenie z kontem magazynu.

    d. Wybierz pozycję Utwórz, aby zapisać połączoną usługę.

    Linked service.

Tworzenie zestawów danych

W tej procedurze tworzone są dwa zestawy danych: InputDataset i OutputDataset. Te zestawy danych są typu AzureBlob. Odwołują się one do połączonej usługi Azure Storage utworzonej w poprzedniej sekcji.

Wejściowy zestaw danych reprezentuje dane źródłowe w folderze wejściowym. W definicji wejściowego zestawu danych określany jest kontener obiektów blob (adftutorial), folder (input) i plik (emp.txt), który zawiera dane źródłowe.

Wyjściowy zestaw danych reprezentuje dane, które są kopiowane do lokalizacji docelowej. W definicji wyjściowego zestawu danych określany jest kontener obiektów blob (adftutorial), folder (output) i plik, do którego kopiowane są dane. Każde uruchomienie potoku ma skojarzony ze sobą unikatowy identyfikator. Aby uzyskać dostęp do tego identyfikatora, skorzystaj ze zmiennej systemowej RunId. Nazwa pliku wyjściowego jest dynamicznie obliczana na podstawie identyfikatora uruchomienia potoku.

W ustawieniach połączonej usługi określono konto usługi Azure Storage zawierające dane źródłowe. W ustawieniach zestawu danych źródłowych należy określić, gdzie dokładnie znajduje się źródło danych (kontener obiektów blob, folder i plik). W ustawieniach zestawu danych ujścia należy określić, gdzie kopiowane są dane (kontener obiektów blob, folder i plik).

  1. Wybierz kartę Autor w okienku po lewej stronie.

  2. Wybierz przycisk + (znak plus), a następnie wybierz pozycję Zestaw danych.

    Menu for creating a dataset.

  3. Na stronie Nowy zestaw danych wybierz pozycję Azure Blob Storage, a następnie wybierz pozycję Kontynuuj.

  4. Na stronie Wybierz format wybierz typ formatu danych, a następnie wybierz pozycję Kontynuuj. W takim przypadku wybierz pozycję Binarne , gdy skopiuj pliki jako jest bez analizowania zawartości.

    Select format.

  5. Na stronie Ustawianie właściwości wykonaj następujące kroki:

    a. W obszarze Nazwa wprowadź wartość InputDataset.

    b. Wybierz pozycję AzureStorageLinkedService w polu Połączona usługa.

    c. Kliknij przycisk Przeglądaj w polu Ścieżka pliku.

    d. W oknie Wybieranie pliku lub folderu przejdź do folderu wejściowego w kontenerze adftutorial , wybierz plik emp.txt , a następnie wybierz przycisk OK.

    e. Wybierz przycisk OK.

    Set properties for InputDataset.

  6. Powtórz kroki, aby utworzyć wyjściowy zestaw danych:

    a. Wybierz przycisk + (znak plus), a następnie wybierz pozycję Zestaw danych.

    b. Na stronie Nowy zestaw danych wybierz pozycję Azure Blob Storage, a następnie wybierz pozycję Kontynuuj.

    c. Na stronie Wybierz format wybierz typ formatu danych, a następnie wybierz pozycję Kontynuuj.

    d. Na stronie Ustaw właściwości określ wartość OutputDataset jako nazwę. Wybierz pozycję AzureStorageLinkedService jako połączoną usługę.

    e. W obszarze Ścieżka pliku wprowadź wartość adftutorial/output. Jeśli folder wyjściowy nie istnieje, działanie kopiowania tworzy je w czasie wykonywania.

    f. Wybierz przycisk OK.

    Set properties for OutputDataset.

Tworzenie potoku

Podczas tej procedury utworzysz potok i zweryfikujesz go za pomocą działania kopiowania, które korzysta z wejściowego i wyjściowego zestawu danych. Działanie kopiowania służy do kopiowania danych z pliku określonego w ustawieniach wejściowego zestawu danych do pliku określonego w ustawieniach wyjściowego zestawu danych. Jeśli wejściowy zestaw danych określa tylko folder (a nie nazwę pliku), działanie kopiowania kopiuje wszystkie pliki w folderze źródłowym do lokalizacji docelowej.

  1. Wybierz przycisk + (znak plus), a następnie wybierz pozycję Potok.

  2. W panelu Ogólne w obszarze Właściwości określ wartość CopyPipeline w polu Nazwa. Następnie zwiń panel, klikając ikonę Właściwości w prawym górnym rogu.

  3. W przyborniku Działania rozwiń węzeł Przenieś & przekształcenie. Przeciągnij działanie Kopiuj dane z przybornika Działania do powierzchni projektanta potoku. Możesz również wyszukać działania w przyborniku Działania. Wprowadź wartość CopyFromBlobToBlob w polu Nazwa.

    Creating a copy data activity.

  4. Przejdź do karty Źródło w ustawieniach działania kopiowania, a następnie wybierz wartość InputDataset w polu Zestaw danych źródłowych.

  5. Przejdź do karty Ujście w ustawieniach działania kopiowania, a następnie wybierz wartość OutputDataset w polu Zestaw danych ujścia.

  6. Aby sprawdzić poprawność ustawień potoku, kliknij pozycję Weryfikuj na pasku narzędzi potoku powyżej kanwy. Sprawdź, czy potok został pomyślnie zweryfikowany. Aby zamknąć dane wyjściowe weryfikacji, wybierz przycisk Walidacja w prawym górnym rogu.

    Validate a pipeline.

Debugowanie potoku

W tym kroku przeprowadzisz debugowanie potoku przed jego wdrożeniem w usłudze Data Factory.

  1. Na pasku narzędzi nad kanwą potoku kliknij pozycję Debugowanie, aby wyzwolić przebieg testu.

  2. Sprawdź, czy w dolnej części karty Dane wyjściowe ustawień potoku wyświetlany jest stan przebiegu potoku.

    Pipeline run output

  3. Sprawdź, czy w folderze output kontenera adftutorial znajduje się plik wyjściowy. Jeśli folder wyjściowy nie istnieje, usługa Data Factory automatycznie go utworzy.

Ręczne wyzwalanie potoku

Podczas tej procedury wdrożysz jednostki (połączone usługi, zestawy danych i potoki) w usłudze Azure Data Factory. Następnie ręcznie wyzwolisz przebieg potoku.

  1. Przed wyzwoleniem potoku należy opublikować jednostki w usłudze Data Factory. Aby opublikować, wybierz pozycję Opublikuj wszystko u góry.

    Publish all.

  2. Aby ręcznie wyzwolić potok, wybierz pozycję Dodaj wyzwalacz na pasku narzędzi potoku, a następnie wybierz pozycję Wyzwól teraz. Na stronie Uruchamianie potoku wybierz przycisk OK.

Monitorowanie potoku

  1. Przejdź do karty Monitorowanie po lewej stronie. Kliknij przycisk Odśwież, aby odświeżyć listę.

    Tab for monitoring pipeline runs

  2. Wybierz link CopyPipeline . Na tej stronie zostanie wyświetlony stan działania kopiowania.

  3. Aby wyświetlić szczegóły operacji kopiowania, wybierz link Szczegóły (obraz okularów). Aby uzyskać więcej informacji o właściwościach, zobacz Omówienie działania kopiowania.

    Copy operation details.

  4. Sprawdź, czy nowy plik jest widoczny w folderze output.

  5. Możesz wrócić do widoku Uruchomienia potoku z widoku Uruchomienia działań , wybierając link Wszystkie uruchomienia potoku .

Wyzwalanie potoku zgodnie z harmonogramem

W tym samouczku ta procedura jest opcjonalna. Możesz utworzyć wyzwalacz harmonogramu, aby zaplanować okresowe uruchamianie potoku (co godzinę, codziennie itd.). Podczas tej procedury utworzysz wyzwalacz, który będzie uruchamiany co minutę, aż do daty/godziny określonej jako data zakończenia.

  1. Przejdź do karty Tworzenie.

  2. Przejdź do potoku, wybierz pozycję Dodaj wyzwalacz na pasku narzędzi potoku, a następnie wybierz pozycję Nowy/Edytuj.

  3. Na stronie Dodawanie wyzwalaczy wybierz pozycję Wybierz wyzwalacz, a następnie wybierz przycisk Nowy.

  4. Na stronie Nowy wyzwalacz w obszarze Koniec wybierz pozycję Data, określ godzinę zakończenia kilka minut po bieżącej godzinie, a następnie wybierz przycisk OK.

    Za poszczególne uruchomienia potoku są naliczane opłaty, zatem określ czas zakończenia jako późniejszy tylko o kilka minut od czasu rozpoczęcia. Upewnij się, że przypada on tego samego dnia. Upewnij się jednak, że istnieje wystarczająca ilość czasu na uruchomienie potoku między godziną publikowania a czasem zakończenia. Wyzwalacz zaczyna obowiązywać dopiero po opublikowaniu rozwiązania w fabryce Data Factory, a nie po zapisaniu go w interfejsie użytkownika.

  5. Na stronie Nowy wyzwalacz zaznacz pole wyboru Aktywowano , a następnie wybierz przycisk OK.

    New Trigger setting.

  6. Przejrzyj komunikat ostrzegawczy i wybierz przycisk OK.

  7. Wybierz pozycję Opublikuj wszystko, aby opublikować zmiany w usłudze Data Factory.

  8. Przejdź do karty Monitorowanie po lewej stronie. Wybierz pozycję Odśwież, aby odświeżyć listę. Potok będzie uruchamiany raz na minutę od czasu opublikowania do czasu zakończenia.

    Zwróć uwagę na wartości w kolumnie TRIGGERED BY . Ręczne uruchomienie wyzwalacza pochodzi z kroku wykonanego wcześniej (Wyzwól teraz).

  9. Przejdź do widoku Uruchomienia wyzwalacza .

  10. Sprawdź, czy plik wyjściowy jest tworzony w folderze output dla każdego uruchomienia potoku aż do określonej daty/godziny zakończenia.

Następne kroki

Potok w tym przykładzie kopiuje dane z jednej lokalizacji do innej lokalizacji w usłudze Azure Blob Storage. Zapoznaj się z samouczkami, aby dowiedzieć się więcej o korzystaniu z usługi Data Factory w dalszych scenariuszach.