Bezpieczne kopiowanie danych z usługi Azure Blob Storage do bazy danych SQL przy użyciu prywatnych punktów końcowych

DOTYCZY: Azure Data Factory Azure Synapse Analytics

Porada

Wypróbuj usługę Data Factory w usłudze Microsoft Fabric, czyli rozwiązanie do analizy all-in-one dla przedsiębiorstw. Usługa Microsoft Fabric obejmuje wszystko, od przenoszenia danych do nauki o danych, analizy w czasie rzeczywistym, analizy biznesowej i raportowania. Dowiedz się, jak bezpłatnie rozpocząć nową wersję próbną !

W tym samouczku utworzysz fabrykę danych przy użyciu interfejsu użytkownika usługi Azure Data Factory. Potok w tej fabryce danych bezpiecznie kopiuje dane z usługi Azure Blob Storage do bazy danych Azure SQL (zarówno zezwalającej na dostęp do wybranych sieci) przy użyciu prywatnych punktów końcowych w Azure Data Factory zarządzanych Virtual Network. Wzorzec konfiguracji w tym samouczku ma zastosowanie do kopiowania danych z magazynu opartego na plikach do relacyjnego magazynu danych. Aby uzyskać listę magazynów danych obsługiwanych jako źródła i ujścia, zobacz tabelę Obsługiwane magazyny danych i formaty .

Uwaga

Jeśli jesteś nowym użytkownikiem usługi Data Factory, zobacz Wprowadzenie do usługi Azure Data Factory.

W tym samouczku wykonasz następujące czynności:

  • Tworzenie fabryki danych.
  • Tworzenie potoku z działaniem kopiowania.

Wymagania wstępne

  • Subskrypcja platformy Azure. Jeśli nie masz subskrypcji platformy Azure, przed rozpoczęciem utwórz bezpłatne konto platformy Azure .
  • Konto usługi Azure Storage. Magazyn obiektów blob jest używany jako magazyn danych będący źródłem. Jeśli nie masz konta magazynu, utwórz je, wykonując czynności przedstawione w artykule Tworzenie konta magazynu platformy Azure. Upewnij się, że konto magazynu zezwala na dostęp tylko z wybranych sieci.
  • Usługa Azure SQL Database. Baza danych jest używana jako magazyn danych będący ujściem. Jeśli nie masz bazy danych Azure SQL, zobacz Tworzenie bazy danych SQL, aby uzyskać instrukcje tworzenia bazy danych. Upewnij się, że konto SQL Database zezwala na dostęp tylko z wybranych sieci.

Tworzenie obiektu blob i tabeli SQL

Teraz przygotuj magazyn obiektów blob i bazę danych SQL na potrzeby samouczka, wykonując następujące kroki.

Tworzenie źródłowego obiektu Blob

  1. Otwórz Notatnik. Skopiuj poniższy tekst i zapisz go na dysku jako plik emp.txt:

    FirstName,LastName
    John,Doe
    Jane,Doe
    
  2. Utwórz kontener o nazwie adftutorial w magazynie obiektów blob. W tym kontenerze utwórz folder o nazwie input. Następnie przekaż plik emp.txt do folderu input. Do wykonania tych zadań użyj witryny Azure Portal lub narzędzi takich jak Eksplorator usługi Azure Storage.

Tworzenie tabeli SQL ujścia

Utwórz tabelę dbo.emp w bazie danych SQL przy użyciu poniższego skryptu SQL:

CREATE TABLE dbo.emp
(
    ID int IDENTITY(1,1) NOT NULL,
    FirstName varchar(50),
    LastName varchar(50)
)
GO

CREATE CLUSTERED INDEX IX_emp_ID ON dbo.emp (ID);

Tworzenie fabryki danych

W tym kroku utworzysz fabrykę danych i uruchomisz interfejs użytkownika usługi Data Factory, aby utworzyć potok w fabryce danych.

  1. Otwórz przeglądarkę Microsoft Edge lub Google Chrome. Obecnie tylko przeglądarki Microsoft Edge i Google Chrome obsługują interfejs użytkownika usługi Data Factory.

  2. W menu po lewej stronie wybierz pozycję Utwórz fabrykę danychanalizy> zasobów.>

  3. Na stronie Nowa fabryka danych w polu Nazwa wprowadź wartość ADFTutorialDataFactory.

    Nazwa fabryki danych platformy Azure musi być globalnie unikatowa. Jeśli zostanie wyświetlony komunikat o błędzie dotyczący wartości nazwy, wprowadź inną nazwę fabryki danych (na przykład yournameADFTutorialDataFactory). Reguły nazewnictwa dla artefaktów usługi Data Factory można znaleźć w artykule Data Factory — reguły nazewnictwa.

  4. Wybierz subskrypcję platformy Azure, w której chcesz utworzyć fabrykę danych.

  5. W obszarze Grupa zasobów wykonaj jedną z następujących czynności:

    • Wybierz pozycję Użyj istniejącej, a następnie wybierz istniejącą grupę zasobów z listy rozwijanej.
    • Wybierz pozycję Utwórz nową, a następnie wprowadź nazwę grupy zasobów.

    Informacje na temat grup zasobów znajdują się w artykule Using resource groups to manage your Azure resources (Używanie grup zasobów do zarządzania zasobami platformy Azure).

  6. W obszarze Wersja wybierz pozycję V2.

  7. W obszarze Lokalizacja wybierz lokalizację fabryki danych. Na liście rozwijanej są wyświetlane tylko obsługiwane lokalizacje. Magazyny danych (np. usługi Azure Storage i SQL Database) oraz jednostki obliczeniowe (np. usługa Azure HDInsight) używane przez fabrykę danych mogą znajdować się w innych regionach.

  8. Wybierz przycisk Utwórz.

  9. Po zakończeniu tworzenia zostanie wyświetlone powiadomienie w centrum powiadomień. Wybierz pozycję Przejdź do zasobu, aby przejść do strony Fabryka danych .

  10. Wybierz pozycję Otwórz na kafelku Otwórz Azure Data Factory Studio, aby uruchomić interfejs użytkownika usługi Data Factory na osobnej karcie.

Tworzenie środowiska Azure Integration Runtime w usłudze Data Factory Managed Virtual Network

W tym kroku utworzysz środowisko Azure Integration Runtime i włączysz usługę Data Factory Managed Virtual Network.

  1. W portalu usługi Data Factory przejdź do pozycji Zarządzaj i wybierz pozycję Nowy , aby utworzyć nowe środowisko Azure Integration Runtime.

    Zrzut ekranu przedstawiający tworzenie nowego środowiska Azure Integration Runtime.

  2. Na stronie Konfiguracja środowiska Integration Runtime wybierz środowisko Integration Runtime , które ma zostać utworzone na podstawie wymaganych możliwości. W tym samouczku wybierz pozycję Azure, Self-Hosted, a następnie kliknij przycisk Kontynuuj.

  3. Wybierz pozycję Azure , a następnie kliknij przycisk Kontynuuj , aby utworzyć środowisko Azure Integration Runtime.

    Zrzut ekranu przedstawiający nowe środowisko Azure Integration Runtime.

  4. W obszarze Konfiguracja sieci wirtualnej (wersja zapoznawcza) wybierz pozycję Włącz.

    Zrzut ekranu przedstawiający włączanie nowego środowiska Azure Integration Runtime.

  5. Wybierz przycisk Utwórz.

Tworzenie potoku

W tym kroku utworzysz potok z działaniem kopiowania w fabryce danych. Działanie kopiowania kopiuje dane z magazynu obiektów blob do usługi SQL Database. W samouczku szybkiego startu utworzono potok, wykonując następujące czynności:

  1. Utworzenie połączonej usługi.
  2. Utworzenie wejściowych i wyjściowych zestawów danych.
  3. Tworzenie potoku.

W tym samouczku zaczniesz od utworzenia potoku. Następnie utworzysz usługi połączone i zestawy danych, gdy będą potrzebne do skonfigurowania potoku.

  1. Na stronie głównej wybierz pozycję Orkiestruj.

    Zrzut ekranu przedstawiający stronę główną fabryki danych z wyróżnionym przyciskiem Orchestrate.

  2. W okienku właściwości potoku wprowadź wartość CopyPipeline jako nazwę potoku.

  3. W polu narzędzia Działania rozwiń kategorię Przenieś i Przekształć , a następnie przeciągnij działanie Kopiuj dane z pola narzędzia do powierzchni projektanta potoku. Wprowadź wartość CopyFromBlobToSql jako nazwę.

    Zrzut ekranu przedstawiający działanie kopiowania.

Konfigurowanie źródła

Porada

W tym samouczku użyjesz klucza konta jako typu uwierzytelniania dla źródłowego magazynu danych. W razie potrzeby możesz również wybrać inne obsługiwane metody uwierzytelniania, takie jak identyfikator URI sygnatury dostępu współdzielonego, jednostka usługi i tożsamość zarządzana . Aby uzyskać więcej informacji, zobacz odpowiednie sekcje w temacie Kopiowanie i przekształcanie danych w usłudze Azure Blob Storage przy użyciu Azure Data Factory.

Aby bezpiecznie przechowywać wpisy tajne dla magazynów danych, zalecamy również korzystanie z usługi Azure Key Vault. Aby uzyskać więcej informacji i ilustracji, zobacz Przechowywanie poświadczeń w usłudze Azure Key Vault.

Tworzenie źródłowego zestawu danych i połączonej usługi

  1. Przejdź do karty Źródło . Wybierz pozycję + Nowy , aby utworzyć źródłowy zestaw danych.

  2. W oknie dialogowym Nowy zestaw danych wybierz pozycję Azure Blob Storage, a następnie wybierz pozycję Kontynuuj. Dane źródłowe znajdują się w magazynie obiektów blob, musisz więc wybrać usługę Azure Blob Storage dla źródłowego zestawu danych.

  3. W oknie dialogowym Wybieranie formatu wybierz typ formatu danych, a następnie wybierz pozycję Kontynuuj.

  4. W oknie dialogowym Ustawianie właściwości wprowadź wartość SourceBlobDataset w polu Nazwa. Zaznacz pole wyboru Jako nagłówek Pierwszy wiersz. W polu tekstowym Połączona usługa wybierz pozycję + Nowy.

  5. W oknie dialogowym Nowa połączona usługa (Azure Blob Storage) wprowadź wartość AzureStorageLinkedService jako nazwę i wybierz konto magazynu z listy Nazwa konta magazynu.

  6. Upewnij się, że włączono tworzenie interakcyjne. Włączenie może potrwać około jednej minuty.

    Zrzut ekranu przedstawiający tworzenie interakcyjne.

  7. Wybierz pozycję Testuj połączenie. Powinno to zakończyć się niepowodzeniem, gdy konto magazynu zezwala na dostęp tylko z wybranych sieci i wymaga od usługi Data Factory utworzenia prywatnego punktu końcowego, który powinien zostać zatwierdzony przed jego użyciem. W komunikacie o błędzie powinien zostać wyświetlony link do utworzenia prywatnego punktu końcowego, który można wykonać, aby utworzyć zarządzany prywatny punkt końcowy. Alternatywą jest przejście bezpośrednio do karty Zarządzanie i wykonanie instrukcji w następnej sekcji w celu utworzenia zarządzanego prywatnego punktu końcowego.

    Uwaga

    Karta Zarządzanie może nie być dostępna dla wszystkich wystąpień fabryki danych. Jeśli nie widzisz tego punktu końcowego, możesz uzyskać dostęp do prywatnych punktów końcowych, wybierając pozycję Autor>połączenia>prywatne punktu końcowego.

  8. Pozostaw otwarte okno dialogowe, a następnie przejdź do konta magazynu.

  9. Postępuj zgodnie z instrukcjami w tej sekcji , aby zatwierdzić link prywatny.

  10. Wstecz do okna dialogowego. Wybierz ponownie pozycję Testuj połączenie i wybierz pozycję Utwórz , aby wdrożyć połączoną usługę.

  11. Po utworzeniu połączonej usługi wróć do strony Ustawianie właściwości . Wybierz przycisk Przeglądaj obok pozycji Ścieżka pliku.

  12. Przejdź do folderu adftutorial/input , wybierz plik emp.txt , a następnie wybierz przycisk OK.

  13. Wybierz przycisk OK. Automatycznie przechodzi do strony potoku. Na karcie Źródło upewnij się, że wybrano pozycję SourceBlobDataset . Aby wyświetlić podgląd danych na tej stronie, wybierz pozycję Podgląd danych.

    Zrzut ekranu przedstawiający źródłowy zestaw danych.

Tworzenie zarządzanego prywatnego punktu końcowego

Jeśli podczas testowania połączenia nie wybrano hiperlinku, postępuj zgodnie ze ścieżką. Teraz musisz utworzyć zarządzany prywatny punkt końcowy, który połączysz się z utworzoną usługą połączoną.

  1. Przejdź do karty Zarządzanie .

    Uwaga

    Karta Zarządzanie może nie być dostępna dla wszystkich wystąpień usługi Data Factory. Jeśli nie widzisz tego punktu końcowego, możesz uzyskać dostęp do prywatnych punktów końcowych, wybierając pozycję Autor>połączenia>prywatne punktu końcowego.

  2. Przejdź do sekcji Zarządzane prywatne punkty końcowe .

  3. Wybierz pozycję + Nowy w obszarze Zarządzane prywatne punkty końcowe.

    Zrzut ekranu przedstawiający przycisk Nowe zarządzane prywatne punkty końcowe.

  4. Wybierz kafelek Azure Blob Storage z listy, a następnie wybierz pozycję Kontynuuj.

  5. Wprowadź nazwę utworzonego konta magazynu.

  6. Wybierz przycisk Utwórz.

  7. Po kilku sekundach powinno zostać wyświetlone, że utworzony link prywatny wymaga zatwierdzenia.

  8. Wybierz utworzony prywatny punkt końcowy. Możesz zobaczyć hiperłącze, które spowoduje zatwierdzenie prywatnego punktu końcowego na poziomie konta magazynu.

    Zrzut ekranu przedstawiający okienko Zarządzane prywatne punkty końcowe.

  1. Na koncie magazynu przejdź do pozycji Połączenia prywatnego punktu końcowego w sekcji Ustawienia .

  2. Zaznacz pole wyboru dla utworzonego prywatnego punktu końcowego, a następnie wybierz pozycję Zatwierdź.

    Zrzut ekranu przedstawiający przycisk Zatwierdź dla prywatnego punktu końcowego.

  3. Dodaj opis i wybierz pozycję Tak.

  4. Wstecz do sekcji Zarządzane prywatne punkty końcowe na karcie Zarządzanie w usłudze Data Factory.

  5. Po około jednej lub dwóch minutach w interfejsie użytkownika usługi Data Factory powinna pojawić się zatwierdzenie prywatnego punktu końcowego.

Konfigurowanie ujścia

Porada

W tym samouczku użyjesz uwierzytelniania SQL jako typu uwierzytelniania dla magazynu danych ujścia. W razie potrzeby możesz również wybrać inne obsługiwane metody uwierzytelniania, takie jak jednostka usługi i tożsamość zarządzana . Aby uzyskać więcej informacji, zobacz odpowiednie sekcje w temacie Kopiowanie i przekształcanie danych w usłudze Azure SQL Database przy użyciu Azure Data Factory.

Aby bezpiecznie przechowywać wpisy tajne dla magazynów danych, zalecamy również korzystanie z usługi Azure Key Vault. Aby uzyskać więcej informacji i ilustracji, zobacz Przechowywanie poświadczeń w usłudze Azure Key Vault.

Tworzenie zestawu danych ujścia i połączonej usługi

  1. Przejdź do karty Ujście, a następnie wybierz pozycję + Nowy, aby utworzyć zestaw danych będący ujściem.

  2. W oknie dialogowym Nowy zestaw danych wprowadź ciąg SQL w polu wyszukiwania, aby odfiltrować łączniki. Wybierz pozycję Azure SQL Baza danych, a następnie wybierz pozycję Kontynuuj. W tym samouczku skopiujesz dane do bazy danych SQL.

  3. W oknie dialogowym Ustawianie właściwości wprowadź wartość OutputSqlDataset w polu Nazwa. Z listy rozwijanej Połączona usługa wybierz pozycję + Nowy. Zestaw danych musi być skojarzony z połączoną usługą. Połączona usługa ma parametry połączenia, których usługa Data Factory używa do nawiązywania połączenia z usługą SQL Database w środowisku uruchomieniowym. Zestaw danych określa kontener, folder i plik (opcjonalnie), do którego dane są kopiowane.

  4. W oknie dialogowym Nowa połączona usługa (Azure SQL Baza danych) wykonaj następujące czynności:

    1. W obszarze Nazwa wprowadź wartość AzureSqlDatabaseLinkedService.
    2. W polu Nazwa serwera wybierz swoje wystąpienie programu SQL Server.
    3. Upewnij się, że włączono tworzenie interakcyjne.
    4. W polu Nazwa bazy danych wybierz swoją usługę SQL Database.
    5. W polu Nazwa użytkownika wprowadź nazwę użytkownika.
    6. W polu Hasło wprowadź hasło użytkownika.
    7. Wybierz pozycję Testuj połączenie. Powinno to zakończyć się niepowodzeniem, ponieważ serwer SQL zezwala na dostęp tylko z wybranych sieci i wymaga od usługi Data Factory utworzenia prywatnego punktu końcowego, który powinien zostać zatwierdzony przed jego użyciem. W komunikacie o błędzie powinien zostać wyświetlony link do utworzenia prywatnego punktu końcowego, który można wykonać, aby utworzyć zarządzany prywatny punkt końcowy. Alternatywą jest przejście bezpośrednio do karty Zarządzanie i wykonanie instrukcji w następnej sekcji w celu utworzenia zarządzanego prywatnego punktu końcowego.
    8. Pozostaw otwarte okno dialogowe, a następnie przejdź do wybranego serwera SQL.
    9. Postępuj zgodnie z instrukcjami w tej sekcji , aby zatwierdzić link prywatny.
    10. Wstecz do okna dialogowego. Wybierz ponownie pozycję Testuj połączenie i wybierz pozycję Utwórz , aby wdrożyć połączoną usługę.
  5. Automatycznie przechodzi do okna dialogowego Ustawianie właściwości . W obszarze Tabela wybierz pozycję [dbo].[emp]. Następnie wybierz przycisk OK.

  6. Przejdź do karty z potokiem i w zestawie danych ujścia upewnij się, że wybrano pozycję OutputSqlDataset .

    Zrzut ekranu przedstawiający kartę Potok.

Opcjonalnie można mapować schemat źródła na odpowiedni schemat miejsca docelowego, postępując zgodnie z mapowaniem schematu w działaniu kopiowania.

Tworzenie zarządzanego prywatnego punktu końcowego

Jeśli podczas testowania połączenia nie wybrano hiperlinku, postępuj zgodnie ze ścieżką. Teraz musisz utworzyć zarządzany prywatny punkt końcowy, który połączysz się z utworzoną usługą połączoną.

  1. Przejdź do karty Zarządzanie .

  2. Przejdź do sekcji Zarządzane prywatne punkty końcowe .

  3. Wybierz pozycję + Nowy w obszarze Zarządzane prywatne punkty końcowe.

    Zrzut ekranu przedstawiający przycisk Nowe zarządzane prywatne punkty końcowe.

  4. Wybierz kafelek Azure SQL Database z listy, a następnie wybierz pozycję Kontynuuj.

  5. Wprowadź nazwę wybranego serwera SQL.

  6. Wybierz przycisk Utwórz.

  7. Po kilku sekundach powinno zostać wyświetlone, że utworzony link prywatny wymaga zatwierdzenia.

  8. Wybierz utworzony prywatny punkt końcowy. Zobaczysz hiperlink, który spowoduje zatwierdzenie prywatnego punktu końcowego na poziomie serwera SQL.

  1. W programie SQL Server przejdź do pozycji Połączenia prywatnego punktu końcowego w sekcji Ustawienia .
  2. Zaznacz pole wyboru dla utworzonego prywatnego punktu końcowego, a następnie wybierz pozycję Zatwierdź.
  3. Dodaj opis i wybierz pozycję Tak.
  4. Wstecz do sekcji Zarządzane prywatne punkty końcowe na karcie Zarządzanie w usłudze Data Factory.
  5. Wyświetlenie zatwierdzenia dla prywatnego punktu końcowego powinno potrwać co najmniej jedną minutę.

Debugowanie i publikowanie potoku

Przed opublikowaniem artefaktów (połączone usługi, zestawy danych i potok) w usłudze Data Factory lub własnym repozytorium Git usługi Azure Repos możesz debugować potok.

  1. Aby debugować potok, wybierz na pasku narzędzi pozycję Debuguj. Na karcie Dane wyjściowe w dolnej części okna wyświetlany jest stan uruchomienia potoku.
  2. Po pomyślnym uruchomieniu potoku na górnym pasku narzędzi wybierz pozycję Opublikuj wszystko. Ta akcja powoduje opublikowanie jednostek (zestawów danych i potoków) utworzonych w usłudze Data Factory.
  3. Poczekaj na wyświetlenie komunikatu Pomyślnie opublikowano. Aby wyświetlić komunikaty powiadomień, wybierz pozycję Pokaż powiadomienia w prawym górnym rogu (przycisk dzwonka).

Podsumowanie

Potok w tym przykładzie kopiuje dane z usługi Blob Storage do SQL Database przy użyciu prywatnych punktów końcowych w usłudze Data Factory Managed Virtual Network. W tym samouczku omówiono:

  • Tworzenie fabryki danych.
  • Tworzenie potoku z działaniem kopiowania.