Безопасное копирование данных из Хранилища BLOB-объектов Azure в Базу данных SQL с помощью частных конечных точек

ОБЛАСТЬ ПРИМЕНЕНИЯ: Фабрика данных Azure Azure Synapse Analytics

В этом руководстве вы создадите фабрику данных с помощью пользовательского интерфейса фабрики данных Azure. Конвейер в этой фабрике данных безопасно копирует данные из Хранилища BLOB-объектов Azure в службу "База данных SQL Azure" (где доступ к обоим хранилищам возможен только из определенных сетей) с помощью частных конечных точек в управляемой виртуальной сети Фабрики данных Azure. Шаблон конфигурации в этом руководстве применяется к копированию из файлового в реляционное хранилище данных. Список хранилищ данных, которые поддерживаются в качестве источников и приемников, см. в таблице Поддерживаемые хранилища данных и форматы.

Примечание

Если вы еще не работали с фабрикой данных, ознакомьтесь со статьей Введение в фабрику данных Azure.

Вот какие шаги выполняются в этом руководстве:

  • Создали фабрику данных.
  • создание конвейера с действием копирования;

Предварительные требования

  • Подписка Azure. Если у вас еще нет подписки Azure, создайте бесплатную учетную запись Azure, прежде чем начинать работу.
  • Учетная запись хранения Azure. В этом руководстве в качестве источника будет использоваться хранилище BLOB-объектов. Если у вас нет учетной записи хранения, создайте ее, следуя действиям в этом разделе. Убедитесь, что получить доступ к учетной записи хранения можно только из выбранных сетей.
  • База данных SQL Azure. Используйте базу данных как хранилище данных-приемник. Если у вас нет базы данных SQL, создайте ее, следуя указаниям в статье Создание базы данных SQL Azure на портале Azure. Убедитесь, что получить доступ к службе "База данных SQL" можно только из выбранных сетей.

Создание большого двоичного объекта и таблицы SQL

Теперь подготовьте хранилище больших двоичных объектов и базу данных SQL к изучению этого учебника, выполнив следующие действия.

Создание исходного большого двоичного объекта

  1. Откройте Блокнот. Скопируйте следующий текст и сохраните его в файл emp.txt на диске.

    FirstName,LastName
    John,Doe
    Jane,Doe
    
  2. Создайте контейнер с именем adftutorial в хранилище BLOB-объектов. Создайте папку input в этом контейнере. Затем отправьте файл emp.txt в папку input. Эти задачи можно выполнить с помощью портала Azure или специальных средств, таких как Обозреватель службы хранилища Azure.

Создание таблицы-приемника SQL

Используйте следующий скрипт SQL, чтобы создать таблицу dbo.emp в базе данных SQL.

CREATE TABLE dbo.emp
(
    ID int IDENTITY(1,1) NOT NULL,
    FirstName varchar(50),
    LastName varchar(50)
)
GO

CREATE CLUSTERED INDEX IX_emp_ID ON dbo.emp (ID);

Создание фабрики данных

На этом этапе вы создадите фабрику данных и запустите пользовательский интерфейс службы "Фабрика данных" для создания конвейера в фабрике данных.

  1. Откройте Microsoft Edge или Google Chrome. Сейчас только эти браузеры поддерживают пользовательский интерфейс фабрики данных.

  2. В меню слева выберите Создать ресурс > Аналитика > Фабрика данных.

  3. На странице Новая фабрика данных в поле Имя введите ADFTutorialDataFactory.

    Имя фабрики данных Azure должно быть глобально уникальным. Если вы увидите следующую ошибку касательно значения имени, введите другое имя фабрики данных (например, yournameADFTutorialDataFactory). Дополнительные сведения о правилах именования артефактов фабрики данных см. в статье Фабрика данных Azure — правила именования.

  4. Выберите подписку Azure, в рамках которой вы хотите создать фабрику данных.

  5. Для группы ресурсов выполните одно из следующих действий:

    • Выберите Использовать существующую и укажите существующую группу ресурсов в раскрывающемся списке.
    • Выберите Создать новую и укажите имя группы ресурсов.

    Сведения о группах ресурсов см. в статье Общие сведения об Azure Resource Manager.

  6. В качестве версии выберите V2.

  7. В поле Расположение выберите расположение фабрики данных. В раскрывающемся списке отображаются только поддерживаемые расположения. Хранилища данных (например, служба хранилища Azure и база данных SQL) и вычислительные ресурсы (например, Azure HDInsight), используемые фабрикой данных, могут располагаться в других регионах.

  8. Нажмите кнопку создания.

  9. После завершения создания вы увидите уведомление в центре уведомлений. Выберите Перейти к ресурсу, чтобы открыть страницу фабрики данных.

  10. Выберите Открыть на плитке Open Azure Data Factory Studio (Открыть студию Фабрики данных Azure), чтобы запустить пользовательский интерфейс Фабрики данных на отдельной вкладке.

Создание среды выполнения интеграции Azure в управляемой виртуальной сети Фабрики данных

На этом шаге вы создадите среду выполнения интеграции Azure и включите управляемую виртуальную сеть Фабрики данных.

  1. На портале Фабрики данных перейдите в раздел Управление и выберите Создать, чтобы создать среду выполнения интеграции Azure.

    Снимок экрана: создание среды выполнения интеграции Azure.

  2. На странице Integration runtime setup (Настройка среды выполнения интеграции) выберите, какую среду выполнения интеграции следует создать на основе требуемых возможностей. По условиям этого руководства выберите Azure и нажмите кнопку Продолжить.

  3. Выберите Azure и щелкните Продолжить, чтобы создать среду выполнения интеграции Azure.

    Снимок экрана: новая среда выполнения интеграции Azure.

  4. В разделе Virtual network configuration (Preview) (Конфигурация виртуальной сети (предварительная версия)) выберите Включить.

    Снимок экрана: включение среды выполнения интеграции Azure.

  5. Нажмите кнопку создания.

Создание конвейера

На этом шаге вы создадите в фабрике данных конвейер с действием копирования. Это действие копирования копирует данные из хранилища BLOB-объектов в базу данных SQL. В предыдущем руководстве вы создали конвейер, выполнив следующие действия:

  1. Создание связанной службы.
  2. Создание входных и выходных наборов данных.
  3. Создали конвейер.

В этом учебнике вы сразу приступите к созданию конвейера, а связанные службы и наборы данных будете создавать по мере необходимости для настройки конвейера.

  1. На домашней странице выберите Orchestrate (Оркестрация).

    Снимок экрана: домашняя страница ADF

  2. На панели свойств для конвейера введите CopyPipeline в поле имени конвейера.

  3. На панели элементов Действия разверните категорию Move and Transform (Переместить и преобразовать) и перетащите действие Копирование данных из панели элементов в область конструктора конвейера. В качестве имени введите CopyFromBlobToSql.

    Снимок экран: действие копирования.

Настройка источника

Совет

В этом учебнике в качестве типа проверки подлинности для исходного хранилища данных используется ключ учетной записи. При необходимости вы также можете выбрать другие поддерживаемые способы проверки подлинности, такие как универсальный код ресурса SAS, субъект-службу и управляемое удостоверение. Дополнительные сведения см. в соответствующих разделах статьи Копирование данных в хранилище больших двоичных объектов Azure и обратно с помощью фабрики данных Azure.

Чтобы безопасно хранить секреты для хранилищ данных, также рекомендуется использовать Azure Key Vault. Дополнительные сведения и иллюстрации см. в статье Хранение учетных данных в Azure Key Vault.

Создание исходного набора данных и связанной службы

  1. Перейдите на вкладку Источник. Выберите + Создать, чтобы создать исходный набор данных.

  2. В диалоговом окне Новый набор данных выберите Хранилище BLOB-объектов Azure и щелкните Продолжить. Выберите Хранилище BLOB-объектов для исходного набора данных, потому что именно там находится источник данных.

  3. В диалоговом окне Выбор формата выберите тип формата ваших данных, а затем нажмите кнопку Продолжить.

  4. В диалоговом окне Установка свойств введите SourceBlobDataset в качестве имени. Установите флажок Использовать первую строку в качестве заголовка. В текстовом поле Связанная служба выберите + Создать.

  5. В окне New Linked Service (Azure Blob Storage) (Новая связанная служба (хранилище BLOB-объектов Azure)) в качестве имени введите AzureStorageLinkedService и выберите учетную запись хранения в списке Имя учетной записи хранения.

  6. Обязательно включите режим Интерактивная разработка. Его включение может занять около одной минуты.

    Снимок экрана: режим "Интерактивная разработка".

  7. Выберите Test connection (Проверить подключение). Эта операция должна завершиться сбоем, если получить доступ к учетной записи хранения можно только из выбранной сети. Это означает, что Фабрике данных нужно создать частную конечную точку и получить для нее утверждение, прежде чем использовать ее. В сообщении об ошибке должна присутствовать ссылка, по которой вы можете перейти к интерфейсу создания управляемой частной конечной точки. Кроме того, можно сразу открыть вкладку Управление и выполнить инструкции из следующего раздела, чтобы создать управляемую частную конечную точку.

    Примечание

    Вкладка Управление может быть доступна не для всех экземпляров фабрики данных. Если она не отображается, вы можете получить доступ к частным конечным точкам, выбрав Создание > Подключения > Частная конечная точка.

  8. Не закрывая это диалоговое окно, перейдите к учетной записи хранения.

  9. Следуйте инструкциям в этом разделе, чтобы утвердить частную ссылку.

  10. Вернитесь к диалоговому окну. Выберите Проверить соединение, а затем нажмите кнопку Создать, чтобы развернуть связанную службу.

  11. После создания связанной службы снова откроется страница Установка свойств. Рядом с полем Путь к файлу выберите Обзор.

  12. Перейдите к папке adftutorial/input, выберите файл emp.txt и нажмите кнопку OK.

  13. Щелкните ОК. Автоматически откроется страница конвейера. Убедитесь, что на вкладке Источник выбрано значение SourceBlobDataset. Чтобы просмотреть данные на этой странице, выберите Просмотр данных.

    Снимок экрана: исходный набор данных.

Создание управляемой частной конечной точки

Если вы не переходили по гиперссылке при проверке подключения, перейдите по указанному пути. Здесь вам нужно создать управляемую частную конечную точку, которая будет подключаться к созданной связанной службе.

  1. Перейдите на вкладку Управление.

    Примечание

    Вкладка Управление может быть доступна не для всех экземпляров фабрики данных. Если она не отображается, вы можете получить доступ к частным конечным точкам, выбрав Создание > Подключения > Частная конечная точка.

  2. Перейдите в раздел Managed private endpoints (Управляемые частные конечные точки).

  3. В разделе управляемых частных конечных точек выберите + Создать.

    Снимок экрана: кнопка "Создать" в разделе Managed private endpoints (Управляемые частные конечные точки).

  4. Выберите в списке плитку Хранилище BLOB-объектов Azure, а затем щелкните Продолжить.

  5. Введите имя созданной учетной записи хранения.

  6. Нажмите кнопку создания.

  7. Через несколько секунд для созданной частной ссылки отобразится состояние ожидания утверждения.

  8. Выберите созданную частную конечную точку. Вы увидите гиперссылку, которая ведет к интерфейсу утверждения частной конечной точки на уровне учетной записи хранения.

    Снимок экрана: область управляемой частной конечной точки.

  1. В разделе Параметры для учетной записи хранения выберите Подключения частных конечных точек.

  2. Установите флажок для созданной частной конечной точки и выберите Утвердить.

    Снимок экрана: кнопка "Утвердить" для частной конечной точки.

  3. Добавьте описание и выберите Да.

  4. Вернитесь к разделу Managed private endpoints (Управляемые частные конечные точки) на вкладке Управление для Фабрики данных.

  5. Через одну-две минуты в пользовательском интерфейсе Фабрики данных отобразится состояние ожидания утверждения частной конечной точки.

Настройка приемника

Совет

В этом учебнике проверка подлинности хранилища данных приемника выполняется с помощью проверки подлинности SQL. При необходимости вы также можете выбрать другие поддерживаемые способы проверки подлинности, такие как субъект-службу и управляемое удостоверение. Дополнительные сведения см. в соответствующих разделах статьи о копировании и преобразовании данных в службе "База данных SQL Azure" с помощью Фабрики данных Azure.

Чтобы безопасно хранить секреты для хранилищ данных, также рекомендуется использовать Azure Key Vault. Дополнительные сведения и иллюстрации см. в статье Хранение учетных данных в Azure Key Vault.

Создание целевого набора данных и связанной службы

  1. Перейдите на вкладку Приемник и выберите + Создать, чтобы создать целевой набор данных.

  2. В диалоговом окне Новый набор данных в поле поиска введите SQL, чтобы отфильтровать соединители. Выберите База данных SQL Azure и нажмите кнопку Продолжить. В этом руководстве вы будете копировать данные в базу данных SQL.

  3. В диалоговом окне Установка свойств введите OutputSqlDataset в качестве имени. В раскрывающемся списке Связанная служба выберите + Создать. Связанную службу нужно сопоставить с набором данных. Связанная служба содержит строку подключения, которая потребуется фабрике данных для подключения к базе данных SQL в среде выполнения. Набор данных определяет контейнер, папку и (необязательно) файл, куда копируются данные.

  4. В диалоговом окне New Linked Service (Azure SQL Database) (Новая связанная служба (База данных SQL Azure)) сделайте следующее:

    1. В поле Имя введите AzureSqlDatabaseLinkedService.
    2. В списке Имя сервера выберите необходимый экземпляр SQL Server.
    3. Обязательно включите режим Интерактивная разработка.
    4. В списке Имя базы данных выберите базу данных SQL.
    5. В поле Имя пользователя введите имя пользователя.
    6. В поле Пароль введите пароль для этого пользователя.
    7. Выберите Test connection (Проверить подключение). Операция должна завершиться сбоем, так как получить доступ к серверу SQL можно только из выбранных сетей. Это означает, что Фабрике данных нужно создать частную конечную точку и получить для нее утверждение, прежде чем использовать ее. В сообщении об ошибке должна присутствовать ссылка, по которой вы можете перейти к интерфейсу создания управляемой частной конечной точки. Кроме того, можно сразу открыть вкладку Управление и выполнить инструкции из следующего раздела, чтобы создать управляемую частную конечную точку.
    8. Не закрывая это диалоговое окно, перейдите к выбранному экземпляру SQL Server.
    9. Следуйте инструкциям в этом разделе, чтобы утвердить частную ссылку.
    10. Вернитесь к диалоговому окну. Выберите Проверить соединение, а затем нажмите кнопку Создать, чтобы развернуть связанную службу.
  5. Автоматически откроется диалоговое окно Установка свойств. В поле Таблица выберите [dbo].[emp] . Нажмите кнопку ОК.

  6. Перейдите на вкладку с конвейером и убедитесь, что в поле Sink Dataset (Целевой набор данных) выбрано значение OutputSqlDataset.

    Снимок экрана: вкладка "Конвейер".

При необходимости вы можете сопоставить схему источника с соответствующей схемой назначения, выполнив действия в статье Сопоставление схемы в действии копирования.

Создание управляемой частной конечной точки

Если вы не переходили по гиперссылке при проверке подключения, перейдите по указанному пути. Здесь вам нужно создать управляемую частную конечную точку, которая будет подключаться к созданной связанной службе.

  1. Перейдите на вкладку Управление.

  2. Перейдите в раздел Managed private endpoints (Управляемые частные конечные точки).

  3. В разделе управляемых частных конечных точек выберите + Создать.

    Снимок экрана: кнопка "Создать" в разделе Managed private endpoints (Управляемые частные конечные точки).

  4. Выберите в списке плитку База данных SQL Azure, а затем нажмите кнопку Продолжить.

  5. Введите имя выбранного экземпляра SQL Server.

  6. Нажмите кнопку создания.

  7. Через несколько секунд для созданной частной ссылки отобразится состояние ожидания утверждения.

  8. Выберите созданную частную конечную точку. Вы увидите гиперссылку, которая ведет к интерфейсу утверждения частной конечной точки на уровне SQL Server.

  1. В разделе Параметры для экземпляра SQL Server выберите Подключения частных конечных точек.
  2. Установите флажок для созданной частной конечной точки и выберите Утвердить.
  3. Добавьте описание и выберите Да.
  4. Вернитесь к разделу Managed private endpoints (Управляемые частные конечные точки) на вкладке Управление для Фабрики данных.
  5. Через одну-две минуты для частной конечной точки отобразится состояние ожидания утверждения.

Отладка и публикация конвейера

Вы можете отладить работу конвейера, прежде чем публиковать артефакты (связанные службы, наборы данных и конвейер) в фабрике данных или вашем собственном репозитории Git Azure Repos.

  1. Чтобы выполнить отладку конвейера, на панели инструментов щелкните Отладка. Состояние выполнения конвейера вы можете найти на вкладке Выходные данные в нижней части окна.
  2. После успешного запуска конвейера в верхней панели инструментов выберите Опубликовать все. Это действие опубликует созданные сущности (наборы данных и конвейеры) в фабрике данных.
  3. Дождитесь сообщения Successfully published (Публикация выполнена). Чтобы отобразить сообщения с уведомлениями, выберите Показывать уведомления в правом верхнем углу (кнопка в виде колокольчика).

Итоги

В этом примере конвейер копирует данные из Хранилища BLOB-объектов в службу "База данных SQL" с помощью частной конечной точки в управляемой виртуальной сети Фабрики данных. Вы ознакомились с выполнением следующих задач:

  • Создали фабрику данных.
  • создание конвейера с действием копирования;