Загрузка данных в Azure Data Lake Storage 2-го поколения с помощью Фабрики данных Azure

Область применения:Фабрика данных Azure Azure Synapse Analytics

Совет

Попробуйте использовать фабрику данных в Microsoft Fabric, решение для аналитики с одним интерфейсом для предприятий. Microsoft Fabric охватывает все, от перемещения данных до обработки и анализа данных в режиме реального времени, бизнес-аналитики и отчетности. Узнайте, как бесплатно запустить новую пробную версию !

Azure Data Lake Storage 2-го поколения — это набор возможностей аналитики больших данных, созданных на основе хранилища BLOB-объектов Azure. Она позволяет работать с данными с использованием как файловой системы, так и парадигмы хранения объектов.

Фабрика данных Azure (ADF) — это полностью управляемая облачная служба интеграции данных. Эту службу можно использовать для заполнения озера данными из богатого набора локальных и облачных хранилищ данных и экономии времени при создании аналитических решений. Дополнительные сведения о поддерживаемых соединителях, см. в таблице Поддерживаемые хранилища данных и форматы.

Фабрика данных Azure предлагает масштабируемое и управляемое решение для перемещения данных. Благодаря архитектуре горизонтального масштабирования ADF, фабрика данных Azure может использовать высокую пропускную способность для приема данных. Дополнительные сведения см. в руководстве по настройке производительности действия копирования.

В этой статье показано, как с помощью средства копирования данных службы "Фабрика данных" загружать данные из службы Amazon Web Services S3 в Azure Data Lake Storage Gen2. Чтобы копировать данные из других типов хранилищ, необходимо выполнить аналогичные шаги.

Необходимые компоненты

  • Подписка Azure. Если у вас еще нет подписки Azure, создайте бесплатную учетную запись, прежде чем начинать работу.
  • Учетная запись службы хранилища Azure с включенным хранилищем Azure Data Lake Storage 2-го поколения. Если у вас еще нет учетной записи службы хранилища, создайте ее, щелкнув здесь.
  • Учетная запись AWS с контейнером S3, в котором содержатся данные. В этой статье показано, как скопировать данные из Amazon S3. Вы можете использовать другие хранилища данных, выполнив аналогичные действия.

Создание фабрики данных

  1. Если вы еще не создали фабрику данных, выполните действия, описанные в кратком руководстве по созданию фабрики данных с помощью портала Azure и студии Фабрики данных Azure. После создания перейдите к фабрике данных на портале Azure.

    Home page for the Azure Data Factory, with the Open Azure Data Factory Studio tile.

  2. Выберите Открыть на плитке Открыть Azure Data Factory Studio, чтобы запустить приложение интеграции данных в отдельной вкладке.

Загрузка данных в Azure Data Lake Storage 2-го поколения

  1. На домашней странице Фабрики данных Azure выберите команду Принять, чтобы запустить средство копирования данных.

  2. На странице Свойства в разделе Тип задачи выберите Встроенная задача копирования. Затем в разделе Периодичность или расписание задач выберите Запустить сейчас один раз, после чего щелкните Далее.

    Properties page

  3. На странице Исходное хранилище данных сделайте следующее.

    1. Выберите + Новое подключение. В галереи соединителя выберите Amazon S3 и нажмите кнопку Продолжить.

      Source data store s3 page

    2. На странице Новое подключение (Amazon S3) выполните указанные ниже действия.

      1. Укажите идентификатор ключа доступа.
      2. Укажите секретный ключ доступа.
      3. Выберите Проверить подключение, чтобы проверить настройки, а затем нажмите Создать.

      Specify Amazon S3 account

    3. На странице Исходное хранилище данных убедитесь, что в блоке Подключение выбрано только что созданное подключение Amazon S3.

    4. В разделе Файл или папка найдите папку и файл, которые необходимо скопировать. Выберите папку или файл и нажмите кнопку ОК.

    5. Укажите поведение копирования, установив параметры Рекурсивное копирование и Двоичное копирование. Выберите Далее.

    Screenshot that shows the source data store page.

  4. На странице Целевое хранилище данных выполните указанные ниже действия.

    1. На странице + Создать подключение выберите Data Lake Storage 2-го поколения, а затем нажмите кнопку Продолжить.

      Destination data store page

    2. На странице Новое подключение (Azure Data Lake Storage 2-го поколения) выберите свою учетную запись с поддержкой Data Lake Storage 2-го поколения из раскрывающегося списка "Имя учетной записи службы хранилища" и нажмите кнопку Создать, чтобы создать подключение.

      Specify Azure Data Lake Storage Gen2 account

    3. На странице Целевое хранилище данных выберите только что созданное подключение в блоке Подключение. В разделе Путь к папке введите copyfroms3 в качестве имени папки с выходными данными, а затем выберите Далее. ADF создаст при копировании соответствующую файловую систему ADLS 2-го поколения и вложенные папки, если они не существуют.

      Screenshot that shows the destination data store page.

  5. На странице Параметры укажите CopyFromAmazonS3ToADLS в поле Имя задачи, а затем выберите Далее, чтобы использовать настройки по умолчанию.

    Settings page

  6. На странице Сводка проверьте параметры и нажмите кнопку Далее.

    Summary page

  7. На странице Развертывание выберите Мониторинг, чтобы отслеживать созданный конвейер (задачу).

  8. После успешного выполнения конвейера вы увидите запуск конвейера, который активируется ручным триггером. Ссылки в столбце Имя конвейера позволят просмотреть подробные сведения о действиях и повторно выполнить конвейер.

    Monitor pipeline runs

  9. Чтобы просмотреть выполнение действий, связанных с выполнением конвейера, выберите ссылку CopyFromAmazonS3ToADLS в столбце Имя конвейера. Чтобы увидеть сведения об операции копирования, щелкните ссылку Сведения (значок очков) в столбце Название действия. Вы можете отслеживать такие сведения, как объем данных, копируемых из источника в приемник, пропускная способность данных, шаги выполнения с длительностью и используемые параметры.

    Monitor activity runs

    Monitor activity run details

  10. Чтобы обновить список, нажмите кнопку Обновить. Выберите Все выполнения конвейеров в верхней части окна, чтобы вернуться к представлению "Выполнения конвейеров".

  11. Убедитесь, что данные скопированы в Data Lake Storage Gen2.