Загрузка данных в Azure Synapse Analytics с помощью конвейера Фабрики данных Azure или Synapse

Область применения:Фабрика данных Azure Azure Synapse Analytics

Совет

Попробуйте использовать фабрику данных в Microsoft Fabric, решение для аналитики с одним интерфейсом для предприятий. Microsoft Fabric охватывает все, от перемещения данных до обработки и анализа данных в режиме реального времени, бизнес-аналитики и отчетности. Узнайте, как бесплатно запустить новую пробную версию !

Azure Synapse Analytics — это облачная масштабируемая база данных, которая может обрабатывать большие объемы данных, как реляционные, так и нереляционные. Azure Synapse Analytics построена на основе архитектуры массовой параллельной обработки (MPP), оптимизированной для обработки нагрузок в хранилище корпоративных данных. Оно предоставляет эластичность облака и гибкие возможности масштабирования хранилища и вычислительной мощности независимо друг от друга.

Приступить к работе с Azure Synapse Analytics теперь легко как никогда. Фабрика данных Azure и эквивалентная ей функция конвейеров непосредственно в Azure Synapse предоставляют полностью управляемую облачную службу интеграции данных. Вы можете использовать службу, чтобы заполнить Azure Synapse Analytics данными из существующей системы и сэкономить время при создании решений аналитики.

Конвейеры Фабрики данных Azure и Synapse предлагают следующие преимущества для загрузки данных в Azure Synapse Analytics:

  • Простота настройки. Вам доступен интуитивно понятный 5-этапный мастер без необходимости создавать сценарии.
  • Расширенная поддержка хранилищ данных. Встроенная поддержка обширного набора локальных и облачных хранилищ данных. Подробный список см. в таблице Поддерживаемые хранилища данных и форматы.
  • Безопасность и совместимость. Данные передаются по протоколу HTTPS или ExpressRoute. Наличие глобальной службы гарантирует, что ваши данные никогда не покинут заданных географических границ.
  • Непревзойденный уровень производительности благодаря PolyBase. PolyBase — это самый эффективный способ перемещения данных в Azure Synapse Analytics. Промежуточные большие двоичные объекты позволяют обеспечить высокую скорость загрузки данных из источников данных всех типов, в том числе хранилища BLOB-объектов Azure и Data Lake Store. (Polybase по умолчанию поддерживает хранилище BLOB-объектов Azure и Azure Data Lake Store.) Подробности см. в Производительность действия Copy.

В этой статье описывается, как использовать средство "Копирование данных" для загрузки информации из Базы данных SQL Azure в Azure Synapse Analytics. Чтобы копировать данные из других типов хранилищ, необходимо выполнить аналогичные шаги.

Примечание.

Подробности см. в статье Копирование данных в службу Azure Synapse Analytics и из нее.

Необходимые компоненты

  • Подписка Azure. Если у вас еще нет подписки Azure, создайте бесплатную учетную запись, прежде чем начинать работу.
  • Azure Synapse Analytics: хранилище данных содержит данные, которые копируются из базы данных SQL. Если у вас нет базы Azure Synapse Analytics, см. инструкции в статье о создании Azure Synapse Analytics.
  • База данных SQL Azure. В этом руководстве данные из примера набора данных Adventure Works LT копируются в База данных SQL Azure. Этот пример базы данных можно создать в Базе данных SQL, следуя инструкциям в кратком руководстве Создание отдельной базы данных в Базе данных SQL Azure.
  • Учетная запись хранения Azure. Учетная запись хранения Azure используется в качестве промежуточного хранилища больших двоичных объектов в операции массового копирования. Если у вас нет учетной записи хранения Azure, см. инструкции по ее созданию.

Создание фабрики данных

  1. Если вы еще не создали фабрику данных, выполните действия, описанные в кратком руководстве по созданию фабрики данных с помощью портала Azure и студии Фабрики данных Azure. После создания перейдите к фабрике данных на портале Azure.

    Home page for the Azure Data Factory, with the Open Azure Data Factory Studio tile.

  2. Выберите Открыть на плитке Открыть Azure Data Factory Studio, чтобы запустить приложение интеграции данных в отдельной вкладке.

Загрузка данных в Azure Synapse Analytics

  1. На домашней странице Фабрики данных Azure или рабочей области Azure Synapse выберите команду Принять, чтобы запустить средство "Копирование данных". Затем выберите Built-in copy task (Встроенная задача копирования).

  2. На странице Свойства в разделе Тип задачи выберите Built-in copy task (Встроенная задача копирования), а затем нажмите кнопку Далее.

    Properties page

  3. На странице Исходное хранилище данных сделайте следующее.

    Совет

    В этом учебнике в качестве типа проверки подлинности для исходного хранилища данных используется проверка подлинности SQL, но при необходимости можно выбрать и другие поддерживаемые методы: субъект-служба и управляемое удостоверение. Дополнительные сведения см. в соответствующих разделах этой статьи. Чтобы безопасно хранить секреты для хранилищ данных, также рекомендуется использовать Azure Key Vault. Дополнительные сведения см. в этой статье.

    1. Выберите + Новое подключение.

    2. В коллекции выберите элемент База данных SQL Azure и нажмите кнопку Продолжить. Вы можете ввести текст "SQL" в поле поиска, чтобы отфильтровать соединители.

      Select Azure SQL DB

    3. На странице Новое подключение (База данных SQL Azure) в раскрывающемся списке выберите имя сервера и имя базы данных, затем укажите имя пользователя и пароль. Выберите Проверить подключение, чтобы проверить настройки, а затем нажмите Создать.

      Configure Azure SQL DB

    4. На странице Исходное хранилище данных выберите в качестве источника только что созданное подключение в блоке Подключение.

    5. В разделе Таблицы источника данных введите SalesLT, чтобы отфильтровать таблицы. Установите флажок (Выбрать все), чтобы использовать все таблицы для копирования, а затем нажмите кнопку Далее.

    Screenshot showing the configuration of 'Source data store' page.

  4. На странице Применить фильтр укажите параметры или нажмите кнопку Далее. Вы можете просмотреть данные и схему входных данных, нажав кнопку Просмотр данных на странице.

     Screenshot showing the 'Apply filter' page.

  5. На странице Целевое хранилище данных сделайте следующее.

    Совет

    В этом учебнике в качестве типа проверки подлинности для конечного хранилища данных используется проверка подлинности SQL, но при необходимости можно выбрать другие поддерживаемые методы проверки подлинности: субъект-служба и управляемое удостоверение. Дополнительные сведения см. в соответствующих разделах этой статьи. Чтобы безопасно хранить секреты для хранилищ данных, также рекомендуется использовать Azure Key Vault. Дополнительные сведения см. в этой статье.

    1. Выберите + Создать подключение, чтобы добавить подключение.

    2. Выберите Azure Synapse Analytics из коллекции и нажмите кнопку Продолжить.

      Select Azure Synapse Analytics

    3. На странице Новое подключение (Azure Synapse Analytics) в раскрывающемся списке выберите имя сервера и имя базы данных, затем укажите имя пользователя и пароль. Выберите Проверить подключение, чтобы проверить настройки, а затем нажмите Создать.

      Configure Azure Synapse Analytics

    4. На странице Целевое хранилище данных выберите только что созданное подключение в качестве приемника в разделе Подключение.

  6. Просмотрите содержимое раздела Сопоставление таблицы и нажмите кнопку Далее. Отобразится интеллектуальное сопоставление таблиц. Исходные таблицы сопоставляются с целевыми на основе их имен. Если исходная таблица не существует в месте назначения, по умолчанию служба создает таблицу с таким же именем. Вы также можете сопоставить исходную таблицу с имеющейся целевой таблицей.

    Screenshot showing the configuration of 'Destination data store' page.

  7. На странице Сопоставление столбцов проверьте содержимое и нажмите кнопку Далее. Интеллектуальное сопоставление таблиц основано на имени столбца. Если в службе включена возможность автоматического создания таблиц, при наличии несовместимостей между исходным и целевым хранилищами выполняется преобразование типов данных. Если между исходным и целевым столбцами обнаружится преобразование неподдерживаемого типа данных, рядом с соответствующей таблицей появится сообщение об ошибке.

    Column mapping page

  8. На странице Параметры сделайте следующее.

    1. Укажите CopyFromSQLToSQLDW в поле Имя задачи.

    2. В разделе Staging Settings (Промежуточные параметры) нажмите + Создать, чтобы создать промежуточное хранилище. Это хранилище используется для промежуточного хранения данных перед их загрузкой в Azure Synapse Analytics с помощью PolyBase. После завершения копирования промежуточные данные в хранилище BLOB-объектов Azure будут очищены автоматически.

    3. На странице Новая связанная служба выберите свою учетную запись хранения и нажмите кнопку Создать, чтобы развернуть связанную службу.

    4. Снимите флажок Использовать тип по умолчанию и нажмите кнопку Далее.

    Configure PolyBase

  9. На странице Сводка проверьте параметры и нажмите кнопку Далее.

  10. На странице Развертывание выберите Мониторинг, чтобы отслеживать созданный конвейер (задачу).

     Screenshot showing the deployment page.

  11. Обратите внимание, что слева автоматически выбирается вкладка Мониторинг. Когда конвейер успешно выполнится, нажмите ссылку CopyFromSQLToSQLDW в столбце Имя конвейера, чтобы просмотреть сведения о выполнении действия или повторно запустить конвейер.


  1. Чтобы вернуться к представлению "Запуски конвейера", выберите ссылку Все запуски конвейеров в верхней части окна. Щелкните Обновить, чтобы обновить список.

    Monitor activity runs

  2. Чтобы отслеживать ход выполнения каждого действия копирования, нажмите ссылку Подробности (значок очков) в столбце Имя действия в окне выполнения действий. Вы можете отслеживать такие сведения, как объем данных, копируемых из источника в приемник, пропускная способность данных, шаги выполнения с длительностью и используемые параметры.

    Monitor activity run details first

    Monitor activity run details second

Перейдите к следующей статье, чтобы узнать о поддержке Azure Synapse Analytics: