Среда выполнения интеграции в фабрике данных Azure

ОБЛАСТЬ ПРИМЕНЕНИЯ: Фабрика данных Azure Azure Synapse Analytics

Среда выполнения интеграции (IR) — это инфраструктура вычислений, используемая конвейерами Фабрики данных Azure и Azure Synapse для обеспечения перечисленных ниже возможностей интеграции данных в разных сетевых средах.

  • Поток данных. Выполнение потока данных в управляемой вычислительной среде Azure.
  • Перемещение данных. Копирование данных между хранилищами данных в общедоступных или частных сетях (для локальных или виртуальных частных сетей). Служба поддерживает встроенные соединители, преобразование форматов, сопоставление столбцов, высокопроизводительную и масштабируемую передачу данных.
  • Диспетчеризация действий. Диспетчеризация и мониторинг действий по преобразованию в разных вычислительных службах, таких как Azure Databricks, Azure HDInsight, Студия машинного обучения (классическая), База данных SQL Azure, SQL Server и другие.
  • Выполнение пакетов служб SSIS. Выполнение пакетов служб SQL Server Integration Services (SSIS) в собственном коде в управляемой вычислительной среде Azure.

В конвейерах Фабрики данных и Synapse действия определяют выполняемые операции. Связанная служба обозначает целевое хранилище данных или службу вычислений. Среда выполнения интеграции соединяет между собой действия и связанные службы. На нее ссылаются связанные с ней службы или действия. Кроме того, она предоставляет вычислительную среду, в которой действие выполняется или диспетчеризируется. Это позволяет выполнить действие в регионе, ближайшем к целевому хранилищу данных или службе вычислений, чтобы максимально повысить производительность, а также обеспечить гибкость согласно требованиям к безопасности и соответствию.

Среды выполнения интеграции можно создать в пользовательском интерфейсе Фабрики данных Azure и Azure Synapse через центр управления и с помощью любых действий, наборов данных или потоков данных, которые на них ссылаются.

Типы сред выполнения интеграции

В Фабрике данных предлагаются три типа среды выполнения интеграции (IR). Вам следует выбрать тот, который отвечает вашим потребностям в интеграции данных и вашей сетевой среде. Существуют три типа IR:

  • Azure
  • Локальное размещение
  • Службы SSIS Azure

Примечание

В настоящее время конвейеры Synapse поддерживают только среду выполнения Azure или локальную среду выполнения интеграции.

В следующей таблице описаны возможности и поддержка сетей для каждого типа интеграции среды выполнения.

Тип IR Поддержка общедоступной сети Поддержка приватного канала
Azure Поток данных
Перемещение данных
Диспетчеризация действий
Поток данных
Перемещение данных
Диспетчеризация действий
Локальное размещение Перемещение данных
Диспетчеризация действий
Перемещение данных
Диспетчеризация действий
Службы SSIS Azure Выполнение пакетов служб SSIS Выполнение пакетов служб SSIS

Примечание

Элементы управления для исходящего трафика зависят от службы для Azure IR. В Synapse рабочие области имеют возможность ограничить исходящий трафик из управляемой виртуальной сети при использовании Azure IR. В Фабрике данных все порты открыты для исходящих подключений при использовании Azure IR. Azure-SSIS IR можно интегрировать с виртуальной сетью для предоставления элементов управления исходящими подключениями.

Среда выполнения интеграции Azure

Возможности среды выполнения интеграции Azure:

  • выполнение потоков данных в Azure;
  • Выполнение действий копирования между облачными хранилищами данных
  • Диспетчеризация следующих действий преобразования в общедоступной сети: действие Notebook, Jar или Python в Databricks, действие Hive в HDInsight, действие Pig в HDInsight, действие MapReduce в HDInsight, действие Spark в HDInsight, действие Streaming в HDInsight, действие Batch Execution в Студии машинного обучения (классической), действия обновления ресурсов в Студии машинного обучения (классической), действие хранимой процедуры, действие U-SQL в Data Lake Analytics, настраиваемое действие .NET, действие Интернета, действие поиска и действие получения метаданных.

Сетевая среда Azure IR

Среда выполнения интеграции Azure поддерживает подключение к хранилищам данных и вычислительным службам с использованием общедоступных конечных точек. При включении управляемой виртуальной сети среда выполнения интеграции Azure поддерживает подключение к хранилищам данных с помощью службы приватного канала в среде частной сети. В Synapse рабочие области имеют возможность ограничить исходящий трафик из управляемой виртуальной сети. В Фабрике данных все порты открыты для исходящих подключений. Azure-SSIS IR можно интегрировать с виртуальной сетью для предоставления элементов управления исходящими подключениями.

Вычислительные ресурсы и масштабирование Azure IR

Среда выполнения интеграции Azure предоставляет полностью управляемые вычисления в Azure без использования серверов. Вам не нужно подготавливать инфраструктуру, устанавливать программное обеспечение, применять исправления и масштабировать емкость. Кроме того, вы платите только за фактическое время использования.

Среда выполнения интеграции Azure предоставляет вычисления в собственном коде для безопасного, надежного и высокопроизводительного перемещения данных между облачными хранилищами данных. Вам достаточно указать, сколько единиц интеграции данных нужно использовать для действия копирования, и среда Azure IR гибко увеличит объем вычислительных ресурсов соответствующим образом. Вам не нужно явно изменять размеры Azure Integration Runtime.

Диспетчеризация действий — это нересурсоемкая операция, которая перенаправляет действие в целевую вычислительную службу. В этом сценарии вам не нужно вертикально увеличивать масштаб вычислительных ресурсов.

Сведения о создании и настройке Azure IR см. в статье "Создание и настройка среды выполнения интеграции Azure".

Примечание

У среды Azure Integration Runtime есть свойства, связанные со средой выполнения Потока данных, которые определяют базовую вычислительную инфраструктуру для выполнения потоков данных.

Локальная среда выполнения интеграции

В локальной среде IR доступны следующие возможности.

  • Выполнение действия копирования между облачными хранилищами данных и хранилищем данных в частной сети.
  • Диспетчеризация следующих действий преобразования с вычислительными ресурсами в локальной среде или виртуальной сети Azure: действие Hive в HDInsight (BYOC — использование собственного кластера), действие Pig в HDInsight (BYOC), действие MapReduce в HDInsight (BYOC), действие Spark в HDInsight (BYOC), действие Streaming в HDInsight (BYOC), действие Batch Execution в Студии машинного обучения (классической), действия обновления ресурсов в Студии машинного обучения (классической), действие хранимой процедуры, действие U-SQL в Data Lake Analytics, настраиваемое действие (выполняется в пакетной службе Azure), действие поиска и действие получения метаданных.

Примечание

Локальную среду выполнения интеграции следует использовать для поддержки хранилищ данных, требующих собственных драйверов, таких как SAP Hana, MySQL и т. д. Дополнительные сведения см. в списке поддерживаемых хранилищ данных.

Примечание

Одна из зависимостей локальной среды IR — среда выполнения Java (JRE). Необходимо, чтобы среда JRE была установлена на том же узле.

Локальная сетевая среда IR

Если вы хотите безопасно выполнять интеграцию данных в среде частной сети, которая не связана напрямую с общедоступной облачной средой, вы можете установить локальную среду IR в локальной среде за брандмауэром или внутри виртуальной частной сети. Локальная среда выполнения интеграции использует только исходящие HTTP-подключения к Интернету.

Вычислительные ресурсы и масштабирование локальной среды IR

Установите локальную среду IR на локальном компьютере или на виртуальной машине в частной сети. В настоящее время локальная среда IR поддерживается только в операционной системе Windows.
Чтобы получить высокий уровень доступности и масштабируемости, разверните локальную IR. Для этого следует связать логический экземпляр с несколькими локальными компьютерами в режиме "активный — активный". Дополнительные сведения см. в статье Создание и настройка локальной среды IR.

Azure-SSIS Integration Runtime

Чтобы переместить уже существующую рабочую нагрузку SSIS, создайте Azure SSIS IR для выполнения пакетов служб SSIS в собственной среде.

Сетевая среда Azure-SSIS IR

Среда Azure-SSIS IR может быть подготовлена в общедоступной сети или частной сети. Доступ к локальным данным обеспечивается за счет присоединения среды Azure-SSIS IR к виртуальной сети, подключенной к локальной сети.

Вычислительные ресурсы и масштабирование Azure-SSIS IR

Azure-SSIS IR — это полностью управляемый кластер виртуальных машин Azure, выделенный для выполнения пакетов служб SSIS. Вы можете использовать собственные Базу данных SQL Azure или Управляемый экземпляр SQL для каталога проектов и пакетов SSIS (SSISDB). Чтобы увеличить или уменьшить масштаб вычислительных ресурсов, укажите соответствующее количество узлов в кластере. Чтобы снизить расходы на среду Azure-SSIS Integration Runtime, вы можете в любой момент останавливать и снова запускать ее в соответствии со своими потребностями.

Дополнительные сведения см. в статье Создание среды выполнения интеграции Azure SSIS. После создания среды вы сможете развернуть существующие пакеты служб SSIS и управлять ими практически так же, как при использовании локальной SSIS, с помощью привычных средств, например SQL Server Data Tools (SSDT) и SQL Server Management Studio (SSMS).

Дополнительные сведения о среде выполнения Azure-SSIS см. в следующих статьях:

Расположение среды выполнения интеграции

Связь между расположением фабрики данных и среды IR

При создании экземпляра Фабрики данных или рабочей области Synapse необходимо указать ее расположение. Здесь хранятся метаданные для экземпляра, а также отсюда осуществляется инициация конвейера. Метаданные хранятся только в выбранном регионе и не будут храниться в других регионах.

Сейчас, чтобы переместить данные между хранилищами данных или обработать данные с помощью служб вычислений, конвейер может обращаться к хранилищам данных и службам вычислений в других регионах Azure. Это поведение реализуется через глобально доступную среду IR для обеспечения соответствия данных, эффективности и снижения расходов на исходящий трафик.

Расположение среды IR определяет расположение ее вычислительных ресурсов, то есть место выполнения всех операций по перемещению данных, диспетчеризации действий и выполнению пакета SSIS. Расположение IR может отличаться от расположения Фабрики данных, которой она принадлежит.

Расположение Azure IR

Вы можете задать регион расположения Azure IR — тогда выполнение или диспетчеризация действий будет происходить в выбранном регионе.

По умолчанию выполняется автоматическое разрешение Azure IR в общедоступной сети. С помощью этого параметра:

  • При выполнении действия копирования делается все возможное, чтобы автоматически определить расположение хранилища данных приемника и использовать среду IR в том же регионе (если она доступна) или ближайшем регионе той же географической области. Если регион хранилища данных приемника обнаружить не удается, используется среда IR в регионе экземпляра.

    Например, Фабрика данных или рабочая область Synapse была создана в восточной части США.

    • Если при копировании данных в Хранилище BLOB-объектов Azure в западной части США будет обнаружено, что BLOB-объект находится в западной части США, действие копирования будет выполнено в среде IR в западной части США. Если же определить регион не удастся, действие копирования будет выполнено в среде IR в восточной части США.
    • Если при копировании данных в Salesforce определить регион не удастся, действие копирования будет выполнено в среде IR в восточной части США.

    Совет

    Если применяются строгие требования к соответствию данных и нужно, чтобы данные не покидали определенную географическую область, вы можете явным образом создать среду Azure IR в конкретном регионе и направить связанную службу в эту среду IR с помощью свойства ConnectVia. Например, если нужно скопировать данные из BLOB-объекта в южной части Соединенного Королевства в рабочую область Azure Synapse в южной части Соединенного Королевства, но так, чтобы данные при этом не покидали Соединенного Королевства, создайте среду Azure IR в южной части Соединенного Королевства и свяжите обе связанные службы с этой средой IR.

  • Для выполнения действий поиска, получения метаданных и удаления (действия конвейера), диспетчеризации действий преобразования (внешние действия) и операций создания (проверка соединения, просмотр списка папок и списка таблиц, предварительный просмотр данных) используется среда IR, принадлежащая к тому же региону, что и Фабрика данных или рабочая область Synapse.

  • Для потока данных используется среда IR в том же регионе, что и Фабрика данных или рабочая область Synapse.

    Совет

    Рекомендуется по возможности обеспечить выполнение потоков данных выполнялись в том же регионе, в котором размещены соответствующие хранилища данных. Это можно сделать путем автоматического разрешения Azure IR (если расположение хранилища данных совпадает с расположением Фабрики данных или рабочей области Synapse) или путем создания нового экземпляра Azure IR в том же регионе, в котором хранятся данные, с последующим выполнением потока данных в этом экземпляре.

Если включить управляемую виртуальную сеть для автоматического разрешения Azure IR, будет использоваться среда IR в том же регионе, что и Фабрика данных или рабочая область Synapse.

Вы можете отслеживать, какое расположение IR вступает в силу во время выполнения действия, в представлении мониторинга активности конвейера в Data Factory Studio или Synapse Studio, либо в полезных данных мониторинга активности.

Расположение локальной среды IR

Локальная IR логически регистрируется в Фабрике данных или рабочей области Synapse, а вычислительные ресурсы для ее работы вы предоставляете самостоятельно. Поэтому для локальных IR нельзя явно задать свойство расположения.

Если локальная IR используется для перемещения данных, она извлекает данные из источника и записывает их в приемник.

Расположение среды Azure-SSIS IR

Примечание

Среды выполнения интеграции Azure SSIS в настоящее время не поддерживаются в конвейерах Synapse.

От выбора расположения для службы Azure SSIS IR зависит производительность рабочих процессов извлечения, преобразования и загрузки.

  • Расположение Azure-SSIS IR может не совпадать с расположением Фабрики данных, но должно совпадать с расположением Базы данных SQL Azure или Управляемого экземпляра, на которых размещается SSISDB. Это позволит среде Azure -SIS легко обращаться к базе данных SSIS, не порождая лишний трафик между расположениями.
  • Если у вас нет Базы данных SQL Azure или Управляемого экземпляра SQL, а есть источники и назначения данных в локальной сети, создайте Базу данных SQL Azure или Управляемый экземпляр SQL в том же расположении, где находится виртуальная сеть, подключенная к этой локальной сети. Таким образом можно создать среду Azure-SSIS IR с помощью новой Базы данных SQL Azure или Управляемого экземпляра SQL и присоединить ее к этой виртуальной сети. Все будет происходить в одном расположении, что сведет к минимуму перемещение данных и связанные с ним затраты, обеспечивая максимальную производительность.
  • Если расположение существующей Базы данных SQL Azure или Управляемого экземпляра SQL, не совпадает с расположением виртуальной сети, подключенной к локальной сети, то сначала создайте Azure-SSIS IR c использованием существующей Базы данных SQL Azure или Управляемого экземпляра SQL и присоедините ее к другой виртуальной сети в том же расположении. Затем настройте подключение между виртуальными сетями в разных расположениях.

На следующей схеме показаны параметры расположения Фабрики данных и ее среды выполнения интеграции.

Shows Data Factory integration runtime locations.

Выбор IR для использования

Если действие связывается с несколькими типами среды выполнения интеграции, оно будет разрешаться в один из них. Локальная среда выполнения интеграции имеет приоритет перед средой выполнения интеграции Azure в управляемой виртуальной сети Фабрики данных Azure или экземплярах рабочей области Synapse. И последняя имеет приоритет перед глобальной средой выполнения интеграции Azure.

Например, одно действие копирования используется для копирования данных из источника в приемник. Глобальная среда выполнения интеграции Azure привязывается к источнику посредством связанной службы, а среда выполнения интеграции Azure в управляемой виртуальной сети Фабрики данных Azure привязывается к связанной службе для приемника. В результате связанные службы источника и приемника используют среду выполнения интеграции Azure в управляемой виртуальной сети Фабрики данных Azure. Но если локальная среда выполнения интеграции привязывает связанную службу к источнику, то связанные службы источника и приемника используют локальную среду выполнения интеграции.

Действие копирования

Для действия Copy нужны связанные службы источника и приемника данных, которые определяют направление потока данных. Далее описан алгоритм выбора экземпляра среды выполнения интеграции, который будет выполнять копирование.

  • Копирование между двумя источниками данных в облаке. Когда связанные службы источника и приемника используют Azure IR, используется региональная среда Azure IR, если она была указана, или же автоматически определяется расположение Azure IR, если было выбрано автоматическое разрешение IR (по умолчанию), как описано в разделе о расположении среды выполнения интеграции статьи "Среда выполнения интеграции в Фабрике данных Azure".
  • Копирование между облачным источником данных и источником данных в частной сети. Если связанная служба источника или приемника использует локальную IR, то действие копирования выполняется в среде в этой локальной среде IR.
  • Копирование между двумя источниками данных в частной сети. Обе связанные службы источника и приемника должны указывать на один экземпляр среды выполнения интеграции, и именно эта среда используется для выполнения действия копирования.

Действие поиска и получения метаданных

Действие поиска и получения метаданных выполняется в среде выполнения интеграции, ассоциированной со связанной службой хранилища данных.

Внешние действия преобразования

Для каждого внешнего действия преобразования, использующего внешнюю вычислительную подсистему, задается целевая связанная служба вычислений, которая указывает на определенную среду выполнения интеграции. Этот экземпляр IR определяет расположение, из которого диспетчеризируется это запрограммированное вручную внешнее действие преобразования.

Действие потока данных

Действия Потока данных выполняются в связанной с ними среде выполнения интеграции Azure. Вычисление Spark, используемое Потоками данных, определяется свойствами потока данных в среде Azure IR и полностью управляется службой.

Integration Runtime в CI/CD

Среды выполнения интеграции не меняются часто и похожи на всех этапах в CI/CD. Фабрика данных требует, чтобы имена и типы сред выполнения интеграции были одинаковыми на всех этапах CI/CD. Если вы хотите совместно использовать среды выполнения интеграции на всех этапах, рассмотрите возможность использования выделенной фабрики только для хранения общих сред выполнения интеграции. Эту общую фабрику можно использовать во всех средах в качестве связанного типа среды выполнения интеграции.

Дальнейшие действия

См. следующие статьи: