Среда выполнения интеграции в фабрике данных AzureIntegration runtime in Azure Data Factory

Среда выполнения интеграции (IR) — это инфраструктура вычислений, которую фабрика данных Azure использует для обеспечения перечисленных ниже возможностей интеграции данных в разных сетевых средах.The Integration Runtime (IR) is the compute infrastructure used by Azure Data Factory to provide the following data integration capabilities across different network environments:

  • Поток данных: Выполнение потока данных в управляемой среде вычислений Azure.Data Flow: Execute a Data Flow in managed Azure compute environment.
  • Перемещение данных. Копирование данных из хранилищ данных в общедоступной сети и хранилищ данных в частной сети (локальной или виртуальной частной сети).Data movement: Copy data across data stores in public network and data stores in private network (on-premises or virtual private network). Поддерживаются встроенные соединители, преобразование форматов, сопоставление столбцов, высокопроизводительная и масштабируемая передача данных.It provides support for built-in connectors, format conversion, column mapping, and performant and scalable data transfer.
  • Диспетчеризация действий. Отправляют и отслеживайте действия преобразования, выполняемые в различных службах вычислений, таких как Azure Databricks, Azure HDInsight, Машинное обучение Azure, база данных SQL Azure, SQL Server и многое другое.Activity dispatch: Dispatch and monitor transformation activities running on a variety of compute services such as Azure Databricks, Azure HDInsight, Azure Machine Learning, Azure SQL Database, SQL Server, and more.
  • Выполнение пакетов служб SSIS. Выполнение пакетов служб SQL Server Integration Services (SSIS) в собственном коде в управляемой вычислительной среде Azure.SSIS package execution: Natively execute SQL Server Integration Services (SSIS) packages in a managed Azure compute environment.

В фабрике данных действия определяют выполняемые операции.In Data Factory, an activity defines the action to be performed. Связанная служба обозначает целевое хранилище данных или службу вычислений.A linked service defines a target data store or a compute service. Среда выполнения интеграции соединяет между собой действия и связанные службы.An integration runtime provides the bridge between the activity and linked Services. На него ссылается связанная служба или действие, а также среда вычислений, в которой действие запускается или отправляется из.It is referenced by the linked service or activity, and provides the compute environment where the activity either runs on or gets dispatched from. Такая схема позволяет выполнять действия в регионе, который максимально близко расположен к целевому хранилищу данных или службе вычислений, обеспечивает высокую производительность и соблюдение требований по безопасности и соответствию.This way, the activity can be performed in the region closest possible to the target data store or compute service in the most performant way while meeting security and compliance needs.

Типы сред выполнения интеграцииIntegration runtime types

Фабрика данных предлагает три типа сред выполнения интеграции. Вы можете выбрать тот, который отвечает вашим потребностям в интеграции данных и сетевой среде.Data Factory offers three types of Integration Runtime, and you should choose the type that best serve the data integration capabilities and network environment needs you are looking for. Эти три типа перечислены ниже.These three types are:

  • AzureAzure
  • Локальное размещениеSelf-hosted
  • Службы SSIS AzureAzure-SSIS

В следующей таблице описаны возможности и поддержка сетей для каждого типа интеграции среды выполнения.The following table describes the capabilities and network support for each of the integration runtime types:

Тип IRIR type Общедоступная сетьPublic network Частная сетьPrivate network
AzureAzure Поток данныхData Flow
Перемещение данныхData movement
Диспетчеризация действийActivity dispatch
 
Локальное размещениеSelf-hosted Перемещение данныхData movement
Диспетчеризация действийActivity dispatch
Перемещение данныхData movement
Диспетчеризация действийActivity dispatch
Службы SSIS AzureAzure-SSIS Выполнение пакетов служб SSISSSIS package execution Выполнение пакетов служб SSISSSIS package execution

На следующей схеме показано, как сочетать разные среды выполнения интеграции, чтобы обеспечить максимальные возможности по интеграции данных и поддержку сетей.The following diagram shows how the different integration runtimes can be used in combination to offer rich data integration capabilities and network support:

Разные типы среды выполнения интеграции

Среда выполнения интеграции AzureAzure integration runtime

В среде выполнения интеграции Azure доступны следующие возможности.An Azure integration runtime is capable of:

  • Выполнение потоков данных в AzureRunning Data Flows in Azure
  • Выполнение действия копирования между облачными хранилищами данныхRunning copy activity between cloud data stores
  • Диспетчеризация нескольких действий преобразования в общедоступной сети: Действие "Записная книжка/JAR/Python", действие Hive HDInsight, действие Pig hdinsight, действие MapReduce hdinsight, действие HDInsight Spark, действие потоковой передачи HDInsight, Машинное обучение действие выполнения пакета, Машинное обучение ресурс обновления действия, действие хранимой процедуры, Data Lake Analytics действие U-SQL, настраиваемое действие .NET, веб-действие, действие поиска и получение метаданных.Dispatching the following transform activities in public network: Databricks Notebook/ Jar/ Python activity, HDInsight Hive activity, HDInsight Pig activity, HDInsight MapReduce activity, HDInsight Spark activity, HDInsight Streaming activity, Machine Learning Batch Execution activity, Machine Learning Update Resource activities, Stored Procedure activity, Data Lake Analytics U-SQL activity, .NET custom activity, Web activity, Lookup activity, and Get Metadata activity.

Сетевая среда Azure IRAzure IR network environment

Azure Integration Runtime поддерживает подключение к хранилищам данных и службам вычислений с общедоступными конечными точками.Azure Integration Runtime supports connecting to data stores and compute services with public accessible endpoints. Для среды виртуальных сетей Azure следует использовать локально размещенную среду выполнения интеграции.Use a self-hosted integration runtime for Azure Virtual Network environment.

Вычислительные ресурсы и масштабирование Azure IRAzure IR compute resource and scaling

Среда выполнения интеграции Azure предоставляет полностью управляемые вычисления в Azure без использования серверов.Azure integration runtime provides a fully managed, serverless compute in Azure. Вам не нужно подготавливать инфраструктуру, устанавливать программное обеспечение, применять исправления и масштабировать емкость.You don’t have to worry about infrastructure provision, software installation, patching, or capacity scaling. Кроме того, вы платите только за фактическое время использования.In addition, you only pay for the duration of the actual utilization.

Среда выполнения интеграции Azure предоставляет вычисления в собственном коде для безопасного, надежного и высокопроизводительного перемещения данных между облачными хранилищами данных.Azure integration runtime provides the native compute to move data between cloud data stores in a secure, reliable, and high-performance manner. Вам достаточно указать, сколько единиц интеграции данных нужно использовать для действия копирования, и среда Azure IR гибко увеличит объем вычислительных ресурсов соответствующим образом. Вам не нужно явно изменять размеры Integration Runtime.You can set how many data integration units to use on the copy activity, and the compute size of the Azure IR is elastically scaled up accordingly without you having to explicitly adjusting size of the Azure Integration Runtime.

Диспетчеризация действий не требует больших ресурсов, поскольку лишь перенаправляет действие на целевую службу вычислений. В этом сценарии вам не нужно увеличивать объем вычислительных ресурсов.Activity dispatch is a lightweight operation to route the activity to the target compute service, so there isn’t need to scale up the compute size for this scenario.

Сведения о создании и настройке Azure IR см. в руководстве по созданию и настройке Azure IR.For information about creating and configuring an Azure IR, see How to create and configure Azure IR under how to guides.

Примечание

Среда выполнения интеграции Azure имеет свойства, связанные со средой выполнения потока данных, которая определяет базовую инфраструктуру вычислений, которая будет использоваться для выполнения потоков данных.Azure Integration runtime has properties related to Data Flow runtime, which defines the underlying compute infrastructure that would be used to run the data flows on.

Локальная среда выполнения интеграцииSelf-hosted integration runtime

В локальной среде IR доступны следующие возможности.A self-hosted IR is capable of:

  • Выполнение действия копирования между облачными хранилищами данных и хранилищем данных в частной сети.Running copy activity between a cloud data stores and a data store in private network.
  • Диспетчеризация нескольких действий преобразования для вычислительных ресурсов, размещенных локально или в виртуальной сети Azure: Действие Hive HDInsight (BYOC — создание собственного кластера), действие Pig hdinsight (BYOC), действие MapReduce HDInsight (BYOC), действие HDInsight Spark (BYOC), действие потоковой передачи HDInsight (BYOC), Машинное обучение действие выполнения пакета Машинное обучение Операции обновления ресурсов, действия хранимой процедуры, Data Lake Analytics действия U-SQL, настраиваемого действия (выполняется в пакетной службе Azure), действия поиска и получения метаданных.Dispatching the following transform activities against compute resources in On-Premise or Azure Virtual Network: HDInsight Hive activity (BYOC-Bring Your Own Cluster), HDInsight Pig activity (BYOC), HDInsight MapReduce activity (BYOC), HDInsight Spark activity (BYOC), HDInsight Streaming activity (BYOC), Machine Learning Batch Execution activity, Machine Learning Update Resource activities, Stored Procedure activity, Data Lake Analytics U-SQL activity, Custom activity (runs on Azure Batch), Lookup activity, and Get Metadata activity.

Примечание

Локальную среду выполнения интеграции следует использовать для поддержки хранилищ данных с собственными драйверами, таких как SAP Hana, MySQL и т.д. Дополнительные сведения см. в списке поддерживаемых хранилищ данных.Use self-hosted integration runtime to support data stores that requires bring-your-own driver such as SAP Hana, MySQL, etc. For more information, see supported data stores.

Локальная сетевая среда IRSelf-hosted IR network environment

Если вы хотите безопасно выполнять интеграцию данных в среде частной сети, которая не связана напрямую с общедоступной облачной средой, вы можете установить локальную IR в локальной среде за корпоративным брандмауэром или внутри виртуальной частной сети.If you want to perform data integration securely in a private network environment, which does not have a direct line-of-sight from the public cloud environment, you can install a self-hosted IR on premises environment behind your corporate firewall, or inside a virtual private network. Локальная среда выполнения интеграции использует только исходящие HTTP-соединения во внешнюю сеть.The self-hosted integration runtime only makes outbound HTTP-based connections to open internet.

Вычислительные ресурсы и масштабирование локальной среды IRSelf-hosted IR compute resource and scaling

Локальная IR устанавливается на локальном компьютере или виртуальной машине в частной сети.Self-hosted IR needs to be installed on an on-premises machine or a virtual machine inside a private network. В настоящее время локальная IR может выполняться только в операционной системе Windows.Currently, we only support running the self-hosted IR on a Windows operating system.

Чтобы получить высокий уровень доступности и масштабируемости, разверните локальную IR. Для этого следует связать логический экземпляр с несколькими локальными компьютерами в режиме "активный — активный".For high availability and scalability, you can scale out the self-hosted IR by associating the logical instance with multiple on-premises machines in active-active mode. Дополнительные сведения см. в статье Создание и настройка локальной среды IR в разделе руководства для получения дополнительных сведений.For more information, see how to create and configure self-hosted IR article under how to guides for details.

Среда выполнения интеграции Azure SSISAzure-SSIS Integration Runtime

Чтобы переместить уже существующую рабочую нагрузку SSIS, создайте Azure SSIS IR для выполнения пакетов служб SSIS в собственной среде.To lift and shift existing SSIS workload, you can create an Azure-SSIS IR to natively execute SSIS packages.

Сетевая среда Azure-SSIS IRAzure-SSIS IR network environment

Среда выполнения интеграции Azure SSIS может быть подготовлена в общедоступной сети или частной сети.Azure-SSIS IR can be provisioned in either public network or private network. Доступ к локальным данным обеспечивается за счет присоединения среды выполнения интеграции Azure SSIS к виртуальной сети, подключенной к локальной сети.On-premises data access is supported by joining Azure-SSIS IR to a Virtual Network that is connected to your on-premises network.

Вычислительные ресурсы и масштабирование Azure-SSIS IRAzure-SSIS IR compute resource and scaling

Azure SSIS IR — это полностью управляемый кластер виртуальных машин Azure, выделенный для выполнения пакетов служб SSIS.Azure-SSIS IR is a fully managed cluster of Azure VMs dedicated to run your SSIS packages. Для размещения подключаемого каталога проектов и (или) пакетов служб SSIS (SSISDB) вы можете использовать собственную базу данных SQL Azure или сервер Управляемого экземпляра.You can bring your own Azure SQL Database or Managed Instance server to host the catalog of SSIS projects/packages (SSISDB) that is going to be attached to it. Чтобы увеличить или уменьшить масштаб вычислительных ресурсов, укажите соответствующее количество узлов в кластере.You can scale up the power of the compute by specifying node size and scale it out by specifying the number of nodes in the cluster. Чтобы снизить расходы на среду выполнения интеграции служб SSIS Azure, вы можете в любой момент останавливать ее и снова запускать.You can manage the cost of running your Azure-SSIS Integration Runtime by stopping and starting it as you see fit.

Дополнительные сведения см. в руководстве по созданию и настройке Azure SSIS IR.For more information, see how to create and configure Azure-SSIS IR article under how to guides. После создания среды вы сможете развернуть существующие пакеты служб SSIS и управлять ими практически так же, как при использовании локальной SSIS, с помощью привычных средств, например SQL Server Data Tools (SSDT) и SQL Server Management Studio (SSMS).Once created, you can deploy and manage your existing SSIS packages with little to no change using familiar tools such as SQL Server Data Tools (SSDT) and SQL Server Management Studio (SSMS), just like using SSIS on premises.

Дополнительные сведения о среде выполнения Azure SSIS см. в следующих статьях:For more information about Azure-SSIS runtime, see the following articles:

Расположение среды выполнения интеграцииIntegration runtime location

Расположение фабрики данных — это место, в котором хранятся метаданные этой фабрики данных и из которого инициируется конвейер.The Data Factory location is where the metadata of the data factory is stored and where the triggering of the pipeline is initiated from. Сейчас, чтобы переместить данные между хранилищами данных или обработать данные с помощью служб вычислений, фабрика данных может обращаться к хранилищам данных и службам вычислений в других регионах Azure.Meanwhile, a data factory can access data stores and compute services in other Azure regions to move data between data stores or process data using compute services. Это поведение реализуется через глобально доступную среду IR для обеспечения соответствия данных, эффективности и снижения расходов на исходящий трафик.This behavior is realized through the globally available IR to ensure data compliance, efficiency, and reduced network egress costs.

Расположение среды IR определяет расположение ее вычислительных ресурсов, то есть, по сути, место выполнения всех операций по перемещению данных, диспетчеризации действий и выполнению пакета SSIS.The IR Location defines the location of its back-end compute, and essentially the location where the data movement, activity dispatching, and SSIS package execution are performed. Расположение IR может отличаться от расположения фабрики данных, которой она принадлежит.The IR location can be different from the location of the data factory it belongs to.

Расположение Azure IRAzure IR location

Вы можете задать определенное расположение Azure IR. При этом перемещение данных или диспетчеризация действий будет происходить в этом конкретном регионе.You can set a certain location of an Azure IR, in which case the data movement or activity dispatch will happen in that specific region.

Если вы решили использовать Автоматическое разрешение Azure IR , которое является значением по умолчанию,If you choose to use the auto-resolve Azure IR which is the default,

  • Для действия копирования в ADF прилагается максимум усилий, чтобы автоматически определить хранилище данных приемника и источника и выбрать наилучшее расположение — по возможности в том же регионе или ближайшем регионе в той же географической области. Если же не удается обнаружить такое расположение, как альтернатива используется регион фабрики данных.For copy activity, ADF will make a best effort to automatically detect your sink and source data store to choose the best location either in the same region if available or the closest one in the same geography, or if not detectable to use the data factory region as alternative.

  • Для выполнения операции Lookup/-Metadata/Delete (также называемых действиями конвейера), диспетчеризации действий преобразования (также называемых внешними действиями) и операций создания (проверка соединения, просмотр списка папок и таблицы, предварительная версия данных), ADF будет использовать IR в области фабрики данных.For Lookup/GetMetadata/Delete activity execution (also known as Pipeline activities), transformation activity dispatching (also known as External activities), and authoring operations (test connection, browse folder list and table list, preview data), ADF will use the IR in the data factory region.

  • Для потока данных ADF будет использовать IR в регионе фабрики данных.For Data Flow, ADF will use the IR in the data factory region.

    Совет

    Рекомендуется убедиться, что поток данных выполняется в том же регионе, что и соответствующие хранилища данных (если это возможно).A good practice would be to ensure Data flow runs in the same region as your corresponding data stores (if possible). Это можно сделать, выполнив автоматическую разрешающую Azure IR (если расположение хранилища данных совпадает с расположением фабрики данных) или создав новый экземпляр Azure IR в том же регионе, в котором хранятся данные, а затем выполнить на нем поток данных.You can either achieve this by auto-resolve Azure IR (if data store location is same as Data Factory location), or by creating a new Azure IR instance in the same region as your data stores and then execute the data flow on it.

Вы можете отслеживать, какие расположения IR используются во время выполнения действия, в представлении мониторинга действий конвейера в пользовательском интерфейсе или в полезных данных мониторинга действий.You can monitor which IR location takes effect during activity execution in pipeline activity monitoring view on UI or activity monitoring payload.

Совет

Если применяются строгие требования к соответствию данных и нужно, чтобы данные не покидали определенную географическую область, вы можете явным образом создать среду Azure IR в конкретном регионе и направить связанную службу в эту среду IR с помощью свойства ConnectVia.If you have strict data compliance requirements and need ensure that data do not leave a certain geography, you can explicitly create an Azure IR in a certain region and point the Linked Service to this IR using ConnectVia property. Например, если нужно скопировать данные из большого двоичного объекта в южной части Соединенного Королевства в хранилище данных SQL в южной части Соединенного Королевства и чтобы при этом данные не покидали Соединенного Королевства, создайте среду Azure IR в южной части Соединенного Королевства и добавьте ссылку на эту среду IR в обе связанные службы.For example, if you want to copy data from Blob in UK South to SQL DW in UK South and want to ensure data do not leave UK, create an Azure IR in UK South and link both Linked Services to this IR.

Расположение локальной среды IRSelf-hosted IR location

Локальная IR логически регистрируется в фабрике данных, а вычислительные ресурсы для ее работы вы предоставляете самостоятельно.The self-hosted IR is logically registered to the Data Factory and the compute used to support its functionalities is provided by you. Поэтому для локальных IR нельзя явно задать свойство расположения.Therefore there is no explicit location property for self-hosted IR.

Если локальная IR используется для перемещения данных, она извлекает данные из источника и записывает их в приемник.When used to perform data movement, the self-hosted IR extracts data from the source and writes into the destination.

Расположение среды Azure-SSIS IRAzure-SSIS IR location

От выбора расположения для службы Azure SSIS IR зависит производительность рабочих процессов извлечения, преобразования и загрузки.Selecting the right location for your Azure-SSIS IR is essential to achieve high performance in your extract-transform-load (ETL) workflows.

  • Расположение Azure SSIS IR может не совпадать с расположением фабрики данных, но должно совпадать с расположением сервера Базы данных SQL Azure или Управляемого экземпляра, на которых размещается база данных SSIS.The location of your Azure-SSIS IR does not need be the same as the location of your data factory, but it should be the same as the location of your own Azure SQL Database/Managed Instance server where SSISDB is to be hosted. Это позволит среде выполнения интеграции Azure SSIS легко обращаться к базе данных SSIS, не генерируя лишний трафик между расположениями.This way, your Azure-SSIS Integration Runtime can easily access SSISDB without incurring excessive traffics between different locations.
  • Если для размещения базы данных SSIS вы используете источники и назначения данных в локальной сети, а не существующий сервер Базы данных SQL Azure или Управляемого экземпляра, создайте новый сервер Базы данных SQL Azure или Управляемого экземпляра в том же расположении, где находится виртуальная сеть, подключенная к этой локальной сети.If you do not have an existing Azure SQL Database/Managed Instance server to host SSISDB, but you have on-premises data sources/destinations, you should create a new Azure SQL Database/Managed Instance server in the same location of a virtual network connected to your on-premises network. Таким образом вы можете создать среду выполнения интеграции Azure SSIS, использующую новый сервер Базы данных SQL Azure или Управляемого экземпляра, и присоединить ее к виртуальной сети. Так как все эти ресурсы находятся в одном расположении, перемещение данных между разными расположениями будет минимальным.This way, you can create your Azure-SSIS IR using the new Azure SQL Database/Managed Instance server and joining that virtual network, all in the same location, effectively minimizing data movements across different locations.
  • Иногда расположение существующего сервера Базы данных SQL Azure или Управляемого экземпляра, на котором размещается база данных SSIS, не совпадает с расположением виртуальной сети, подключенной к локальной сети. В этом случае сначала создайте среду выполнения интеграции Azure SSIS, использующую существующий сервер Базы данных SQL Azure или Управляемого экземпляра, и присоедините ее к другой виртуальной сети в том же расположении, а затем настройте подключение между виртуальными сетями из разных расположений.If the location of your existing Azure SQL Database/Managed Instance server where SSISDB is hosted is not the same as the location of a virtual network connected to your on-premises network, first create your Azure-SSIS IR using an existing Azure SQL Database/Managed Instance server and joining another virtual network in the same location, and then configure a virtual network to virtual network connection between different locations.

На следующей схеме показаны параметры расположения фабрики данных и ее среды выполнения интеграции.The following diagram shows location settings of Data Factory and its integration run times:

Расположение среды выполнения интеграции

Выбор IR для использованияDetermining which IR to use

Действие копированияCopy activity

Для действия копирования нужны связанные службы источника и приемника данных, которые определяют направление потока данных.For Copy activity, it requires source and sink linked services to define the direction of data flow. Далее описан алгоритм выбора экземпляра среды выполнения интеграции, который будет выполнять копирование.The following logic is used to determine which integration runtime instance is used to perform the copy:

  • Копирование между двумя источниками данных в облаке. Когда службы источника и приемника используют Azure IR, ADF будет использовать региональную среду Azure IR, если она указана. Либо же расположение Azure IR будет определяться автоматически, если вы выберете автоматическое разрешение IR (по умолчанию), как описано в разделе о расположении среды выполнения интеграции.Copying between two cloud data sources: when both source and sink linked services are using Azure IR, ADF will use the regional Azure IR if you specified, or auto determine a location of Azure IR if you choose the auto-resolve IR (default) as described in Integration runtime location section.
  • Копирование между облачным источником данных и источником данных в частной сети. Если связанная служба источника или приемника использует локальную IR, действие копирования выполняется в среде в этой локальной среде.Copying between a cloud data source and a data source in private network: if either source or sink linked service points to a self-hosted IR, the copy activity is executed on that self-hosted Integration Runtime.
  • Копирование между двумя источниками данных в частной сети. Обе связанные службы источника и приемника должны указывать на один экземпляр среды выполнения интеграции, и именно эта среда используется для выполнения действия копирования.Copying between two data sources in private network: both the source and sink Linked Service must point to the same instance of integration runtime, and that integration runtime is used to execute the copy Activity.

Действие поиска и получения метаданныхLookup and GetMetadata activity

Действие поиска и получения метаданных выполняется в среде выполнения интеграции, ассоциированной со связанной службой хранилища данных.The Lookup and GetMetadata activity is executed on the integration runtime associated to the data store linked service.

Действие преобразованияTransformation activity

Для каждого действия преобразования задается целевая связанная служба вычислений, которая указывает на определенную среду выполнения интеграции.Each transformation activity has a target compute Linked Service, which points to an integration runtime. Этот экземпляр среды выполнения интеграции будет отвечать за диспетчеризацию действия преобразования.This integration runtime instance is where the transformation activity is dispatched from.

Действие потока данныхData Flow activity

Действие потока данных выполняется в связанной с ним среде выполнения интеграции.Data Flow activity is executed on the integration runtime associated to it.

Следующие шагиNext steps

Ознакомьтесь со следующими статьями:See the following articles: