Integration Runtime in Azure Data Factory

VAN TOEPASSING OP: Azure Data Factory Azure Synapse Analytics

De Integration Runtime (IR) is de rekeninfrastructuur die wordt gebruikt door Azure Data Factory- en Azure Synapse-pijplijnen om de volgende mogelijkheden voor gegevensintegratie in verschillende netwerkomgevingen te bieden:

  • Gegevens Flow: voer een Data Flow uit in een beheerde Azure-rekenomgeving.
  • Gegevensver verplaatsen: kopieer gegevens tussen gegevensopslag in een openbaar netwerk en gegevensopslag in een particulier netwerk (on-premises of virtueel particulier netwerk). Deze optie biedt ondersteuning voor ingebouwde connectors, indelingsconversie, kolomtoewijzing en hoogwaardige en schaalbare gegevensoverdracht.
  • Verzending van activiteiten: verzend en controleer transformatieactiviteiten die worden uitgevoerd op verschillende rekenservices, zoals Azure Databricks, Azure HDInsight, ML Studio (klassiek), Azure SQL Database, SQL Server en meer.
  • SSIS-pakketuitvoering: systeemeigen SSIS-pakketten (SQL Server Integration Services) uitvoeren in een beheerde Azure-rekenomgeving.

In Data Factory en Synapse-pijplijnen definieert een activiteit de actie die moet worden uitgevoerd. Een gekoppelde service definieert een doelgegevensarchief of een rekenservice. Een Integration Runtime vormt de brug tussen de activiteit en de gekoppelde services. Er wordt naar verwezen door de gekoppelde service of activiteit en biedt de rekenomgeving waarin de activiteit wordt uitgevoerd of waar de activiteit vandaan wordt verzonden. Op deze manier kan de activiteit optimaal worden uitgevoerd in de regio die het dichtst mogelijk bij het doelgegevensarchief of de rekenservice ligt, terwijl wordt voldaan aan vereisten rondom beveiliging en naleving.

Integratieruntimes kunnen worden gemaakt in de Azure Data Factory en Azure Synapse-gebruikersinterface via de beheerhub en alle activiteiten, gegevenssets of gegevensstromen waarnaar wordt verwezen.

Typen Integration Runtime

Data Factory biedt drie typen Integration Runtime (IR) en u moet het type kiezen dat het beste past bij de gegevensintegratiemogelijkheden en netwerkomgevingsbehoeften die u zoekt. Deze drie typen zijn:

  • Azure
  • Zelf-hostend
  • Azure-SSIS

Notitie

Synapse-pijplijnen ondersteunen momenteel alleen Azure-integratieruntimes of zelf-hostende integratieruntimes.

De volgende tabel beschrijft de mogelijkheden en de netwerkondersteuning voor de drie typen Integration Runtime:

IR-type Openbaar netwerk Particulier netwerk
Azure Gegevensstroom
Gegevensverplaatsing
Verzending van de activiteit
Gegevensstroom
Gegevensverplaatsing
Verzending van de activiteit
Zelf-hostend Gegevensverplaatsing
Verzending van de activiteit
Gegevensverplaatsing
Verzending van de activiteit
Azure-SSIS Uitvoering van SSIS-pakket Uitvoering van SSIS-pakket

Azure Integration Runtime

Een Azure Integration Runtime kan:

  • Gegevensstromen uitvoeren in Azure
  • Kopieeractiviteit uitvoeren tussen gegevensopslag in de cloud
  • Verzend de volgende transformatieactiviteiten in een openbaar netwerk: Databricks Notebook/Jar/Python-activiteit, HDInsight Hive-activiteit, HDInsight Pig-activiteit, HDInsight MapReduce-activiteit, HDInsight Spark-activiteit, HDInsight Streaming-activiteit, ML Studio (klassiek) Batch Execution-activiteit, ML Studio (klassiek) Resourceactiviteiten bijwerken, opgeslagen procedureactiviteit, Data Lake Analytics U-SQL-activiteit, aangepaste .NET-activiteit, webactiviteit, opzoekactiviteit en activiteit Metagegevens op halen.

Azure IR-netwerkomgeving

Azure Integration Runtime biedt ondersteuning voor het maken van verbinding met gegevensopslag en rekenservices met openbaar toegankelijke eindpunten. Door Beheerde Virtual Network in te Azure Integration Runtime, biedt Azure Integration Runtime ondersteuning voor het maken van verbinding met gegevensopslag met behulp van private link-service in een privénetwerkomgeving.

Azure IR-rekenresource en -schalen

Azure Integration Runtime biedt een volledig beheerde, serverloze rekenresource in Azure. U hoeft zich geen zorgen te maken over het inrichten van de infrastructuur, software-installatie, patching of het schalen van capaciteit. Bovendien betaalt u alleen voor het werkelijke gebruik.

Azure Integration Runtime biedt de systeemeigen rekenkracht om gegevens te verplaatsen tussen gegevensarchieven in de cloud op een veilige, betrouwbare en krachtige manier. U kunt instellen hoeveel eenheden voor gegevensintegratie worden gebruikt in de kopieeractiviteit. De rekenkracht van de Azure IR wordt flexibel opgeschaald om aan uw behoeften te voldoen, zonder dat u de grootte van de Azure Integration Runtime expliciet hoeft aan te passen.

Het verzenden van activiteiten is een lichtgewicht bewerking om de activiteit naar de doelrekenservice te sturen, zodat u de rekenkracht voor dit scenario niet hoeft op te schalen.

Zie How to create and configure Azure Integration Runtime (Een Azure IR maken en configureren) voor meer informatie over het maken en configureren van Azure Integration Runtime.

Notitie

Azure Integration Runtime heeft eigenschappen die betrekking hebben op Data Flow runtime, die de onderliggende rekeninfrastructuur definieert die wordt gebruikt om de gegevensstromen op uit te voeren.

Zelf-hostende Integration Runtime

Een zelf-hostende IR is geschikt voor:

  • Het uitvoeren van kopieeractiviteit tussen een gegevensarchief in de cloud en een gegevensarchief in een privénetwerk.
  • De volgende transformatieactiviteiten verzenden naar rekenresources in on-premises of Azure Virtual Network: HDInsight Hive-activiteit (BYOC-Bring Your Own Cluster), HDInsight Pig-activiteit (BYOC), HDInsight MapReduce-activiteit (BYOC), HDInsight Spark-activiteit (BYOC), HDInsight Streaming-activiteit (BYOC), ML Studio (klassiek) Batch Execution-activiteit, ML Studio (klassiek) Resourceactiviteiten bijwerken, opgeslagen procedureactiviteit, Data Lake Analytics U-SQL-activiteit, aangepaste activiteit (wordt uitgevoerd op Azure Batch), opzoekactiviteit en activiteit Metagegevens downloaden.

Notitie

Gebruik zelf-hostende Integration Runtime ter ondersteuning van gegevensopslag die bring-your-own stuurprogramma's vereist, zoals SAP Hana, MySQL, enzovoort. Zie Ondersteunde gegevensopslag voor meer informatie.

Notitie

Java Runtime Environment (JRE) is een afhankelijkheid van zelf-hostend IR. Zorg ervoor dat JRE op dezelfde host is geïnstalleerd.

Zelf-hostende Azure IR-netwerkomgeving

Als u gegevensintegratie veilig wilt uitvoeren in een privénetwerkomgeving, die geen direct zicht heeft vanuit de openbare cloudomgeving, kunt u een zelf-hostende IR on-premises omgeving installeren achter uw bedrijfsfirewall of binnen een virtueel particulier netwerk. De zelf-hostende Integration Runtime maakt alleen uitgaande HTTP-gebaseerde verbindingen met het openbare internet.

Zelf-hostende IR-rekenresource en -schalen

Installeer zelf-hostende IR op een on-premises machine of een virtuele machine binnen een particulier netwerk. Op dit moment ondersteunen we alleen zelf-hostende IR op een Windows-besturingssysteem.

Voor hoge beschikbaarheid en schaalbaarheid kunt u de zelf-hostende IR uitbreiden door het logische exemplaar te koppelen aan meerdere on-premises computers in de modus actief-actief. Zie het artikel Zelf-hostende IR maken en configureren onder handleidingen voor meer informatie.

Azure-SSIS Integration Runtime

Notitie

Azure-SSIS-integratieruntimes worden momenteel niet ondersteund in Synapse-pijplijnen.

Als u de bestaande SSIS-werkbelasting wilt opheffen of verplaatsen, kunt u een Azure-SSIS IR maken voor het uitvoeren van systeemeigen SSIS-pakketten.

Azure-SSIS IR-netwerkomgeving

Azure-SSIS IR kan worden ingericht in een openbaar netwerk of privénetwerk. Toegang tot on-premises gegevens wordt ondersteund door Azure SSIS IR te koppelen aan een virtueel netwerk dat is verbonden met uw on-premises netwerk.

Azure-SSIS IR-rekenresource en -schalen

Azure-SSIS IR is een volledig beheerd cluster met virtuele Azure-machines die uw SSIS-pakketten uitvoeren. U kunt uw eigen Azure SQL Database of SQL managed instance gebruiken voor de catalogus van SSIS-projecten/-pakketten (SSISDB). U kunt de rekenkracht opschalen door de grootte van het knooppunt op te geven en opschalen door het aantal knooppunten in het cluster aan te geven. U kunt de kosten van het uitvoeren van de uw Azure-SSIS Integration Runtime beheren door naar wens te stoppen en starten.

Zie voor meer informatie het artikel 'Azure-SSIS IR maken en configureren' bij de gidsen. Wanneer u de Azure SSIS IR hebt gemaakt, kunt u uw bestaande SSIS-pakketten implementeren en beheren met weinig of geen wijzigingen met behulp van bekende hulpprogramma's zoals SQL Server Data Tools (SSDT) en SQL Server Management Studio (SSMS), net als bij on-premises gebruik van SSIS.

Zie de volgende artikelen voor meer informatie over Azure-SSIS Runtime:

  • Zelfstudie: SSIS-pakketten implementeren in Azure. Dit artikel bevat stapsgewijs instructies voor het maken van een Azure-SSIS IR en gebruikt een Azure SQL Database voor het hosten van de SSIS-catalogus.
  • Procedure: Een Azure SSIS Integration Runtime maken. Dit artikel gaat verder in op de zelfstudie en bevat instructies voor het gebruik SQL managed instance en het samenvoegen van de IR met een virtueel netwerk.
  • Een Azure-SSIS IR controleren. In dit artikel leest u hoe u informatie over een Azure-SSIS IR ophaalt. Daarnaast bevat het artikel beschrijvingen van statuswaarden die worden gebruikt in de geretourneerde informatie.
  • Een Azure-SSIS IR beheren. In dit artikel leest u hoe u een Azure-SSIS IR stopt, start of verwijdert. Er wordt ook uitgelegd hoe u een Azure-SSIS IR kunt uitschalen door meer knooppunten toe te voegen aan de IR.
  • Een Azure-SSIS-integratieruntime toevoegen aan een virtueel netwerk. Dit artikel bevat algemene informatie over het toevoegen van een Azure-SSIS IR aan een virtueel netwerk van Azure. Er wordt ook beschreven hoe u Azure Portal gebruikt om een virtueel netwerk te configureren voor het deelnemen van Azure-SSIS IR aan het virtueel netwerk.

Locatie van Integration Runtime

Relatie tussen factorylocatie en IR-locatie

Wanneer de klant een Data Factory maakt, moet deze de locatie voor de Data Factory of Synapse-werkruimte opgeven. De metagegevens voor de Data Factory of Synapse-werkruimte worden hier opgeslagen en het activeren van de pijplijn wordt hier gestart. Metagegevens worden alleen opgeslagen in de regio van de klant naar keuze en worden niet opgeslagen in andere regio's.

Ondertussen heeft een Azure Data Factory- of Azure Synapse-pijplijn toegang tot gegevensopslag en rekenservices in andere Azure-regio's om gegevens tussen gegevensopslag te verplaatsen of gegevens te verwerken met behulp van rekenservices. Dit gedrag wordt gerealiseerd via de IR die algemeen beschikbaar is om de gegevensnaleving, efficiëntie en verminderde kosten voor uitgaand netwerkverkeer te realiseren.

De locatie van de IR definieert de locatie van de back-end rekenkracht en in wezen de locatie waar de verplaatsing van gegevens, het verzenden van activiteit en de uitvoering van het SSIS-pakket worden uitgevoerd. De IR-locatie kan verschillen van de locatie van de Data Factory waar deze bij hoort.

Locatie van Azure IR

U kunt een bepaalde locatie van een Azure IR. In dat geval vindt de uitvoering of verzending van de activiteit plaats in die specifieke regio.

Als u ervoor kiest om het automatisch oplossen van Azure IR in een openbaar netwerk te gebruiken. Dit is de standaardinstelling:

  • Voor kopieeractiviteit wordt er alles aan gedaan om automatisch de locatie van uw sinkgegevensopslag te detecteren en vervolgens de IR te gebruiken in dezelfde regio, indien beschikbaar of in de dichtstbijzijnde regio in dezelfde geografie; Als de regio van het sinkgegevensopslag niet kan worden gedetecteerd, wordt IR in Data Factory regio als alternatief gebruikt.

    U hebt bijvoorbeeld uw Data Factory of Synapse-werkruimte is gemaakt in VS - oost,

    • Wanneer u gegevens kopieert naar Azure Blob in VS - west en de blob wordt gedetecteerd in VS - west, wordt de kopieeractiviteit uitgevoerd op de IR in VS - west; Als de regiodetectie mislukt, wordt de kopieeractiviteit uitgevoerd op IR in VS - oost.
    • Wanneer u gegevens kopieert naar Salesforce waarvan de regio niet detecteerbaar is, wordt de kopieeractiviteit uitgevoerd op IR in VS - oost.

    Tip

    Als u strikte gegevensnalevingsvereisten hebt en u ervoor moet zorgen moet dat gegevens een bepaalde geografie niet verlaten, kunt u expliciet een Azure IR maken in een bepaalde regio en de gekoppelde service naar deze IR laten wijzen met behulp van de eigenschap ConnectVia. Als u bijvoorbeeld gegevens wilt kopiëren van Blob in VK - zuid naar Azure Synapse Analytics in VK - zuid en ervoor wilt zorgen dat gegevens het VK niet verlaten, maakt u een Azure IR in VK - zuid en koppelt u beide gekoppelde services aan deze IR.

  • Voor de uitvoering van de activiteit Lookup/GetMetadata/Delete (ook wel pijplijnactiviteiten genoemd), verzending van transformatieactiviteit (ook wel externe activiteiten genoemd) en ontwerpbewerkingen (testverbinding, bladerlijst en tabellijst, voorbeeldgegevens), wordt de IR in dezelfde regio als de Data Factory of Synapse-werkruimte gebruikt.

  • Voor Data Flow wordt de IR in de regio Data Factory of Synapse-werkruimte gebruikt.

    Tip

    Een goede gewoonte is om ervoor te zorgen dat de gegevensstroom wordt uitgevoerd in dezelfde regio als uw bijbehorende gegevensopslag (indien mogelijk). U kunt dit bereiken door Azure IR automatisch op te lossen (als de locatie van het gegevensopslag is gelijk aan de locatie van de Data Factory- of Synapse-werkruimte) of door een nieuw Azure IR-exemplaar te maken in dezelfde regio als uw gegevensopslag en vervolgens de gegevensstroom daarop uit te voeren.

Als u Beheerde Virtual Network voor automatisch Azure IR, wordt de IR in de regio Data Factory of Synapse-werkruimte gebruikt.

U kunt controleren welke IR-locatie van kracht wordt tijdens het uitvoeren van activiteiten in de weergave voor het controleren van de pijplijnactiviteit in de gebruikersinterface of nettolading voor het controleren van activiteiten.

Locatie zelf-hostende IR

De zelf-hostende IR wordt logisch geregistreerd bij de Data Factory- of Synapse-werkruimte en de rekenkracht die wordt gebruikt ter ondersteuning van de functies ervan, wordt door u geleverd. Er bestaat daarom geen expliciete locatie-eigenschap voor de zelf-hostende IR.

Wanneer de zelf-hostende IR wordt gebruikt voor het uitvoeren van de gegevensverplaatsing, haalt deze gegevens uit de bron en schrijft naar de bestemming.

Locatie Azure-SSIS IR

Notitie

Azure-SSIS-integratieruntimes worden momenteel niet ondersteund in Synapse-pijplijnen.

Het selecteren van de juiste locatie voor uw Azure-SSIS IR is essentieel voor het bereiken van hoge prestaties in uw ETL-werkstromen (extract-transform-load).

  • De locatie van uw Azure-SSIS IR hoeft niet gelijk te zijn aan de locatie van uw Data Factory, maar moet wel gelijk zijn aan de locatie van uw eigen Azure SQL Database of SQL Managed Instance waar SSISDB. Op deze manier heeft uw Azure-SSIS Integration Runtime eenvoudig toegang tot SSISDB, zonder overmatig verkeer tussen verschillende locaties.
  • Als u geen bestaand SQL Database of SQL Managed Instance hebt, maar wel on-premises gegevensbronnen/bestemmingen hebt, moet u een nieuwe Azure SQL Database of SQL Managed Instance maken op dezelfde locatie als een virtueel netwerk dat is verbonden met uw on-premises netwerk. Op deze manier kunt u uw Azure-SSIS IR maken met behulp van het nieuwe Azure SQL Database of SQL Managed Instance en dat virtuele netwerk samenvoegen op dezelfde locatie, waardoor gegevensverplaatsingen op verschillende locaties worden geminimaliseerd.
  • Als de locatie van uw bestaande Azure SQL Database of SQL Managed Instance niet hetzelfde is als de locatie van een virtueel netwerk dat is verbonden met uw on-premises netwerk, maakt u eerst uw Azure-SSIS IR met behulp van een bestaand Azure SQL Database of SQL Managed Instance en gaat u een ander virtueel netwerk op dezelfde locatie samenvoegen en configureert u vervolgens een virtueel netwerk naar een virtueel netwerkverbinding tussen verschillende locaties.

Het volgende diagram toont de locatie-instellingen van Data Factory en het aantal keren dat de integratie wordt uitgevoerd:

Locatie van Integration Runtime

Bepalen welke IR u moet gebruiken

Als een activiteit aan meer dan één type Integration Runtime is koppelt, wordt deze opgelost naar een van deze. De zelf-hostende Integration Runtime heeft voorrang op Azure Integration Runtime in Azure Data Factory of Synapse-werkruimten met behulp van een beheerd virtueel netwerk. En de laatste heeft voorrang op wereldwijde Azure Integration Runtime.

Er wordt bijvoorbeeld één kopieeractiviteit gebruikt om gegevens van de bron naar de sink te kopiëren. De globale Azure Integration Runtime is gekoppeld aan de gekoppelde service aan de bron en een Azure Integration Runtime in Azure Data Factory managed virtual network koppelt aan de gekoppelde service voor sink. Het resultaat is dat zowel de bron- als de sink-gekoppelde service Azure Integration Runtime gebruiken in Azure Data Factory of Synapse Workspaces met behulp van een beheerd virtueel netwerk. Maar als een zelf-hostende Integration Runtime de gekoppelde service koppelt voor de bron, gebruiken zowel de gekoppelde bron- als de sinkservice zelf-hostende Integration Runtime.

Kopieeractiviteit

Voor de kopieeractiviteit, zijn de gekoppelde bron- en sinkservices vereist voor het definiëren van de richting van de gegevensstroom. De volgende logica wordt gebruikt om te bepalen welk exemplaar van Integration Runtime wordt gebruikt voor het uitvoeren van de kopieeractiviteit:

  • Kopiëren tussen twee cloudgegevensbronnen: wanneer gekoppelde bron- en sinkservices Azure IR gebruiken, wordt de regionale Azure IR gebruikt als deze is opgegeven of wordt de locatie van Azure IR automatisch bepaald als de autoresolve IR (standaard) is gekozen zoals beschreven in de sectie Locatie van Integratieruntime.
  • Kopiëren tussen een gegevensbron in de cloud en een gegevensbron in een privénetwerk: als de gekoppelde bron- of sinkservice verwijst naar een zelf-hostende IR, wordt de kopieerbewerking uitgevoerd op die zelf-hostende Integration Runtime.
  • Kopiëren tussen twee gegevensbronnen in een privénetwerk: zowel de gekoppelde bron- als sinkservice moet naar hetzelfde exemplaar van integration runtime wijzen en die Integration Runtime wordt gebruikt om de kopieeractiviteit uit te voeren.

Activiteit Lookup en GetMetadata

De activiteit Lookup en GetMetadata wordt uitgevoerd voor de integratieruntime die is gekoppeld aan de service die aan de gegevensopslag is gekoppeld.

Externe transformatieactiviteit

Elke externe transformatieactiviteit die gebruikmaakt van een externe berekeningsen engine heeft een gekoppelde doelrekenservice, die naar een integratieruntime wijst. Dit exemplaar van integration runtime bepaalt de locatie waar die externe, met de hand gecodeerde transformatieactiviteit vandaan wordt verzonden.

Activiteit Flow gegevens

Gegevens Flow worden uitgevoerd op de Azure Integration Runtime die daaraan is gekoppeld. De Spark-rekenkracht die door gegevensstromen wordt gebruikt, wordt bepaald door de eigenschappen van de gegevensstroom in uw Azure Integration Runtime en worden volledig beheerd door ADF.

Volgende stappen

Zie de volgende artikelen: