Beheerd virtueel netwerk van Azure Data Factory

VAN TOEPASSING OP: Azure Data Factory Azure Synapse Analytics

Tip

Probeer Data Factory uit in Microsoft Fabric, een alles-in-één analyseoplossing voor ondernemingen. Microsoft Fabric omvat alles, van gegevensverplaatsing tot gegevenswetenschap, realtime analyses, business intelligence en rapportage. Meer informatie over het gratis starten van een nieuwe proefversie .

In dit artikel worden beheerde virtuele netwerken en beheerde privé-eindpunten in Azure Data Factory uitgelegd.

Beheerd virtueel netwerk

Wanneer u een Azure Integration Runtime maakt in een beheerd virtueel data factory-netwerk, wordt de integratieruntime ingericht met het beheerde virtuele netwerk. Het maakt gebruik van privé-eindpunten om veilig verbinding te maken met ondersteunde gegevensarchieven.

Het maken van een integratieruntime in een beheerd virtueel netwerk zorgt ervoor dat het proces voor gegevensintegratie geïsoleerd en veilig is.

Voordelen van het gebruik van een beheerd virtueel netwerk:

  • Met een beheerd virtueel netwerk kunt u de last van het beheer van het virtuele netwerk naar Data Factory offloaden. U hoeft geen subnet te maken voor een integratieruntime die uiteindelijk veel privé-IP-adressen van uw virtuele netwerk kan gebruiken en waarvoor voorafgaande planning van de netwerkinfrastructuur is vereist.
  • Deep Azure-netwerkkennis is niet vereist om gegevensintegraties veilig uit te voeren. In plaats daarvan is het veel eenvoudiger om aan de slag te gaan met beveiligde ETL voor data engineers.
  • Een beheerd virtueel netwerk, samen met beheerde privé-eindpunten, beschermt tegen gegevensexfiltratie.

Op dit moment wordt het beheerde virtuele netwerk alleen ondersteund in dezelfde regio als de Data Factory-regio.

Notitie

Een bestaande globale integratieruntime kan niet overschakelen naar een integratieruntime in een door Data Factory beheerd virtueel netwerk en omgekeerd.

Diagram that shows Data Factory managed virtual network architecture.

Er zijn twee manieren om een beheerd virtueel netwerk in te schakelen in uw data factory:

  1. Schakel het beheerde virtuele netwerk in tijdens het maken van de data factory.

Screenshot of enabling managed virtual network during the creation of data factory.

  1. Schakel beheerd virtueel netwerk in in Integration Runtime.

Screenshot of enabling managed virtual network in integration runtime

Beheerde privé-eindpunten

Beheerde privé-eindpunten zijn privé-eindpunten die zijn gemaakt in het beheerde virtuele netwerk van Data Factory, waarmee een privé-koppeling met Azure-resources tot stand wordt gebracht. Deze privé-eindpunten worden namens u beheerd in Data Factory.

Data Factory ondersteunt privékoppelingen. U kunt Azure Private Link gebruiken om toegang te krijgen tot PaaS-services (Platform as a Service), zoals Azure Storage, Azure Cosmos DB en Azure Synapse Analytics.

Wanneer u een privékoppeling gebruikt, loopt verkeer tussen uw gegevensarchieven en het beheerde virtuele netwerk volledig via het Microsoft-backbonenetwerk. Private Link beschermt tegen risico's van gegevensexfiltratie. U kunt een privé-koppeling naar een resource tot stand brengen door een privé-eindpunt te maken.

Een privé-eindpunt maakt gebruik van een privé-IP-adres in het beheerde virtuele netwerk om de service er effectief in te zetten. Privé-eindpunten worden toegewezen aan een specifieke resource in Azure, en niet de volledige service. Klanten kunnen de connectiviteit beperken tot een specifieke resource die is goedgekeurd door hun organisatie. Zie Privékoppelingen en privé-eindpunten voor meer informatie.

Notitie

De resourceprovider Microsoft.Network moet zijn geregistreerd bij uw abonnement.

  1. Zorg ervoor dat u een beheerd virtueel netwerk inschakelt in uw data factory.
  2. Maak een nieuw beheerd privé-eindpunt in Manage Hub.

Screenshot that shows new managed private endpoints.

  1. Er wordt een privé-eindpuntverbinding gemaakt met de status In behandeling wanneer u een beheerd privé-eindpunt maakt in Data Factory. Er wordt een goedkeuringswerkstroom geïnitieerd. De eigenaar van de private link-resource is verantwoordelijk voor het goedkeuren of afwijzen van de verbinding.

Screenshot that shows the option Manage approvals in Azure portal.

  1. Als de eigenaar de verbinding goedkeurt, wordt de privé-koppeling tot stand gebracht. Anders wordt de privé-koppeling niet tot stand gebracht. In beide gevallen wordt het beheerde privé-eindpunt bijgewerkt met de status van de verbinding.

Screenshot that shows approving a managed private endpoint.

Alleen een beheerd privé-eindpunt met een goedgekeurde status kan verkeer verzenden naar een specifieke private link-resource.

Notitie

Aangepaste DNS wordt niet ondersteund in een beheerd virtueel netwerk.

Interactieve creatie

Interactieve ontwerpmogelijkheden worden gebruikt voor functies zoals testverbinding, bladeren in mappenlijst en tabellijst, schema ophalen en voorbeeldgegevens bekijken. U kunt interactieve creatie inschakelen bij het maken of bewerken van een Azure Integration Runtime, die zich in het beheerde virtuele netwerk van Azure Data Factory bevindt. De back-endservice wijst vooraf rekenkracht toe voor interactieve ontwerpfunctionaliteiten. Anders wordt de berekening telkens toegewezen wanneer een interactieve bewerking wordt uitgevoerd, wat meer tijd in beslag neemt. De time to live (TTL) voor interactieve creatie is standaard 60 minuten, wat betekent dat deze automatisch wordt uitgeschakeld na 60 minuten van de laatste interactieve bewerking. U kunt de TTL-waarde wijzigen op basis van uw werkelijke behoeften.

Screenshot that shows interactive authoring.

Time to live

Kopieeractiviteit

Standaard draait elke kopieeractiviteit een nieuwe berekening op basis van de configuratie in de kopieeractiviteit. Als het beheerde virtuele netwerk is ingeschakeld, duurt het enkele minuten om koude berekeningen te starten en kan de gegevensverplaatsing pas worden gestart nadat deze is voltooid. Als uw pijplijnen meerdere opeenvolgende kopieeractiviteiten bevatten of als u veel kopieeractiviteiten in de foreach-lus hebt en deze niet allemaal parallel kunt uitvoeren, kunt u een time to live-waarde (TTL) inschakelen in de Configuratie van de Azure Integration Runtime. Als u een time to live-waarde en DIU-nummers opgeeft die vereist zijn voor de kopieeractiviteit, blijven de bijbehorende berekeningen gedurende een bepaalde periode actief nadat de uitvoering is voltooid. Als een nieuwe kopieeractiviteit wordt gestart tijdens de TTL-tijd, worden de bestaande berekeningen opnieuw gebruikt en wordt de opstarttijd aanzienlijk verminderd. Nadat de tweede kopieeractiviteit is voltooid, blijven de berekeningen weer actief voor de TTL-tijd. U hebt de flexibiliteit om te kiezen uit de vooraf gedefinieerde rekengrootten, variërend van klein tot gemiddeld tot groot. U kunt ook de rekengrootte aanpassen op basis van uw specifieke vereisten en realtime behoeften.

Notitie

Het opnieuw configureren van het DIU-nummer heeft geen invloed op de uitvoering van de huidige kopieeractiviteit.

Notitie

De diu-meting (data integration unit) van 2 DIU's wordt niet ondersteund voor de Copy-activiteit in een beheerd virtueel netwerk.

De DIU die u in TTL selecteert, wordt gebruikt om alle kopieeractiviteiten uit te voeren. De grootte van de DIU wordt niet automatisch geschaald op basis van de werkelijke behoeften. Dus je moet genoeg DIUs kiezen.

Waarschuwing

Als u weinig DIU's selecteert om veel activiteiten uit te voeren, worden veel activiteiten in de wachtrij in behandeling genomen. Dit heeft ernstige gevolgen voor de algehele prestaties.

Pijplijn en externe activiteit

Net als bij de kopie hebt u de mogelijkheid om de rekengrootte en TTL-duur aan te passen aan uw specifieke vereisten. In tegenstelling tot de kopie moet u er echter rekening mee houden dat pijplijn en externe TTL niet kunnen worden uitgeschakeld.

Notitie

Time to live (TTL) is alleen van toepassing op het beheerde virtuele netwerk.

Screenshot that shows the TTL configuration.

U kunt de onderstaande tabel gebruiken als referentie om het optimale aantal knooppunten te bepalen voor het uitvoeren van pijplijnen en externe activiteiten.

Type activiteit Capaciteit
Pijplijnactiviteit Ongeveer 50 per knooppunt
Scriptactiviteit en opzoekactiviteit met SQL alwaysEncrypted verbruiken meestal meer resources in vergelijking met andere pijplijnactiviteiten, waarbij het voorgestelde aantal ongeveer 10 per knooppunt is
Externe activiteit Ongeveer 800 per knooppunt

Vergelijking van verschillende TTL

De volgende tabel bevat de verschillen tussen verschillende typen TTL:

Functie Interactieve creatie Rekenschaal kopiëren Pijplijn en externe rekenschaal
Wanneer van kracht worden Direct na inschakeling Eerste uitvoering van activiteit Eerste uitvoering van activiteit
Kan worden uitgeschakeld J Y N
Gereserveerde rekenkracht kan worden geconfigureerd N J J

Notitie

U kunt TTL niet inschakelen in de standaardinstelling voor automatisch oplossen van Azure Integration Runtime. U kunt er een nieuwe Azure Integration Runtime voor maken.

Notitie

Wanneer Copy/Pipeline/External Compute Scale TTL is geactiveerd, wordt de facturering bepaald door de gereserveerde rekenresources. Als gevolg hiervan bevat de uitvoer van de activiteit niet de billingReference, omdat dit exclusief relevant is in niet-TTL-scenario's.

Een beheerd virtueel netwerk maken via Azure PowerShell

$subscriptionId = ""
$resourceGroupName = ""
$factoryName = ""
$managedPrivateEndpointName = ""
$integrationRuntimeName = ""
$apiVersion = "2018-06-01"
$privateLinkResourceId = ""

$vnetResourceId = "subscriptions/${subscriptionId}/resourceGroups/${resourceGroupName}/providers/Microsoft.DataFactory/factories/${factoryName}/managedVirtualNetworks/default"
$privateEndpointResourceId = "subscriptions/${subscriptionId}/resourceGroups/${resourceGroupName}/providers/Microsoft.DataFactory/factories/${factoryName}/managedVirtualNetworks/default/managedprivateendpoints/${managedPrivateEndpointName}"
$integrationRuntimeResourceId = "subscriptions/${subscriptionId}/resourceGroups/${resourceGroupName}/providers/Microsoft.DataFactory/factories/${factoryName}/integrationRuntimes/${integrationRuntimeName}"

# Create managed Virtual Network resource
New-AzResource -ApiVersion "${apiVersion}" -ResourceId "${vnetResourceId}" -Properties @{}

# Create managed private endpoint resource
New-AzResource -ApiVersion "${apiVersion}" -ResourceId "${privateEndpointResourceId}" -Properties @{
        privateLinkResourceId = "${privateLinkResourceId}"
        groupId = "blob"
    }

# Create integration runtime resource enabled with virtual network
New-AzResource -ApiVersion "${apiVersion}" -ResourceId "${integrationRuntimeResourceId}" -Properties @{
        type = "Managed"
        typeProperties = @{
            computeProperties = @{
                location = "AutoResolve"
                dataFlowProperties = @{
                    computeType = "General"
                    coreCount = 8
                    timeToLive = 0
                }
            }
        }
        managedVirtualNetwork = @{
            type = "ManagedVirtualNetworkReference"
            referenceName = "default"
        }
    }

Notitie

U kunt de groupId van andere gegevensbronnen ophalen uit een private link-resource.

Uitgaande verbindingen

Ondersteunde gegevensbronnen en -services

De volgende services hebben systeemeigen ondersteuning voor privé-eindpunten. Ze kunnen worden verbonden via een privékoppeling vanuit een door Data Factory beheerd virtueel netwerk:

  • Azure Databricks
  • Azure Functions (Premium-plan)
  • Azure Key Vault
  • Azure Machine Learning
  • Azure Private Link
  • Microsoft Purview

Voor de ondersteuning van gegevensbronnen kunt u het overzicht van de connector raadplegen. U hebt toegang tot alle gegevensbronnen die door Data Factory worden ondersteund via een openbaar netwerk.

On-premises gegevensbronnen

Raadpleeg Toegang tot on-premises SQL Server vanuit een door Data Factory beheerd virtueel netwerk met behulp van een privé-eindpunt voor meer informatie over toegang tot on-premises gegevensbronnen vanuit een beheerd virtueel netwerk met behulp van een privé-eindpunt.

Uitgaande communicatie via een openbaar eindpunt vanuit een door Data Factory beheerd virtueel netwerk

Alle poorten worden geopend voor uitgaande communicatie.

Beperkingen en bekende problemen

Gekoppelde service maken voor Key Vault

Wanneer u een gekoppelde service voor Key Vault maakt, is er geen naslaginformatie over integration runtime. U kunt dus geen privé-eindpunten maken tijdens het maken van de gekoppelde service van Key Vault. Wanneer u echter een gekoppelde service maakt voor gegevensarchieven die verwijst naar Key Vault en deze gekoppelde service verwijst naar een integratieruntime waarvoor een beheerd virtueel netwerk is ingeschakeld, kunt u tijdens het maken een privé-eindpunt voor Key Vault maken.

  • Testverbinding: Deze bewerking voor een gekoppelde service van Key Vault valideert alleen de URL-indeling, maar voert geen netwerkbewerking uit.
  • Privé-eindpunt gebruiken: deze kolom wordt altijd als leeg weergegeven, zelfs als u een privé-eindpunt voor Key Vault maakt.

Gekoppelde service maken van Azure HDInsight

De kolom Privé-eindpunt gebruiken wordt altijd als leeg weergegeven, zelfs als u een privé-eindpunt voor HDInsight maakt met behulp van een private link-service en een load balancer met port forwarding.

Screenshot that shows a private endpoint for Key Vault.

Fully Qualified Domain Name (FQDN) van Azure HDInsight

Als u een aangepaste private link-service hebt gemaakt, moet de FQDN eindigen met azurehdinsight.net zonder dat u een privatelink in de domeinnaam hoeft te gebruiken wanneer u een privé-eindpunt maakt. Als u privatelink in domeinnaam gebruikt, controleert u of deze geldig is en kunt u deze omzetten.

Toegangsbeperkingen in beheerd virtueel netwerk met privé-eindpunten

U hebt geen toegang tot elke PaaS-resource wanneer beide zijden beschikbaar zijn voor Private Link en een privé-eindpunt. Dit probleem is een bekende beperking van Private Link en privé-eindpunten.

U hebt bijvoorbeeld een beheerd privé-eindpunt voor opslagaccount A. U kunt ook toegang krijgen tot opslagaccount B via een openbaar netwerk in hetzelfde beheerde virtuele netwerk. Maar wanneer opslagaccount B een privé-eindpuntverbinding heeft van een ander beheerd virtueel netwerk of virtueel netwerk van de klant, hebt u geen toegang tot opslagaccount B in uw beheerde virtuele netwerk via een openbaar netwerk.

Zie de volgende zelfstudies: