Zarządzana sieć wirtualna usługi Azure Data Factory

DOTYCZY: Azure Data Factory Azure Synapse Analytics

Napiwek

Wypróbuj usługę Data Factory w usłudze Microsoft Fabric — rozwiązanie analityczne typu all-in-one dla przedsiębiorstw. Usługa Microsoft Fabric obejmuje wszystko, od przenoszenia danych do nauki o danych, analizy w czasie rzeczywistym, analizy biznesowej i raportowania. Dowiedz się, jak bezpłatnie rozpocząć nową wersję próbną !

W tym artykule opisano zarządzane sieci wirtualne i zarządzane prywatne punkty końcowe w usłudze Azure Data Factory.

Zarządzana sieć wirtualna

Podczas tworzenia środowiska Azure Integration Runtime w zarządzanej sieci wirtualnej usługi Data Factory środowisko Integration Runtime jest aprowizowane za pomocą zarządzanej sieci wirtualnej. Używa prywatnych punktów końcowych do bezpiecznego łączenia się z obsługiwanymi magazynami danych.

Utworzenie środowiska Integration Runtime w zarządzanej sieci wirtualnej gwarantuje, że proces integracji danych jest izolowany i bezpieczny.

Zalety korzystania z zarządzanej sieci wirtualnej:

  • Zarządzaną siecią wirtualną można odciążyć obciążenie związane z zarządzaniem siecią wirtualną w usłudze Data Factory. Nie musisz tworzyć podsieci dla środowiska Integration Runtime, które może ostatecznie korzystać z wielu prywatnych adresów IP z sieci wirtualnej i wymagałoby wcześniejszego planowania infrastruktury sieciowej.
  • Głęboka wiedza na temat sieci platformy Azure nie jest wymagana do bezpiecznego wykonywania integracji danych. Zamiast tego wprowadzenie do bezpiecznego procesu ETL jest znacznie prostsze dla inżynierów danych.
  • Zarządzana sieć wirtualna wraz z zarządzanymi prywatnymi punktami końcowymi chroni przed eksfiltracją danych.

Obecnie zarządzana sieć wirtualna jest obsługiwana tylko w tym samym regionie co region usługi Data Factory.

Uwaga

Istniejące globalne środowisko Integration Runtime nie może przełączyć się do środowiska Integration Runtime w zarządzanej sieci wirtualnej usługi Data Factory i na odwrót.

Diagram that shows Data Factory managed virtual network architecture.

Istnieją dwa sposoby włączania zarządzanej sieci wirtualnej w fabryce danych:

  1. Włącz zarządzaną sieć wirtualną podczas tworzenia fabryki danych.

Screenshot of enabling managed virtual network during the creation of data factory.

  1. Włącz zarządzaną sieć wirtualną w środowisku Integration Runtime.

Screenshot of enabling managed virtual network in integration runtime

Zarządzane prywatne punkty końcowe

Zarządzane prywatne punkty końcowe to prywatne punkty końcowe utworzone w zarządzanej sieci wirtualnej usługi Data Factory, które ustanawiają prywatne łącze z zasobami platformy Azure. Usługa Data Factory zarządza tymi prywatnymi punktami końcowymi w Twoim imieniu.

Usługa Data Factory obsługuje łącza prywatne. Możesz użyć łącza prywatnego platformy Azure, aby uzyskać dostęp do usług platformy Azure jako usługi (PaaS), takich jak Azure Storage, Azure Cosmos DB i Azure Synapse Analytics.

W przypadku korzystania z łącza prywatnego ruch między magazynami danych i zarządzaną siecią wirtualną przechodzi całkowicie przez sieć szkieletową firmy Microsoft. Usługa Private Link chroni przed ryzykiem eksfiltracji danych. Utworzysz prywatny link do zasobu, tworząc prywatny punkt końcowy.

Prywatny punkt końcowy używa prywatnego adresu IP w zarządzanej sieci wirtualnej, aby skutecznie przenieść do niej usługę. Prywatne punkty końcowe są mapowane na określony zasób na platformie Azure, a nie na całą usługę. Klienci mogą ograniczyć łączność z określonym zasobem zatwierdzonym przez swoją organizację. Aby uzyskać więcej informacji, zobacz Linki prywatne i prywatne punkty końcowe.

Uwaga

Dostawca zasobów Microsoft.Network musi być zarejestrowany w twojej subskrypcji.

  1. Upewnij się, że włączono zarządzaną sieć wirtualną w fabryce danych.
  2. Utwórz nowy zarządzany prywatny punkt końcowy w usłudze Manage Hub.

Screenshot that shows new managed private endpoints.

  1. Połączenie prywatnego punktu końcowego jest tworzone w stanie Oczekiwanie podczas tworzenia zarządzanego prywatnego punktu końcowego w usłudze Data Factory. Zainicjowano przepływ pracy zatwierdzania. Właściciel zasobu łącza prywatnego jest odpowiedzialny za zatwierdzanie lub odrzucanie połączenia.

Screenshot that shows the option Manage approvals in Azure portal.

  1. Jeśli właściciel zatwierdzi połączenie, zostanie nawiązane łącze prywatne. W przeciwnym razie nie zostanie nawiązane łącze prywatne. W obu przypadkach zarządzany prywatny punkt końcowy zostanie zaktualizowany o stan połączenia.

Screenshot that shows approving a managed private endpoint.

Tylko zarządzany prywatny punkt końcowy w stanie zatwierdzonym może wysyłać ruch do określonego zasobu łącza prywatnego.

Uwaga

Niestandardowy system DNS nie jest obsługiwany w zarządzanej sieci wirtualnej.

Tworzenie interakcyjne

Funkcje tworzenia interakcyjnego są używane do obsługi funkcji, takich jak połączenie testowe, lista folderów przeglądania i lista tabel, pobieranie schematu i dane podglądu. Tworzenie interakcyjne można włączyć podczas tworzenia lub edytowania środowiska Azure Integration Runtime, które znajduje się w zarządzanej sieci wirtualnej usługi Azure Data Factory. Usługa zaplecza wstępnie przydzieli zasoby obliczeniowe na potrzeby interaktywnych funkcji tworzenia. W przeciwnym razie obliczenia będą przydzielane za każdym razem, gdy zostanie wykonana każda interaktywna operacja, co zajmie więcej czasu. Czas wygaśnięcia (TTL) dla tworzenia interakcyjnego wynosi domyślnie 60 minut, co oznacza, że automatyczne wyłączenie zostanie wyłączone po 60 minutach ostatniej operacji tworzenia interakcyjnego. Możesz zmienić wartość czasu wygaśnięcia zgodnie z rzeczywistymi potrzebami.

Screenshot that shows interactive authoring.

Time to live (Czas wygaśnięcia)

Działanie kopiowania

Domyślnie każde działanie kopiowania uruchamia nowe środowisko obliczeniowe na podstawie konfiguracji w działaniu kopiowania. Gdy zarządzana sieć wirtualna jest włączona, czas uruchamiania zimnych obliczeń trwa kilka minut, a przenoszenie danych nie może rozpocząć się, dopóki nie zostanie ukończone. Jeśli potoki zawierają wiele działań kopiowania sekwencyjnego lub masz wiele działań kopiowania w pętli foreach i nie można ich uruchomić równolegle, możesz włączyć czas wygaśnięcia (TTL) w konfiguracji środowiska Azure Integration Runtime. Określanie czasu wygaśnięcia i liczby jednostek DIU wymagane dla działania kopiowania zachowuje odpowiednie obliczenia aktywne przez określony okres czasu po zakończeniu wykonywania. Jeśli nowe działanie kopiowania rozpocznie się w czasie wygaśnięcia, będzie ponownie używać istniejących obliczeń, a czas uruchamiania zostanie znacznie zmniejszony. Po zakończeniu drugiego działania kopiowania obliczenia ponownie pozostaną aktywne przez czas wygaśnięcia. Masz możliwość wyboru spośród wstępnie zdefiniowanych rozmiarów obliczeniowych, od małych do średnich do dużych. Alternatywnie możesz również dostosować rozmiar obliczeniowy na podstawie określonych wymagań i potrzeb w czasie rzeczywistym.

Uwaga

Ponowne skonfigurowanie numeru jednostki DIU nie wpłynie na bieżące wykonanie działania kopiowania.

Uwaga

Miara jednostki integracji danych (DIU) 2 DIU nie jest obsługiwana dla działanie Kopiuj w zarządzanej sieci wirtualnej.

Jednostka DIU wybrana w czasie wygaśnięcia będzie używana do uruchamiania wszystkich działań kopiowania, rozmiar jednostki DIU nie będzie automatycznie skalowany zgodnie z rzeczywistymi potrzebami. Dlatego musisz wybrać wystarczającą liczbę jednostek DIU.

Ostrzeżenie

Wybranie kilku jednostek DIU do uruchomienia wielu działań spowoduje, że wiele działań będzie oczekujących w kolejce, co poważnie wpłynie na ogólną wydajność.

Potok i działanie zewnętrzne

Podobnie jak w przypadku kopii, masz możliwość dostosowania rozmiaru obliczeniowego i czasu wygaśnięcia zgodnie z określonymi wymaganiami. Jednak w przeciwieństwie do kopii należy pamiętać, że nie można wyłączyć potoku i zewnętrznego czasu wygaśnięcia.

Uwaga

Czas wygaśnięcia (TTL) ma zastosowanie tylko do zarządzanej sieci wirtualnej.

Screenshot that shows the TTL configuration.

Poniższa tabela może użyć jako odwołania, aby określić optymalną liczbę węzłów do wykonywania zarówno potoków, jak i działań zewnętrznych.

Typ działania Wydajność
Działanie potoku Około 50 na węzeł
Działanie skryptu i działanie Lookup z funkcją SQL alwaysEncrypted zwykle zużywa więcej zasobów w porównaniu z innymi działaniami potoku, a sugerowana liczba wynosi około 10 na węzeł
Działanie zewnętrzne Około 800 na węzeł

Porównanie różnych czasu wygaśnięcia

W poniższej tabeli wymieniono różnice między różnymi typami czasu wygaśnięcia:

Funkcja Tworzenie interakcyjne Kopiowanie skali obliczeniowej Skala potoków i zasobów obliczeniowych zewnętrznych
Kiedy należy zastosować Natychmiast po włączeniu Pierwsze wykonanie działania Pierwsze wykonanie działania
Można wyłączyć Y Y N
Zarezerwowane zasoby obliczeniowe można konfigurować N Y Y

Uwaga

Nie można włączyć czasu wygaśnięcia w domyślnym środowisku Azure Integration Runtime. Możesz utworzyć dla niego nowe środowisko Azure Integration Runtime.

Uwaga

Po aktywowaniu czasu wygaśnięcia kopiowania/potoku/zewnętrznej skali obliczeniowej rozliczenia są określane przez zarezerwowane zasoby obliczeniowe. W związku z tym dane wyjściowe działania nie obejmują wartości billingReference, ponieważ jest to wyłącznie istotne w scenariuszach innych niż czas wygaśnięcia.

Tworzenie zarządzanej sieci wirtualnej za pośrednictwem programu Azure PowerShell

$subscriptionId = ""
$resourceGroupName = ""
$factoryName = ""
$managedPrivateEndpointName = ""
$integrationRuntimeName = ""
$apiVersion = "2018-06-01"
$privateLinkResourceId = ""

$vnetResourceId = "subscriptions/${subscriptionId}/resourceGroups/${resourceGroupName}/providers/Microsoft.DataFactory/factories/${factoryName}/managedVirtualNetworks/default"
$privateEndpointResourceId = "subscriptions/${subscriptionId}/resourceGroups/${resourceGroupName}/providers/Microsoft.DataFactory/factories/${factoryName}/managedVirtualNetworks/default/managedprivateendpoints/${managedPrivateEndpointName}"
$integrationRuntimeResourceId = "subscriptions/${subscriptionId}/resourceGroups/${resourceGroupName}/providers/Microsoft.DataFactory/factories/${factoryName}/integrationRuntimes/${integrationRuntimeName}"

# Create managed Virtual Network resource
New-AzResource -ApiVersion "${apiVersion}" -ResourceId "${vnetResourceId}" -Properties @{}

# Create managed private endpoint resource
New-AzResource -ApiVersion "${apiVersion}" -ResourceId "${privateEndpointResourceId}" -Properties @{
        privateLinkResourceId = "${privateLinkResourceId}"
        groupId = "blob"
    }

# Create integration runtime resource enabled with virtual network
New-AzResource -ApiVersion "${apiVersion}" -ResourceId "${integrationRuntimeResourceId}" -Properties @{
        type = "Managed"
        typeProperties = @{
            computeProperties = @{
                location = "AutoResolve"
                dataFlowProperties = @{
                    computeType = "General"
                    coreCount = 8
                    timeToLive = 0
                }
            }
        }
        managedVirtualNetwork = @{
            type = "ManagedVirtualNetworkReference"
            referenceName = "default"
        }
    }

Uwaga

Identyfikator groupId innych źródeł danych można pobrać z zasobu łącza prywatnego.

Połączenie wychodzące

Obsługiwane źródła danych i usługi

Następujące usługi obsługują natywny prywatny punkt końcowy. Można je połączyć za pośrednictwem łącza prywatnego z zarządzanej sieci wirtualnej usługi Data Factory:

  • Azure Databricks
  • Azure Functions (plan Premium)
  • Azure Key Vault
  • Uczenie maszynowe Azure
  • Link prywatny platformy Azure
  • Microsoft Purview

Aby uzyskać informacje o obsłudze źródeł danych, zapoznaj się z omówieniem łącznika. Dostęp do wszystkich źródeł danych obsługiwanych przez usługę Data Factory można uzyskać za pośrednictwem sieci publicznej.

Lokalne źródła danych

Aby dowiedzieć się, jak uzyskać dostęp do lokalnych źródeł danych z zarządzanej sieci wirtualnej przy użyciu prywatnego punktu końcowego, zobacz Uzyskiwanie dostępu do lokalnej platformy SQL Server z zarządzanej sieci wirtualnej usługi Data Factory przy użyciu prywatnego punktu końcowego.

Komunikacja wychodząca za pośrednictwem publicznego punktu końcowego z zarządzanej sieci wirtualnej usługi Data Factory

Wszystkie porty są otwierane dla komunikacji wychodzącej.

Ograniczenia i znane problemy

Tworzenie połączonej usługi dla usługi Key Vault

Podczas tworzenia połączonej usługi dla usługi Key Vault nie ma odwołania do środowiska Integration Runtime. Nie można więc tworzyć prywatnych punktów końcowych podczas tworzenia połączonej usługi Key Vault. Jednak podczas tworzenia połączonej usługi dla magazynów danych odwołujących się do usługi Key Vault, a ta połączona usługa odwołuje się do środowiska Integration Runtime z włączoną zarządzaną siecią wirtualną, można utworzyć prywatny punkt końcowy dla usługi Key Vault podczas tworzenia.

  • Testuj połączenie: ta operacja dla połączonej usługi Key Vault weryfikuje tylko format adresu URL, ale nie wykonuje żadnej operacji sieciowej.
  • Używanie prywatnego punktu końcowego: ta kolumna jest zawsze wyświetlana jako pusta, nawet jeśli tworzysz prywatny punkt końcowy dla usługi Key Vault.

Tworzenie połączonej usługi Azure HDInsight

Kolumna Using private endpoint (Korzystanie z prywatnego punktu końcowego) jest zawsze wyświetlana jako pusta, nawet jeśli utworzysz prywatny punkt końcowy dla usługi HDInsight przy użyciu usługi łącza prywatnego i modułu równoważenia obciążenia z przekazywaniem portów.

Screenshot that shows a private endpoint for Key Vault.

W pełni kwalifikowana nazwa domeny (FQDN) usługi Azure HDInsight

Jeśli utworzono niestandardową usługę łącza prywatnego, nazwa FQDN powinna kończyć się azurehdinsight.net bez wiodącego łącza prywatnego w nazwie domeny podczas tworzenia prywatnego punktu końcowego. Jeśli używasz łącza prywatnego w nazwie domeny, upewnij się, że jest on prawidłowy i możesz go rozpoznać.

Ograniczenia dostępu w zarządzanej sieci wirtualnej z prywatnymi punktami końcowymi

Nie możesz uzyskać dostępu do każdego zasobu PaaS, gdy obie strony są uwidocznione w usłudze Private Link i prywatnym punkcie końcowym. Ten problem jest znanym ograniczeniem usługi Private Link i prywatnych punktów końcowych.

Na przykład masz zarządzany prywatny punkt końcowy dla konta magazynu A. Dostęp do konta magazynu B można również uzyskać za pośrednictwem sieci publicznej w tej samej zarządzanej sieci wirtualnej. Jednak jeśli konto magazynu B ma połączenie prywatnego punktu końcowego z innej zarządzanej sieci wirtualnej lub sieci wirtualnej klienta, nie można uzyskać dostępu do konta magazynu B w zarządzanej sieci wirtualnej za pośrednictwem sieci publicznej.

Zobacz następujące samouczki: