Infrastruktura Integration Runtime w usłudze Azure Data Factory

DOTYCZY: Azure Data Factory Azure Synapse Analytics

Infrastruktura Integration Runtime (IR) to infrastruktura obliczeniowa używana przez potoki Azure Data Factory i Azure Synapse w celu zapewnienia następujących możliwości integracji danych w różnych środowiskach sieciowych:

  • Data Flow:wykonywanie operacji Flow w zarządzanym środowisku obliczeniowym platformy Azure.
  • Ruch danych:kopiowanie danych między magazynami danych w sieciach publicznych lub prywatnych (zarówno w przypadku lokalnych, jak i wirtualnych sieci prywatnych). Usługa zapewnia obsługę wbudowanych łączników, konwersji formatu, mapowania kolumn oraz performant i skalowalnego transferu danych.
  • Wysyłanie działania:wysyłanie i monitorowanie działań przekształcania uruchomionych w różnych usługach obliczeniowych, takich jak Azure Databricks, Azure HDInsight, ML Studio (klasyczne), Azure SQL Database, SQL Server i inne.
  • Wykonanie pakietów SSIS: natywne wykonywanie pakietów SQL Server Integration Services (SSIS) w zarządzanym środowisku obliczeniowym platformy Azure.

W Data Factory potokach i synapse działanie definiuje akcję do wykonania. Połączona usługa definiuje docelowy magazyn danych lub usługę obliczeniową. Środowisko Integration Runtime zapewnia most między działaniami i połączonymi usługami. Odwołuje się do niego połączona usługa lub działanie i zapewnia środowisko obliczeniowe, w którym działanie jest uruchamiane bezpośrednio lub wysyłane. Dzięki temu działanie może być wykonywane w regionie najbliższym docelowemu magazynowi danych lub usłudze obliczeniowej w celu zmaksymalizowania wydajności przy jednoczesnym zachowaniu elastyczności w celu spełnienia wymagań dotyczących zabezpieczeń i zgodności.

Środowiska Integration Runtime można tworzyć w interfejsie użytkownika usług Azure Data Factory i Azure Synapse bezpośrednio za pośrednictwem centrum zarządzania, a także z dowolnych działań, zestawów danych lub przepływów danych, które się do nich odwołują.

Typy infrastruktury Integration Runtime

Data Factory oferuje trzy typy Integration Runtime (IR) i należy wybrać typ, który najlepiej spełnia Twoje możliwości integracji danych i wymagania dotyczące środowiska sieciowego. Trzy typy ir ir:

  • Azure
  • Samodzielny hosting
  • Azure-SSIS

Uwaga

Potoki usługi Synapse obecnie obsługują tylko platformę Azure lub własne środowiska Integration Runtime.

W poniższej tabeli opisano możliwości i obsługę sieci dla każdego typu infrastruktury Integration Runtime:

Typ IR Sieć publiczna Sieć prywatna
Azure Przepływ danych
Przenoszenie danych
Wysyłanie działania
Przepływ danych
Przenoszenie danych
Wysyłanie działania
Samodzielny hosting Przenoszenie danych
Wysyłanie działania
Przenoszenie danych
Wysyłanie działania
Azure-SSIS Wykonanie pakietu SSIS Wykonanie pakietu SSIS

Środowisko uruchomieniowe integracji Azure

Środowisko Azure Integration Runtime może:

  • Uruchamianie przepływów danych na platformie Azure
  • Uruchamianie działań kopiowania między magazynami danych w chmurze
  • Wysyłanie następujących działań przekształcania w sieci publicznej: działanie Notes usługi Databricks/ Plik Jar/Python, działanie HDInsight Hive, działanie HDInsight Pig, działanie HDInsight MapReduce, działanie HDInsight Spark, działanie hdinsight streaming, ML Studio (klasyczne) działanie Wykonanie wsadowe, działania aktualizacji zasobów programu ML Studio, działanie Procedury składowanej, Data Lake Analytics U-SQL activity, .NET custom activity, Web activity, Lookup activity i Get Metadata activity.

Środowisko sieciowe IR Azure

Azure Integration Runtime połączenia z magazynami danych i usługami obliczeniowymi za pomocą publicznych dostępnych punktów końcowych. Włączenie usługi Managed Virtual Network Azure Integration Runtime umożliwia łączenie się z magazynami danych przy użyciu usługi łącza prywatnego w środowisku sieci prywatnej.

Zasoby obliczeniowe i skalowanie środowiska IR Azure

Infrastruktura Integration Runtime zapewnia w pełni zarządzane obliczenia bez serwera na platformie Azure. Nie musisz martwić się o aprowizowanie infrastruktury, instalację oprogramowania, stosowanie poprawek ani skalowanie pojemności. Dodatkowo płacisz tylko za czas rzeczywistego wykorzystania.

Produkt Azure Integration Runtime zapewnia natywne możliwości obliczeniowe przenoszenia danych między magazynami danych w chmurze w sposób bezpieczny, niezawodny i wydajny. Można ustawić, ile jednostek integracji danych ma być nych w działaniu kopiowania, a rozmiar obliczeniowy pamięci Azure IR jest skalowany elastycznie w górę bez konieczności jawnego dostosowania rozmiaru Azure Integration Runtime.

Wysyłanie działania jest lekką operacją do kierowania działania do docelowej usługi obliczeniowej, więc nie ma potrzeby skalowania w górę rozmiaru obliczeniowego dla tego scenariusza.

Aby uzyskać informacje na temat tworzenia i konfigurowania Azure IR, zobacz Jak utworzyć i skonfigurować Azure Integration Runtime.

Uwaga

Środowisko Azure Integration Runtime ma właściwości związane z usługą Data Flow runtime, które definiuje podstawową infrastrukturę obliczeniową, która będzie używana do uruchamiania przepływów danych.

Infrastruktura Integration Runtime (Self-hosted)

Infrastruktura IR (Self-hosted) oferuje następujące możliwości:

  • Uruchamianie działania kopiowania między magazynami danych w chmurze i magazynem danych w sieci prywatnej.
  • Wysyłanie następujących działań przekształcania względem zasobów obliczeniowych w środowisku lokalnym lub na platformie Azure Virtual Network: działanie programu Hive w usłudze HDInsight (BYOC-Bring Your Own Cluster), działanie HDInsight Pig (BYOC), działanie HDInsight MapReduce (BYOC), działanie HDInsight Spark (BYOC), działanie PRZESYŁANIA strumieniowego w usłudze HDInsight (BYOC), ML Studio (klasyczne) działanie Wykonanie wsadowe, ML Działania aktualizacji zasobów w programie Studio (klasyczne), działanie Stored Procedure (Procedura składowana), działanie Data Lake Analytics U-SQL, działanie niestandardowe (uruchamiane na Azure Batch), działanie Lookup (Wyszukiwania) i działanie Get Metadata (Pobierz metadane).

Uwaga

Użyj własnego środowiska Integration Runtime do obsługi magazynów danych, które wymagają własnego sterownika, takiego jak SAP Hana, MySQL itp. Aby uzyskać więcej informacji, zobacz obsługiwane magazyny danych.

Uwaga

Środowisko Java Runtime Environment (JRE) jest zależnością własnego środowiska IR. Upewnij się, że środowisko JRE jest zainstalowane na tym samym hoście.

Własne środowisko sieciowe IR

Jeśli chcesz bezpiecznie przeprowadzić integrację danych w prywatnym środowisku sieciowym, które nie ma bezpośredniego połączenia ze środowiskiem chmury publicznej, możesz zainstalować własne środowisko IR w środowisku lokalnym za zaporą lub w wirtualnej sieci prywatnej. Środowisko Integration Runtime (Self-hosted) tworzy tylko wychodzące połączenia HTTP z Internetem.

Zasoby obliczeniowe i skalowanie własnego środowiska IR

Instalowanie własnego środowiska IR na maszynie lokalnej lub maszynie wirtualnej w sieci prywatnej. Obecnie własne ir ir jest obsługiwane tylko w Windows operacyjnym.
W celu zapewnienia wysokiej dostępności i skalowalności można zmienić skalowanie środowiska IR (Self-hosted), łącząc wystąpienie logiczne z wieloma maszynami lokalnymi w trybie aktywny-aktywny. Aby uzyskać więcej informacji, zobacz artykuł na temat tworzenia i konfigurowania własnego ir ir (Self-hosted).

Azure SSIS Integration Runtime

Uwaga

Środowiska Azure SSIS Integration Runtime nie są obecnie obsługiwane w potokach usługi Synapse.

Aby zmniejszyć i przenieść obecne obciążenie SSIS, można utworzyć środowisko IR Azure-SSIS w celu natywnego wykonywania pakietów SSIS.

Środowisko sieciowe IR Azure-SSIS

Ten Azure-SSIS IR aprowizowany w sieci publicznej lub prywatnej. Dostęp do danych lokalnych jest obsługiwany przez Azure-SSIS IR do sieci wirtualnej, która jest połączona z siecią lokalną.

Zasoby obliczeniowe i skalowanie środowiska IR Azure-SSIS

Ten Azure-SSIS IR jest w pełni zarządzanym klastrem maszyn wirtualnych platformy Azure przeznaczonym do uruchamiania pakietów usług SSIS. Możesz użyć własnego wystąpienia Azure SQL Database lub SQL zarządzanego dla katalogu projektów/pakietów usług SSIS (SSISDB). Możesz skalować moc obliczeniową, określając rozmiar węzłów, a także liczbę węzłów w klastrze. Możesz zarządzać kosztami działania aplikacji, Azure-SSIS Integration Runtime i uruchamiając je zgodnie z wymaganiami.

Aby uzyskać więcej informacji, zobacz Jak utworzyć i skonfigurować Azure-SSIS IR. Po utworzeniu można wdrażać istniejące pakiety usług SSIS i zarządzać nimi bez żadnych zmian przy użyciu znanych narzędzi, takich jak SQL Server Data Tools (SSDT) i SQL Server Management Studio (SSMS), podobnie jak w przypadku korzystania z usług SSIS w środowisku lokalnym.

Aby uzyskać więcej informacji na temat środowiska uruchomieniowego Azure-SSIS, zobacz następujące artykuły:

Lokalizacja środowiska Integration Runtime

Relacja między lokalizacją fabryki i lokalizacją ir ir

Podczas tworzenia wystąpienia usługi Data Factory lub obszaru roboczego usługi Synapse należy określić jego lokalizację. Metadane dla wystąpienia są przechowywane w tym miejscu, a wyzwalanie potoku jest inicjowane z tego miejscu. Metadane są przechowywane tylko w wybranym regionie i nie będą przechowywane w innych regionach.

W międzyczasie potok może uzyskać dostęp do magazynów danych i usług obliczeniowych w innych regionach świadczenia usługi Azure w celu przenoszenia danych między magazynami danych lub przetwarzania danych przy użyciu usług obliczeniowych. To zachowanie jest wykonywane przez dostępne globalnie środowisko IR, co zapewnia zgodność danych, wydajność i niższe koszty wyjścia z sieci.

Lokalizacja ir (IR) definiuje lokalizację zasobów obliczeniowych na zakulicie oraz miejsce, w którym są wykonywane ruch danych, wysyłanie działań i wykonywanie pakietu SSIS. Lokalizacja IR może różnić się od lokalizacji Data Factory do której należy.

Lokalizacja środowiska IR Azure

Możesz ustawić region lokalizacji Azure IR, w którym to przypadku wykonanie działania lub wysłanie nastąpi w wybranym regionie.

Wartością domyślną jest automatyczne rozwiązywanie Azure IR w sieci publicznej. Przy użyciu tej opcji:

  • W przypadku działania kopiowania dołożmy wszelkich starań, aby automatycznie wykryć lokalizację magazynu danych ujścia, a następnie użyć ir w tym samym regionie, jeśli jest dostępny, lub najbliższym w tym samym obszarze geograficznym. W przeciwnym razie należy użyć tego samego regionu, jeśli jest dostępny, lub najbliższego w tym samym obszarze geograficznym. Jeśli region magazynu danych ujścia nie jest wykrywalny, zamiast tego jest używane ir w regionie wystąpienia.

    Na przykład w regionach Wschodnie Data Factory lub Synapse Workspace utworzono obszar roboczy

    • Jeśli podczas kopiowania danych do obiektu blob platformy Azure w regionie Zachodnie stany USA zostanie wykryty obiekt blob w regionie Zachodnie stany USA, działanie kopiowania jest wykonywane na ir w regionie Zachodnie stany USA. Jeśli wykrywanie regionów zakończy się niepowodzeniem, działanie kopiowania jest wykonywane na ir w regionie Wschodnie usa.
    • Podczas kopiowania danych do usługi Salesforce, dla których region nie jest wykrywalny, działanie kopiowania jest wykonywane na ir ir w regionie Wschodnie usa.

    Porada

    Jeśli masz rygorystyczne wymagania dotyczące zgodności danych i chcesz mieć pewność, że dane nie opuszczają określonej lokalizacji geograficznej, możesz jawnie utworzyć obiekt Azure IR w określonym regionie i wskazać połączonej usłudze to ir przy użyciu właściwości ConnectVia. Jeśli na przykład chcesz skopiować dane z obiektu blob w programie Południowe Zjednoczone Królestwo do obszaru roboczego usługi Azure Synapse na platformie Południowe Zjednoczone Królestwo i upewnić się, że dane nie opuszczają Zjednoczonego Królestwa, utwórz Azure IR w programie Południowe Zjednoczone Królestwo i połącz obie połączone usługi z tym środowiska IR.

  • W przypadku wykonywania działania Lookup/GetMetadata/Delete (działania potoku), wysyłania działań przekształcania (działania zewnętrzne) i operacji tworzenia (połączenie testowe, przeglądanie listy folderów i listy tabel oraz danych podglądu) używane jest ir w tym samym regionie co obszar roboczy usługi Data Factory lub usługi Synapse.

  • W przypadku Flow używane jest ir ir w regionie Data Factory lub obszaru roboczego synapse.

    Porada

    Najlepszym rozwiązaniem jest zapewnienie, że przepływy danych są uruchamiane w tym samym regionie co odpowiednie magazyny danych, gdy jest to możliwe. Można to osiągnąć za pomocą automatycznego rozwiązania dla usługi Azure IR (jeśli lokalizacja magazynu danych jest taka sama jak lokalizacja obszaru roboczego usługi Data Factory lub Synapse) albo przez utworzenie nowego wystąpienia usługi Azure IR w tym samym regionie co magazyny danych, a następnie wykonanie na nim przepływów danych.

Jeśli włączysz usługę Managed Virtual Network z automatycznym rozwiązaniem dla Azure IR, zostanie użyte Data Factory ir w regionie roboczym usługi Synapse.

Możesz monitorować, która lokalizacja środowiska IR ma wpływ podczas wykonywania działania w widoku monitorowania działania potoku w programie Data Factory Studio lub Synapse Studio lub w ładunku monitorowania aktywności.

Lokalizacja własnego środowiska IR

Własne ir ir (Self-hosted) jest logicznie rejestrowane w obszarze roboczym usługi Data Factory lub Synapse, a zasoby obliczeniowe używane do obsługi jego funkcji są udostępniane przez użytkownika. W związku z tym nie istnieje wyraźna właściwość lokalizacji środowiska IR (Self-hosted).

W przypadku zastosowania do wykonania przenoszenia danych, środowisko IR (Self-hosted) pobiera dane ze źródła i zapisuje je w miejscu docelowym.

Lokalizacja środowiska IR Azure-SSIS

Uwaga

Środowiska Azure SSIS Integration Runtime nie są obecnie obsługiwane w potokach usługi Synapse.

Wybór odpowiedniej lokalizacji dla środowiska IR Azure-SSIS jest kluczowy dla osiągnięcia wysokiej wydajności obciążeń wyodrębnianie-przekształcanie-ładowanie (ETL).

  • Lokalizacja serwera Azure-SSIS IR nie musi być taka sama jak lokalizacja serwera Data Factory, ale powinna być taka sama jak lokalizacja własnego wystąpienia zarządzanego usługi Azure SQL Database lub SQL, w którym znajduje się baza danych SSISDB. Dzięki temu Azure-SSIS Integration Runtime łatwo uzyskać dostęp do bazy danych SSISDB bez nadmiernego ruchu między różnymi lokalizacjami.
  • Jeśli nie masz istniejącego wystąpienia zarządzanego usługi SQL Database lub SQL, ale masz lokalne źródła/miejsca docelowe danych, utwórz nowe wystąpienie zarządzane usługi Azure SQL Database lub SQL w tej samej lokalizacji sieci wirtualnej połączonej z siecią lokalną. W ten sposób możesz utworzyć nową Azure-SSIS IR przy użyciu nowego Azure SQL Database lub SQL Managed Instance i dołączyć do tej sieci wirtualnej. Wszystko będzie w tej samej lokalizacji, minimalizując ruch danych i powiązane koszty, jednocześnie maksymalizując wydajność.
  • Jeśli lokalizacja istniejącego wystąpienia zarządzanego usługi Azure SQL Database lub SQL nie jest taka sama jak lokalizacja sieci wirtualnej połączonej z siecią lokalną, najpierw utwórz usługę Azure-SSIS IR przy użyciu istniejącego wystąpienia zarządzanego programu Azure SQL Database lub SQL i dołącz do innej sieci wirtualnej w tej samej lokalizacji. Następnie skonfiguruj połączenie sieci wirtualnej z siecią wirtualną między różnymi lokalizacjami.

Na poniższym diagramie przedstawiono ustawienia lokalizacji dla Data Factory i ich środowisk Integration Runtime:

Shows Data Factory integration runtime locations.

Wybór środowiska IR do użycia

Jeśli działanie jest kojarzące z więcej niż jednym typem środowiska Integration Runtime, zostanie ono rozwiązane do jednego z nich. Środowisko Integration Runtime (Self-hosted) ma pierwszeństwo przed środowiskiem Azure Integration Runtime w wystąpieniach Azure Data Factory lub obszaru roboczego usługi Synapse przy użyciu zarządzanej sieci wirtualnej. Te drugie mają pierwszeństwo przed globalnym środowiskiem Azure Integration Runtime.

Na przykład jedno działanie kopiowania służy do kopiowania danych ze źródła do ujścia. Globalne środowisko Integration Runtime platformy Azure jest skojarzone z połączoną usługą ze źródłem, a środowisko Azure Integration Runtime w zarządzanej sieci wirtualnej usługi Azure Data Factory jest kojarzone z połączoną usługą na użytek ujścia. Wynik jest taki, że połączone usługi źródła i ujścia używają środowiska Azure Integration Runtime w zarządzanej sieci wirtualnej usługi Azure Data Factory. Jeśli jednak środowisko Integration Runtime (Self-hosted) kojarzy połączoną usługę ze źródłem, połączona usługa źródłowa i ujścia używa własnego środowiska Integration Runtime.

Działanie kopiowania

Ta działanie Kopiuj wymaga, aby połączone usługi źródła i ujścia definiowały kierunek przepływu danych. Poniższa logika jest stosowana do określenia, które wystąpienie środowiska IR jest używane do wykonania kopii:

  • Kopiowanie między dwoma źródłami danych w chmurze: jeśli połączone usługi źródła i ujścia korzystają z usługi Azure IR, jest używany regionalny Azure IR, jeśli został określony, lub lokalizacja środowiska Azure IR jest automatycznie określana, czy wybrano opcję automatycznego rozpoznawania środowiska IR (wartość domyślna) zgodnie z opisem w sekcji Lokalizacja środowiska Integration Runtime.
  • Kopiowanie międzyźródłem danych w chmurze a źródłem danych w sieci prywatnej: jeśli połączona usługa źródła lub ujścia wskazuje własne ir ir, działanie kopiowania jest wykonywane na własnym poziomie IR.
  • Kopiowanie między dwoma źródłamidanych w sieci prywatnej: połączona usługa źródłowa i ujścia musi wskazać to samo wystąpienie środowiska Integration Runtime, a środowisko IR jest używane do wykonywania działania kopiowania.

Działanie wyszukiwania i uzyskiwania metadanych

Działanie wyszukiwania i uzyskiwania metadanych jest wykonywane w środowisku Integration Runtime skojarzonym z połączoną usługą magazynu danych.

Działanie przekształcania zewnętrznego

Każde zewnętrzne działanie przekształcania wykorzystujące zewnętrzny aparat obliczeniowy ma docelową usługę obliczeniową, która wskazuje na środowisko Integration Runtime. To wystąpienie ir ir określa lokalizację, z której jest wysyłane to zewnętrzne, ręcznie zakodowane działanie przekształcenia.

Działanie Flow danych

Działania Flow są wykonywane w skojarzonym środowisku Azure Integration Runtime. Obliczenia platformy Spark wykorzystywane przez przepływy danych są określane przez właściwości przepływu danych w Azure IR i są w pełni zarządzane przez usługę.

Integration Runtime w programie CI/CD

Środowiska Integration Runtime nie zmieniają się często i są podobne na wszystkich etapach w ramach twojej integracji/cd. Data Factory wymaga tej samej nazwy i typu środowiska Integration Runtime na wszystkich etapach ciasnych integracji/cd. Jeśli chcesz udostępnić środowiska Integration Runtime na wszystkich etapach, rozważ użycie fabryki trzyargowej tylko do obsługi współdzielonych środowisk Integration Runtime. Następnie możesz użyć tej udostępnionej fabryki we wszystkich środowiskach jako typu połączonego środowiska Integration Runtime.

Następne kroki

Zobacz następujące artykuły: