Prostředí Integration Runtime v Azure Data Factory
PLATÍ PRO:
Azure Data Factory
Azure Synapse Analytics
Integration Runtime (IR) je výpočetní infrastruktura, kterou používají Azure Data Factory a kanály Azure Synapse k tomu, aby poskytovaly následující možnosti integrace dat napříč různými síťovými prostředími:
- data Flow: spuštění Flow dat ve spravovaném prostředí Azure compute.
- Přesun dat: kopírování dat napříč úložišti dat ve veřejné síti a úložištích dat v privátní síti (místní nebo virtuální privátní síť). Poskytuje podporu vestavěných konektorů, převodu formátu, mapování sloupců a výkonného a škálovatelného přenosu dat.
- odesílání aktivit: odesílání a sledování aktivit transformace spuštěných v různých výpočetních službách, jako je Azure Databricks, Azure HDInsight, ML Studio (classic), Azure SQL Database, SQL Server a další.
- Spouštění balíčků služby SSIS: nativní spouštění balíčků služby SQL Server Integration Services (SSIS) ve spravovaném výpočetním prostředí Azure.
V kanálech Data Factory a synapse definuje aktivita akci, která se má provést. Propojená služba určuje cílové úložiště dat nebo výpočetní službu. Prostředí Integration Runtime představuje spojení mezi aktivitou a propojenými službami. Na ni odkazuje propojená služba nebo aktivita a poskytuje výpočetní prostředí, ve kterém se aktivita buď spustí, nebo se z něj odešle. Tímto způsobem se dá aktivita co nejefektivněji provést v oblasti, která je nejblíž cílovému úložišti dat nebo výpočetní službě, a zároveň vyhovět potřebám zabezpečení a dodržování předpisů.
Prostředí Integration runtime se dají vytvořit v Azure Data Factory a uživatelském rozhraní synapse Azure prostřednictvím centra pro správu a všech aktivit, datových sad nebo toků, které na ně odkazují.
Typy prostředí Integration Runtime
Data Factory nabízí tři typy Integration Runtime (IR) a měli byste zvolit typ, který nejlépe obsluhuje možnosti integrace dat a síťové prostředí, které hledáte. Jedná se o tyto tři typy:
- Azure
- V místním prostředí
- Azure-SSIS
Poznámka
Kanály synapse aktuálně podporují pouze prostředí Integration runtime v Azure nebo v místním prostředí.
Následující tabulka obsahuje informace o podpoře funkcí a sítí pro každý typ prostředí Integration Runtime:
| Typ prostředí IR | Veřejná síť | Privátní síť |
|---|---|---|
| Azure | Data Flow Přesuny dat Odesílání aktivit |
Data Flow Přesuny dat Odesílání aktivit |
| V místním prostředí | Přesuny dat Odesílání aktivit |
Přesuny dat Odesílání aktivit |
| Azure-SSIS | Spouštění balíčků služby SSIS | Spouštění balíčků služby SSIS |
Prostředí Azure Integration Runtime
Prostředí Azure Integration runtime může:
- Spouštění toků dat v Azure
- Spustit aktivitu kopírování mezi úložišti cloudových dat
- odeslání následujících transformačních aktivit ve veřejné síti: datacihly/aktivita Jar/Jar/Python, aktivita pro podregistr hdinsight, aktivita prasete v hdinsight, aktivita pro MapReduce hdinsight, aktivita hdinsight Spark, aktivita pro streamování hdinsight, aktivita streamování hdinsight, aktivita v ML Studio (classic), aktivita spouštění v rámci dávkového U-SQL Data Lake Analytics řízení ML Studio, aktivita pro aktivity na webu, aktivita hledání
Síťové prostředí Azure IR
Azure Integration Runtime podporuje připojení k úložištím dat a výpočetní služby s veřejnými dostupnými koncovými body. Povolení spravovaných Virtual Network Azure Integration Runtime podporuje připojení k úložištím dat pomocí služby privátního propojení v prostředí privátní sítě.
Výpočetní prostředky a škálování prostředí Azure IR
Prostředí Azure Integration Runtime poskytuje v rámci Azure plně spravované výpočetní prostředí bez serveru. Nemusíte si dělat starosti se zřizováním infrastruktury, instalací softwaru, opravami nebo škálováním kapacity. Kromě toho platíte jenom po dobu, kdy prostředí opravdu používáte.
Prostředí Azure Integration Runtime poskytuje nativní výpočetní prostředí pro zabezpečené, spolehlivé a vysoce výkonné přesuny dat mezi cloudovými úložišti dat. Můžete nastavit počet jednotek integrace dat, který se má použít v aktivitě kopírování, a velikost výpočetních prostředků Azure IR se elasticky vertikálně navýší, aniž byste museli velikost prostředí Azure Integration Runtime explicitně upravovat.
Odeslání aktivity je odlehčená operace pro směrování aktivity do cílové výpočetní služby, takže nemusíte škálovat výpočetní velikost pro tento scénář.
Informace o vytváření a konfiguraci Azure IR najdete v tématu jak vytvořit a nakonfigurovat Azure Integration runtime.
Poznámka
prostředí Azure integration runtime má vlastnosti související s daty Flow runtime, které definují základní výpočetní infrastrukturu, která by se použila ke spouštění toků dat.
Prostředí Integration Runtime v místním prostředí
Prostředí IR v místním prostředí nabízí tyto funkce:
- Spouštění aktivity kopírování mezi úložišti dat v cloudu a úložištěm dat v privátní síti.
- odesílání následujících transformačních aktivit pro výpočetní prostředky v místním prostředí nebo Azure Virtual Network: aktivita podregistru HDInsight (BYOC-přineste si vlastní Cluster), aktivita prasete v hdinsight (BYOC), hdinsight MapReduce aktivita (BYOC), aktivita hdinsight Spark (BYOC), aktivita streamování hdinsight (BYOC), ML Studio (classic) aktivita spuštění dávky, ML Studio (classic) aktualizace aktivit prostředků, aktivita uložených procedur, Data Lake Analytics U-SQL aktivita, vlastní aktivita (běží na Azure Batch), aktivita vyhledávání a aktivita získání metadat.
Poznámka
Pomocí místního prostředí Integration runtime můžete podporovat úložiště dat, která vyžadují vlastní ovladač, jako je SAP HANA, MySQL atd. Další informace najdete v tématu podporovaná úložiště dat.
Poznámka
Java Runtime Environment (JRE) je závislost samostatně hostovaného IR. Ujistěte se prosím, že máte JRE nainstalované na stejném hostiteli.
Síťové prostředí místního prostředí IR
Pokud chcete integrovat data bezpečně v prostředí privátní sítě, které nemá přímý dohled nad veřejným cloudovým prostředím, můžete nainstalovat místní prostředí IR v místním prostředí za vaší firemní bránou firewall nebo do virtuální privátní sítě. Prostředí Integration Runtime v místním prostředí navazuje jenom odchozí připojení HTTP do otevřeného internetu.
Výpočetní prostředky a škálování místního prostředí IR
Instalace prostředí IR v místním prostředí v místním počítači nebo virtuálním počítači v privátní síti. V současné době podporujeme spouštění prostředí IR v místním prostředí jenom v operačním systému Windows.
Za účelem vysoké dostupnosti a škálovatelnosti můžete horizontálně navýšit kapacitu prostředí IR v místním prostředí tak, že logickou instanci přidružíte k víc místním počítačům v režimu aktivní-aktivní. Další informace najdete v tématu Postup Vytvoření a konfigurace místního hostovaného článku v části Návod k zobrazení podrobností.
Prostředí Azure-SSIS Integration Runtime
Poznámka
Prostředí Azure-SSIS Integration runtime se v kanálech synapse aktuálně nepodporují.
Pokud chcete navýšit a přesunout stávající úlohy služby SSIS, můžete vytvořit prostředí Azure SSIS IR pro nativní spouštění balíčků služby SSIS.
Síťové prostředí Azure-SSIS IR
Prostředí Azure-SSIS IR se dá zřídit ve veřejné síti nebo privátní síti. Připojením prostředí Azure-SSIS IR k virtuální síti připojené k vaší místní síti se dá získat podpora přístupu k místním datům.
Výpočetní prostředky a škálování prostředí Azure-SSIS IR
Prostředí Azure-SSIS IR je plně spravovaný cluster virtuálních počítačů Azure vyhrazených ke spouštění balíčků služby SSIS. můžete využít vlastní Azure SQL Database nebo SQL spravovanou instanci pro katalog projektů a balíčků SSIS (SSISDB). Můžete vertikálně navýšit výkon výpočetního prostředí tím, že určíte velikost uzlu a pak určíte počet uzlů v clusteru. Prostředí Azure-SSIS Integration Runtime můžete podle libosti zastavovat a spouštět, takže můžete mít pod kontrolou související náklady.
Další informace najdete v článku o vytváření a konfiguraci prostředí Azure-SSIS IR mezi příručkami s postupy. Po vytvoření můžete existující balíčky služby SSIS nasazovat a spravovat s minimem změn pomocí známých nástrojů, jako jsou SQL Server Data Tools (SSDT) a SQL Server Management Studio (SSMS), stejně jako kdybyste službu SSIS používali místně.
Další informace o modulu runtime Azure-SSIS najdete v následujících článcích:
- Kurz: Nasazení balíčků SSIS do Azure tento článek obsahuje podrobné pokyny k vytvoření Azure-SSIS IR a používá Azure SQL Database k hostování katalogu SSIS.
- Postup: Vytvoření prostředí Azure-SSIS Integration Runtime tento článek se rozbalí v tomto kurzu a poskytne pokyny k používání SQL spravované Instance a připojení IR k virtuální síti.
- Monitorování Azure-SSIS IR. Tento článek ukazuje, jak načíst informace o Azure-SSIS IR a popisy stavů ve vrácených informacích.
- Správa Azure-SSIS IR. Tento článek ukazuje, jak zastavit, spustit nebo odebrat Azure-SSIS IR. Ukazuje také postup horizontálního navýšení kapacity Azure-SSIS IR přidáním více uzlů.
- Připojení Azure-SSIS IR k virtuální síti. Tento článek obsahuje koncepční informace o připojení Azure-SSIS IR k virtuální síti Azure. Poskytuje také kroky pro využití webu Azure Portal ke konfiguraci virtuální sítě, aby se k ní prostředí Azure-SSIS IR mohlo připojit.
Umístění prostředí Integration Runtime
Vztah mezi umístěním továrny a umístěním IR
Když zákazník vytvoří instanci Data Factory, musí zadat umístění pro pracovní prostor Data Factory nebo synapse. Metadata pro Data Factory nebo pracovní prostor synapse se tady ukládají a Trigger kanálu se iniciuje tady. Metadata se ukládají jenom v oblasti výběru zákazníka a nebudou se ukládat v jiných oblastech.
Azure Data Factory nebo kanál Azure synapse má přístup k úložištím dat a výpočetním službám v jiných oblastech Azure za účelem přesouvání dat mezi úložišti dat nebo zpracování dat pomocí výpočetních služeb. Toto chování probíhá prostřednictvím globálně dostupného prostředí IR, aby se zajistilo dodržování předpisů pro data, efektivita a nižší náklady na celkový výstup sítě.
Umístění prostředí IR určuje umístění výpočetního prostředí back-end, tedy v podstatě umístění, kde se provádí přesun dat, odesílání aktivit a spouštění balíčku SSIS. Umístění INFRAČERVENého prostředí se může lišit od umístění Data Factory, do kterého patří.
Umístění prostředí Azure IR
Můžete nastavit určité umístění Azure IR. v takovém případě se spuštění nebo odeslání aktivity provede v konkrétní oblasti.
Pokud se rozhodnete použít Azure IR automatického řešení ve veřejné síti, což je výchozí nastavení,
Pro aktivitu kopírování je k dispozici nejlepší úsilí k automatickému zjištění umístění úložiště dat jímky, pak použít IR v buď ve stejné oblasti, je-li k dispozici, nebo co nejblíže stejné geografické oblasti. Pokud oblast úložiště dat jímky není zjistitelná, použije se jako alternativa možnost IR v Data Factory oblasti.
Máte například Data Factory nebo byl pracovní prostor synapse vytvořen v Východní USA.
- Při kopírování dat do objektu blob Azure v Západní USA, pokud je v Západní USA zjištěn objekt blob, aktivita kopírování se spouští na portu IR v Západní USA; Pokud se detekce oblasti nezdařila, aktivita kopírování se spustí v prostředí IR v Východní USA.
- Při kopírování dat do Salesforce, u kterých není oblast zjistitelná, se aktivita kopírování spustí na IR v Východní USA.
Tip
Pokud máte přísné požadavky na dodržování předpisů pro data a potřebujete zajistit, aby data neopustila určité území, můžete prostředí Azure IR explicitně vytvořit v určité oblasti a odkázat propojenou službu na toto prostředí IR pomocí vlastnosti ConnectVia. Pokud třeba chcete kopírovat data z objektu BLOB v Velká Británie – jih do služby Azure synapse Analytics v Velká Británie – jih a chcete zajistit, aby data nezůstala Velká Británie, vytvořte v Velká Británie – jih Azure IR a propojte obě propojené služby s tímto IR.
V případě, že se používá hledání/GetMetadata/odstranění aktivity (označuje se také jako aktivity kanálu), převod aktivity transformace (označované také jako externí aktivity) a vytváření operací (testovací připojení, seznam složek a seznam tabulek, náhled dat), je použit infračervený ve stejné oblasti jako Data Factory nebo pracovní prostor synapse.
v případě datových Flow se používá IR v oblasti Data Factory nebo Synapse pracovního prostoru.
Tip
Dobrým postupem je zajistit, aby tok dat běžel ve stejné oblasti jako vaše odpovídající úložiště dat (Pokud je to možné). Můžete to dosáhnout buď automatickým přeložením Azure IR (Pokud je umístění úložiště dat stejné jako Data Factory nebo synapse pracovní prostor), nebo vytvořením nové instance Azure IR ve stejné oblasti jako úložiště dat a následným spuštěním toku dat.
Pokud povolíte možnost spravované Virtual Network pro automatické řešení Azure IR, použije se v oblasti Data Factory nebo oblast pracovního prostoru synapse.
V zobrazení monitorování aktivit kanálu v uživatelském rozhraní nebo datové části monitorování aktivit můžete monitorovat, které umístění prostředí IR se při provádění aktivit použije.
Umístění místního prostředí IR
Místní prostředí IR je logicky registrováno v pracovním prostoru Data Factory nebo synapse a výpočetní prostředí, které se používá k podpoře jeho funkcí, vám poskytne. Proto pro prostředí IR v místním prostředí neexistuje žádná explicitní vlastnost umístění.
Pokud se prostředí IR v místním prostředí používá k provádění přesunu dat, extrahuje data ze zdroje a zapisuje je do cíle.
Umístění prostředí Azure-SSIS IR
Poznámka
Prostředí Azure-SSIS Integration runtime se v kanálech synapse aktuálně nepodporují.
Pro vysoký výkon pracovních postupů extrakce, transformace a načítání (ETL) je velmi důležitý výběr správného umístění prostředí Azure-SSIS IR.
- umístění vašeho Azure-SSIS IR nemusí být stejné jako umístění vašeho Data Factory, ale mělo by to být stejné jako umístění vlastního Azure SQL Database nebo SQL Managed Instance, kde SSISDB. Díky tomu může prostředí Azure-SSIS Integration Runtime snadno získat přístup ke službě SSISDB bez nadměrných přenosů dat mezi různými umístěními.
- pokud nemáte existující SQL Database nebo SQL spravovanou instanci, ale máte místní zdroje dat nebo cíle, měli byste vytvořit novou Azure SQL Database nebo SQL spravovanou instanci ve stejném umístění jako virtuální síť připojená k vaší místní síti. tímto způsobem můžete vytvořit Azure-SSIS IR pomocí nové Azure SQL Database nebo SQL spravované Instance a připojit se k této virtuální síti, a to všechno ve stejném umístění a efektivně tak minimalizovat přesuny dat mezi různými umístěními.
- pokud umístění vaší existující Azure SQL Database nebo SQL spravované Instance není stejné jako umístění virtuální sítě připojené k vaší místní síti, vytvořte nejprve Azure-SSIS IR pomocí existující Azure SQL Database nebo SQL spravované Instance a připojení k jiné virtuální síti ve stejném umístění a pak nakonfigurujte virtuální síť na připojení k virtuální síti mezi různými umístěními.
Následující diagram znázorňuje nastavení umístění služby Data Factory a jejích prostředí Integration Runtime:
Určení toho, které prostředí IR používat
Je-li aktivita přidružena k více než jednomu typu prostředí Integration runtime, bude přehodnocena na jednu z nich. Místní prostředí Integration runtime má přednost před prostředím Azure Integration runtime v Azure Data Factory nebo synapse pracovní prostory pomocí spravované virtuální sítě. A druhá má přednost před globálním prostředím Azure Integration runtime.
Například jedna aktivita kopírování se používá ke kopírování dat ze zdroje do jímky. Globální prostředí Azure Integration runtime je přidruženo k této propojené službě ke zdroji a prostředí Azure Integration runtime v Azure Data Factory spravovaná služba Virtual Network přidružuje s propojenou službou pro jímku. Výsledkem je, že zdrojová i jímka propojená služba využívá Azure Integration runtime v Azure Data Factory nebo synapse pracovní prostory pomocí spravované virtuální sítě. Pokud ale místní prostředí Integration runtime přidruží propojenou službu ke zdroji, pak zdrojová i propojená služba využívají modul Integration runtime v místním prostředí.
Aktivita kopírování
V případě aktivity kopírování jsou zapotřebí služby propojené se zdrojem a jímkou, které určují směr toku dat. Pomocí následující logiky se dá určit, která instance prostředí Integration Runtime se ke kopírování používá:
- Kopírování mezi dvěma datovými zdroji cloudu: pokud je Azure IR zdrojová i jímka propojená, použije se místní Azure IR, pokud byla zadána, Azure IR nebo pokud je zvolena možnost automaticky přeložit IR (výchozí), jak je popsáno v části umístění prostředí Integration runtime .
- Kopírování mezi cloudovým zdrojem dat a zdrojem dat v privátní síti: Pokud služba propojená se zdrojem nebo jímkou odkazuje na prostředí IR v místním prostředí, aktivita kopírování se provádí v prostředí Integration Runtime v místním prostředí.
- Kopírování mezi dvěma zdroji dat v privátní síti: zdrojová i propojená služba musí odkazovat na stejnou instanci prostředí Integration runtime a k provedení aktivity kopírování se používá modul runtime integrace.
Aktivity Lookup a GetMetadata
Aktivity Lookup a GetMetadata se provádí v prostředí Integration Runtime přidruženém k propojené službě úložiště dat.
Externí aktivita transformace
Každá externí aktivita transformace, která využívá externí výpočetní modul, má cílovou výpočetní propojenou službu, která odkazuje na prostředí Integration runtime. Tato instance prostředí Integration runtime určuje umístění, ze kterého je odeslána aktivita převodu na externí ruku.
aktivita Flow dat
aktivity Flow dat se spouštějí v prostředí Azure integration runtime, které jsou k němu přidružené. Výpočetní výkon využívaný pomocí datových toků závisí na vlastnostech toku dat ve vašem Azure Integration Runtime a jsou plně spravovány pomocí ADF.
Další kroky
Viz následující články:
- Vytvoření prostředí Azure Integration runtime
- Vytvoření prostředí Integration Runtime v místním prostředí
- Vytvoření prostředí Azure-SSIS Integration Runtime. tento článek se rozbalí v tomto kurzu a poskytne pokyny k používání SQL spravované Instance a připojení IR k virtuální síti.