Integrációs modul az Azure Data Factoryban

a következőkre vonatkozik: Az Azure szinapszis Analytics Azure Data Factory

Az integrációs modul (Integration Runtime, IR), az Azure Data Factory által használt számítási infrastruktúra a következő adatintegrációs képességeket biztosítja különböző hálózati környezetekben:

  • Data Flow: Data Flow végrehajtása felügyelt Azure számítási környezetben.
  • Adatátmozgatás: Adatok másolása nyilvános hálózatban lévő adattárak és privát (helyszíni vagy virtuális magánhálózati) adattárai között. Támogatást biztosít a beépített összekötőkhöz, a formátum átalakításához, az oszlopleképezéshez és a nagy teljesítményű, méretezhető adatátvitelhez.
  • Tevékenység-küldő: Számos számítási szolgáltatáson ( például Azure Databricks, Azure HDInsight, Azure Machine Learning, Azure SQL Database, SQL Server és egyéb szolgáltatásokon futó átalakítási tevékenységeket küld és figyel.
  • SSIS-csomag végrehajtása: Natívan végrehajthat SQL Server Integration Services- (SSIS-) csomagokat egy Azure-beli felügyelt számítási környezetben.

A Data Factoryban a végrehajtandó műveletet egy tevékenység határozza meg. A társított szolgáltatások a céladattárat vagy a számítási szolgáltatást határozzák meg. Az integrációs modulok hídként szolgálnak a tevékenység és a társított szolgáltatások között. A hivatkozott szolgáltatás vagy tevékenység hivatkozik rá, és biztosítja azt a számítási környezetet, ahol a tevékenység fut, vagy ahonnan a tevékenység el lesz küldve. Ily módon a tevékenység végrehajtható a céladattárhoz vagy számítási szolgáltatáshoz lehető legközelebb eső régióban, a lehető leghatékonyabban, a biztonsági és megfelelőségi igényeknek is megfelelően.

Az integrációs Azure Data Factory a felügyeleti központon, valamint az azokat hivatkozó tevékenységeken, adatkészleten vagy adatfolyamon keresztül, a felhasználói felület felhasználói felületében is létre lehet hozva.

Integrációsmodul-típusok

Data Factory szolgáltatás háromféle Integration Runtime (IR) kínál, és azt a típust válassza, amely a legjobban kiszolgálja a keresett adatintegrációs képességeket és hálózati környezeteket. A három típus a következő:

  • Azure
  • Saját üzemeltetésű
  • Azure SSIS

Az alábbi táblázat ismerteti az integrációs modulok egyes típusainak képességeit és hálózati támogatását:

Integrációs modul típusa Nyilvános hálózat Magánhálózat
Azure Adatfolyam
Adatáthelyezés
Tevékenység küldése
Adatfolyam
Adatáthelyezés
Tevékenység küldése
Saját üzemeltetésű Adatáthelyezés
Tevékenység küldése
Adatáthelyezés
Tevékenység küldése
Azure SSIS SSIS-csomag végrehajtása SSIS-csomag végrehajtása

Azure-beli integrációs modul

Az Azure-beli integrációs környezetek a következő funkciókat használhatja:

  • Adatfolyamok futtatása az Azure-ban
  • Másolási tevékenység futtatása felhőalapú adattárak között
  • Küldje el a következő átalakítási tevékenységeket a nyilvános hálózatban: Databricks Notebook/ Jar/Python-tevékenység, HDInsight Hive-tevékenység, HDInsight Pig-tevékenység, HDInsight MapReduce-tevékenység, HDInsight Spark-tevékenység, HDInsight Streaming-tevékenység, Azure Machine Learning Studio (klasszikus) Batch Execution tevékenység, Azure Machine Learning Studio (klasszikus) Erőforrás frissítése tevékenységek, Tárolt eljárási tevékenység, Data Lake Analytics U-SQL-tevékenység, .NET egyéni tevékenység, Webes tevékenység, Keresési tevékenység és Metaadatok leése tevékenység.

Azure-beli integrációs modul hálózati környezete

Azure Integration Runtime támogatja az adattárakhoz való csatlakozást és a nyilvános végpontokkal számítási szolgáltatásokat. A felügyelt Virtual Network engedélyezése Azure Integration Runtime támogatja az adattárakhoz való csatlakozást privát kapcsolati szolgáltatás használatával magánhálózati környezetben.

Azure-beli integrációs modul számítási erőforrásai és skálázása

Az Azure-beli integrációs modul teljesen felügyelt, kiszolgáló nélküli számítást biztosít az Azure-ban. Nem kell az infrastruktúra kiépítése, a szoftvertelepítés, a javítás vagy a kapacitás skálázása miatt aggódnia. Ráadásul csak a tényleges használat időtartamára fizet.

Az Azure-beli integrációs modul biztosítja a natív számítást az adatok felhőalapú adattárak közötti biztonságos, megbízható és nagy teljesítményű módon való mozgatásához. Beállíthatja a másolási tevékenységhez használni kívánt adatintegrálási egységek mennyiségét, és az Azure IR számítási mérete rugalmasan felskálázható vertikálisan ennek megfelelően anélkül, hogy explicit módon módosítania kellene az Azure-beli integrációs modul méretét.

A tevékenység-küldő egy egyszerű művelet, amely a tevékenységet a cél számítási szolgáltatáshoz irányítja, így ehhez a forgatókönyvhöz nem szükséges a számítási méret felskálzása.

További információ a -kiszolgálók létrehozásáról és Azure IR létrehozásáról és konfigurálásról:Azure Integration Runtime.

Megjegyzés

Az Azure Integration Runtime data Flow-runtime-hoz kapcsolódó tulajdonságokkal rendelkezik, amely meghatározza az adatfolyamok futtatásához használt mögöttes számítási infrastruktúrát.

Saját üzemeltetésű integrációs modul

Egy saját üzemeltetésű IR a következőkre képes:

  • Másolási tevékenység futtatása felhőalapú adattárak és egy magánhálózaton lévő adattár között.
  • A következő átalakítási tevékenységek továbbítása a helyszíni vagy az Azure Virtual Network számítási erőforrásain: HDInsight Hive-tevékenység (BYOC-Bring Your Own Cluster), HDInsight Pig-tevékenység (BYOC), HDInsight MapReduce-tevékenység (BYOC), HDInsight Spark-tevékenység (BYOC), HDInsight Streaming-tevékenység (BYOC), Azure Machine Learning Studio (klasszikus) Batch Execution tevékenység, Azure Machine Learning Studio (klasszikus) Erőforrás-frissítési tevékenységei, Tárolt eljárási tevékenység, Data Lake Analytics U-SQL-tevékenység, Egyéni tevékenység (Azure Batch-on fut), Keresési tevékenység és Metaadatok bekeresése tevékenység.

Megjegyzés

Saját üzemeltetett integrációs környezet használata olyan adattárak támogatásához, amelyek saját illesztőt (például SAP Hana, MySQL stb.) igényelnek. További információ: támogatott adattárak.

Megjegyzés

Java Runtime Environment (JRE) a saját üzemeltetett integrációs modul függősége. Győződjön meg arról, hogy a JRE telepítve van ugyanazon a gazdagépen.

Saját üzemeltetésű integrációs modul hálózati környezete

Ha biztonságosan szeretne adatintegrációt végezni egy olyan magánhálózati környezetben, amely nem lát közvetlenül a nyilvános felhőkörnyezetből, telepíthet egy helyi integrációs szolgáltatást a vállalati tűzfal mögötti helyszíni környezetbe vagy egy virtuális magánhálózaton belül. A saját üzemeltetésű integrációs modul csak kimenő HTTP-alapú kapcsolatokat hoz létre az internet megnyitásához.

Saját üzemeltetésű integrációs modul erőforrásai és skálázása

Telepítse a helyi integrációs integrációs kiszolgálót egy helyszíni gépre vagy egy magánhálózaton belüli virtuális gépre. Jelenleg csak Windows operációs rendszeren támogatjuk a saját üzemeltetésű integrációs modulok futtatását.

A magas rendelkezésre állás és a méretezhetőség érdekében horizontálisan felskálázhatja saját üzemeltetésű integrációs modulját, ha több helyszíni géppel aktív-aktív módban társít hozzá egy logikai példányt. További információkért tekintse meg az útmutatók között a saját üzemeltetett integrációs integrációs rendszer létrehozása és konfigurálása cikket.

Azure-SSIS integrációs modul

A meglévő SSIS számítási feladat átemeléséhez létrehozhat egy Azure-SSIS integrációs modult az SSIS-csomagok natív létrehozásához.

Azure-SSIS integrációs modul hálózati környezete

Az Azure-SSIS integrációs modul kiépíthető nyilvános hálózaton vagy magánhálózaton is. A helyszíni adathozzáférés támogatása az Azure-SSIS integrációs modulnak a helyszíni hálózathoz csatlakoztatott virtuális hálózattal való összekapcsolása révén történik.

Azure-SSIS integrációs modul számítási erőforrásai és skálázása

Az Azure-SSIS integrációs modul egy, az SSIS-csomagok futtatására dedikált Azure-beli virtuális gépekből álló teljesen felügyelt fürt. Használhatja saját felügyelt Azure SQL Database vagy SQL SSIS-projektek/csomagok (SSISDB) katalógusát. A számítási teljesítmény vertikális felskálázásához adjon meg egy csomópontméretet, és skálázza fel horizontálisan a fürt csomópontszámának megadásával. Az Azure-SSIS integrációs modul futtatási költségének kezeléséhez igény szerint leállíthatja és elindíthatja azt.

További információkért tekintse meg az útmutatók között az Azure-SSIS integrációs modul létrehozását és konfigurálását ismertető cikket. Létrehozásukat követően kevés vagy szinte semmilyen módosítással, a helyszíni SSIS-csomagokkal megegyező módon üzembe helyezheti és kezelheti meglévő SSIS-csomagjait az olyan jól ismert eszközök használatával, mint az SQL Server Data Tools (SSDT) és az SQL Server Management Studio (SSMS).

Az Azure-SSIS integrációs modullal kapcsolatos további információkért tekintse át a következő cikkeket:

  • Oktatóanyag: SSIS-csomagok üzembe helyezése az Azure-ban. Ez a cikk lépésenként bevezető útmutatót tartalmaz egy Azure-SSIS IR létrehozásához, és egy Azure SQL Database az SSIS-katalógust.
  • Útmutató: Azure-SSIS integrációs modul létrehozása. Ez a cikk az oktatóanyagra terjed ki, és útmutatást nyújt a felügyelt SQL és az integrációs integrációs virtuális hálózathoz való csatlakozásához.
  • Azure-SSIS integrációs modul monitorozása. Ez a cikk bemutatja, hogyan kérhet le információkat egy Azure-SSIS integrációs modulról, és ismerteti a visszaadott információkban található állapotok leírását.
  • Azure-SSIS integrációs modul kezelése. Ez a cikk bemutatja, hogyan lehet leállítani, elindítani vagy eltávolítani egy Azure-SSIS integrációs modult. Azt is bemutathatja, hogyan skálázhatja fel horizontálisan az Azure-SSIS integrációs modult úgy, hogy további csomópontokat ad hozzá.
  • Azure-SSIS integrációs modul csatlakoztatása virtuális hálózathoz. Ez a cikk egy Azure-SSIS integrációs modul Azure virtuális hálózathoz való csatlakoztatásával kapcsolatos elméleti információkat tartalmaz. Azt is ismerteti, hogyan használható az Azure Portal a virtuális hálózat oly módon való konfigurálására, hogy az Azure-SSIS integrációs modul csatlakozhasson ahhoz.

Az integrációs modul helye

A gyári hely és az integrációs kapcsolat helye közötti kapcsolat

Amikor az ügyfél létrehoz egy data factory-példányt, meg kell adnia az adat-előállító helyét. A Data Factory ott található, ahol az adat-előállító metaadatait tárolja a rendszer, és ahonnan a folyamat aktiválása indul. A gyár metaadatai csak az ügyfél által választott régióban, más régiókban nem lesznek tárolva.

Az adat-előállító ilyenkor más Azure-régiókban lévő adattárakhoz és számítási szolgáltatásokhoz is hozzáférhet az adatok adattárak közötti áthelyezése vagy az adatok számítási szolgáltatásokkal történő feldolgozása érdekében. Ez a viselkedés az adatok megfelelősége, a hatékonyság és a hálózati kimeneti forgalmának alacsonyabb költségei érdekében a globálisan elérhető integrációs modulon keresztül valósul meg.

Az integrációs modul helye meghatározza a háttérszámítások helyét és azt a helyet, ahol az adatok áthelyezése, a tevékenységküldés és az SSIS-csomag végrehajtása történik. Az integrációs modul helye eltérhet annak az adat-előállítónak a helyétől, amelyhez tartozik.

Az Azure-beli integrációs modul helye

Beállíthatja egy adott helyként a Azure IR, amely esetben a tevékenység végrehajtása vagy kiküldése az adott régióban történik.

Ha úgy dönt, hogy az automatikus feloldás Azure IR a nyilvános hálózatban, amely az alapértelmezett beállítás,

  • A másolási tevékenység esetében az ADF mindent megtesz, hogy automatikusan észlelje a fogadó adattár helyét, majd használja az integrációs integrációs adatokat ugyanabban a régióban ( ha elérhető), vagy a legközelebbi régióban, ugyanabban a földrajzi helyen; ha a fogadó adattár régiója nem észlelhető, a rendszer alternatív megoldásként az integrációs integrációs adatokat használja az adat-előállító régióban.

    Tegyük fel például, hogy az USA keleti részén hozta létre a gyárat,

    • Ha az adatokat az USA nyugati részén található Azure Blobba másolja, és az ADF sikeresen észlelte, hogy a blob az USA nyugati régiója, a másolási tevékenység az USA nyugati részén található integrációs integrációs szolgáltatáson lesz végrehajtva; Ha a régió észlelése sikertelen, a másolási tevékenység az USA keleti régiójában található integrációs integrációs kapcsolaton lesz végrehajtva.
    • Ha olyan Salesforce-fiókba másol adatokat, amelyek régiója nem észlelhető, a másolási tevékenység az USA keleti régiójában található integrációs egységen lesz végrehajtva.

    Tipp

    Ha adatmegfelelőségi követelmények szigorúak, és biztosítania kell, hogy az adatok nem hagynak el egy adott földrajzi helyet, az adott régióban létrehozhat egy Azure-beli integrációs modult, és a ConnectVia tulajdonság használatával ehhez irányíthatja a társított szolgáltatást. Ha például az Egyesült Királyság déli régiója-beli blobból szeretne adatokat másolni az Egyesült Királyság déli régiója-ban található Azure Synapse Analytics-be, és biztosítani szeretné, hogy az adatok ne hagyják el az Egyesült Királyságot, hozzon létre egy Azure IR-t az Egyesült Királyság déli régiója-ban, és csatolja mindkét csatolt szolgáltatást ehhez az integrációs Egyesült Királyság déli régiója-hez.

  • A Lookup/GetMetadata/Delete tevékenységvégrehajtáshoz (más néven folyamattevékenységek), átalakítási tevékenységek elküldéséhez (más néven külső tevékenységekhez) és szerzői műveletekhez (tesztkapcsolat, mappalista és táblalista tallózása, előzetes verziójú adatok), az ADF az integrációs integrációs adatokat használja az adat-előállító régióban.

  • A Data Flow esetében az ADF az integrációs integrációs adatokat használja az adat-előállító régióban.

    Tipp

    Az adatfolyamot (ha lehetséges) a megfelelő adattárral azonos régióban kell lefutni. Ezt az Azure IR automatikus feloldásával érheti el (ha az adattár helye megegyezik Data Factory helyével), vagy egy új Azure IR-példányt hoz létre az adattárral azonos régióban, majd végrehajtja rajta az adatfolyamot.

Ha engedélyezi a felügyelt Virtual Network az automatikus feloldás Azure IR, az ADF az integrációs adatokat az adat-előállító régióban használja.

A folyamattevékenységek monitorozása nézetben a felhasználói felületen vagy a tevékenységfigyelés hasznos adatainál figyelemmel követheti, melyik integrációs modul lép életbe a tevékenység végrehajtása során.

A saját üzemeltetésű integrációs modul helye

A saját üzemeltetésű integrációs modul logikailag van regisztrálva a Data Factoryban, és a funkciók támogatásához használt számítást meg kell adnia. Ezért a saját üzemeltetésű integrációs modulok esetében nincs explicit hely tulajdonság.

Ha adatmozgás végrehajtásához használja, a saját üzemeltetésű integrációs modul kinyeri az adatokat a forrásból, és a célra írja.

Az Azure-SSIS integrációs modul helye

Az Azure-SSIS integrációs modul számára a megfelelő helyet kiválasztása az ETL folyamatokban létfontosságú a magas teljesítmény eléréséhez.

  • A Azure-SSIS IR helyének nem kell azonosnak lennie az adat-előállító helyével, de meg kell egy lennie a saját Azure SQL Database SQL vagy felügyelt példány helyével, ahol az SSISDB található. Ily módon az Azure-SSIS integrációs modul könnyen hozzáfér az SSISDB-hez anélkül, hogy jelentős adatforgalom zajlana különböző helyek között.
  • Ha nincs meglévő SQL Database- vagy SQL-példánya, de helyszíni adatforrásokkal/célokkal is, hozzon létre egy új Azure SQL Database SQL- vagy felügyelt példányt a helyszíni hálózathoz csatlakoztatott virtuális hálózat ugyanazon a helyén. Így létrehozhatja a Azure-SSIS IR-t az új Azure SQL Database vagy SQL Managed Instance használatával, és a virtuális hálózathoz csatlakozva – mindezt ugyanazon a helyen – hatékonyan minimalizálhatja a különböző helyek közötti adatmozgást.
  • Ha a meglévő Azure SQL Database SQL vagy felügyelt példány helye nem azonos a helyszíni hálózathoz csatlakoztatott virtuális hálózat helyével, először hozza létre a Azure-SSIS IR-t egy meglévő Azure SQL Database SQL vagy felügyelt példány használatával, és csatlakozzon egy másik virtuális hálózathoz ugyanazon a helyen, majd konfigurálja a virtuális hálózat és a különböző helyek közötti virtuális hálózati kapcsolatot.

Az alábbi ábrán a Data Factory és a hozzá tartozó integrációs modul beállításai találhatók:

Az integrációs modul helye

A használandó integrációs modul meghatározása

Ha egy data factory-tevékenység több integrációskörnyezet-típushoz is társítva van, akkor az egyiket oldja fel. A saját üzemeltetett integrációs környezet elsőbbséget élvez az Azure integrációs Azure Data Factory felügyelt virtuális hálózatban. Az utóbbi pedig elsőbbséget élvez a nyilvános Azure-integrációs környezettel. Például egy másolási tevékenységgel másolhat adatokat a forrásból a fogadóba. A nyilvános Azure-integrációs környezet a forráshoz társított szolgáltatáshoz van társítva, egy felügyelt virtuális hálózatban lévő Azure-integrációs környezet pedig társítva van Azure Data Factory fogadó társított szolgáltatásával, az eredmény pedig az, hogy Azure Data Factory forrás- és fogadó társított szolgáltatás is Azure-integrációs futtatásokat használ egy felügyelt virtuális hálózatban. Ha azonban egy saját üzemeltetett integrációs környezet társítja a forráshoz a csatolt szolgáltatást, akkor a forrás- és fogadó csatolt szolgáltatás is saját által üzemeltetett integrációs runtime-t használ.

Másolási tevékenység

A másolási tevékenységhez szükséges egy forrás és fogadó társított szolgáltatás az adatfolyam irányának meghatározására. A rendszer az alábbi logikával határozza meg, melyik integrációsmodell-példányt használja a másolás végrehajtásához:

  • Másolás két felhőalapú adatforrás között: ha a forrás és a fogadó csatolt szolgáltatás is Azure IR-t használ, az ADF a regionális Azure IR-t használja, ha ön adja meg, vagy automatikusan meghatározza a Azure IR helyét, ha az integrációs környezet helyével kapcsolatos szakaszban leírtak szerint az automatikus feloldott integrációs Azure IR-t (alapértelmezett) választja.
  • Egy felhőalapú adatforrás és egy magánhálózaton lévő adatforrás közötti másolás: ha a forrás vagy a fogadó társított szolgáltatása egy saját üzemeltetésű integrációs modulra mutat, a rendszer azon a saját üzemeltetésű integrációs modulon hajtja végre a másolási tevékenységet.
  • Másolás két magánhálózati adatforrás között: a forrás és a fogadó csatolt szolgáltatásnak is ugyanannak az integrációskörnyezet-példánynak kell lennie, és a másolási tevékenység végrehajtásához az integrációs futásidő használatos.

Keresési és metaadat-beolvasási tevékenység

A keresési és metaadat-beolvasási tevékenységet a rendszer az adattár társított szolgáltatásához rendelt integrációs modulon hajtja végre.

Külső átalakítási tevékenység

Minden külső számítási motort kihasználó külső átalakítási tevékenység rendelkezik egy cél számítási csatolt szolgáltatással, amely egy integrációs környezetre mutat. Ez az integrációskörnyezet-példány határozza meg a helyet, ahonnan a külső kézzel kódolt átalakítási tevékenység el lesz küldve.

Adat Flow tevékenység

Az Flow tevékenységek végrehajtása a társított Azure-integrációs runtime-on lesz végrehajtva. Az adatfolyamok által használt Spark-számítást az adatforgalom tulajdonságai határozzák meg Azure Integration Runtime és az ADF teljes mértékben kezeli.

Következő lépések

Lásd az alábbi cikkeket: