Integrációs modul az Azure Data Factoryban
A KÖVETKEZŐKRE VONATKOZIK:
Azure Data Factory Azure Synapse Analytics
A Integration Runtime (IR) az a számítási infrastruktúra, amelyet a Azure Data Factory és Azure Synapse folyamatok a következő adatintegrációs képességek biztosítására használnak különböző hálózati környezetekben:
- Adatfolyam: Adatfolyam végrehajtása felügyelt Azure számítási környezetben.
- Adatáthelyezés: Adatok másolása nyilvános vagy magánhálózatok adattárai között (helyszíni vagy virtuális magánhálózatok esetében egyaránt). A szolgáltatás támogatja a beépített összekötőket, a formátumátalakítást, az oszlopleképezést, valamint a nagy teljesítményű és méretezhető adatátvitelt.
- Tevékenységküldés: Különböző számítási szolgáltatásokon , például az Azure Databricks-on, az Azure HDInsighton, a ML Studióban (klasszikus), Azure SQL Database, SQL Server stb. futó átalakítási tevékenységek küldése és monitorozása.
- SSIS-csomag végrehajtása: Natívan végrehajthat SQL Server Integration Services- (SSIS-) csomagokat egy Azure-beli felügyelt számítási környezetben.
A Data Factory- és Synapse-folyamatokban egy tevékenység határozza meg a végrehajtandó műveletet. A társított szolgáltatások a céladattárat vagy a számítási szolgáltatást határozzák meg. Az integrációs modul hídként szolgál a tevékenységek és a társított szolgáltatások között. A társított szolgáltatás vagy tevékenység hivatkozik rá, és azt a számítási környezetet biztosítja, ahol a tevékenység közvetlenül fut vagy el van küldve. Ez lehetővé teszi a tevékenység végrehajtását a céladattárhoz vagy számítási szolgáltatáshoz legközelebbi régióban a teljesítmény maximalizálása érdekében, ugyanakkor rugalmasságot biztosít a biztonsági és megfelelőségi követelmények teljesítéséhez.
Az integrációs futtatókörnyezetek közvetlenül a felügyeleti központon keresztül hozhatók létre a Azure Data Factory és Azure Synapse felhasználói felületen, valamint az azokra hivatkozó tevékenységekből, adatkészletekből vagy adatfolyamokból.
Integrációsmodul-típusok
A Data Factory háromféle Integration Runtime (IR) kínál, és válassza ki azt a típust, amely a legjobban megfelel az adatintegrációs képességeknek és a hálózati környezeti követelményeknek. Az integrációs modul három típusa:
- Azure
- Saját üzemeltetésű
- Azure SSIS
Megjegyzés
A Synapse-folyamatok jelenleg csak az Azure- vagy a saját üzemeltetésű integrációs modulokat támogatják.
Az alábbi táblázat ismerteti az integrációs modulok egyes típusainak képességeit és hálózati támogatását:
| Integrációs modul típusa | Nyilvános hálózati támogatás | Private Link támogatás |
|---|---|---|
| Azure | Adatfolyam Adatáthelyezés Tevékenység küldése |
Adatfolyam Adatáthelyezés Tevékenység küldése |
| Saját üzemeltetésű | Adatáthelyezés Tevékenység küldése |
Adatáthelyezés Tevékenység küldése |
| Azure SSIS | SSIS-csomag végrehajtása | SSIS-csomag végrehajtása |
Megjegyzés
A kimenő vezérlők szolgáltatásonként változnak az Azure integrációs modul esetében. A Synapse-ban a munkaterületek az Azure integrációs modul használatakor korlátozhatják a felügyelt virtuális hálózat kimenő forgalmát. A Data Factoryben az azure-beli integrációs modul használatakor minden port nyitva van a kimenő kommunikációhoz . Azure-SSIS IR integrálható a virtuális hálózattal a kimenő kommunikációs vezérlők biztosítása érdekében.
Azure-beli integrációs modul
Az Azure integrációs modulja a következő lehetőségeket biztosítja:
- Adatfolyamok futtatása az Azure-ban
- Másolási tevékenységek futtatása felhőbeli adattárak között
- Kézbesítse a következő átalakítási tevékenységeket egy nyilvános hálózaton: Databricks Notebook/Jar/Python tevékenység, HDInsight Hive-tevékenység, HDInsight Pig-tevékenység, HDInsight MapReduce-tevékenység, HDInsight Spark-tevékenység, HDInsight Streaming-tevékenység, ML Studio (klasszikus) kötegelt végrehajtási tevékenysége, ML Studio (klasszikus) frissítési erőforrás-tevékenységei, Tárolt eljárás tevékenység, Data Lake Analytics U-SQL tevékenység, egyéni .NET-tevékenység, webes tevékenység, keresési tevékenység és metaadatok lekérése tevékenység.
Azure-beli integrációs modul hálózati környezete
Az Azure Integration Runtime támogatja a nyilvánosan elérhető végpontokkal rendelkező adattárakhoz és számítási szolgáltatásokhoz való csatlakozást. A felügyelt virtuális hálózat engedélyezésével az Azure Integration Runtime támogatja az adattárakhoz való csatlakozást privát hálózati környezetben, privát kapcsolati szolgáltatással. A Synapse-ban a munkaterületek korlátozhatják az integrációs modul által felügyelt virtuális hálózat kimenő forgalmát. A Data Factoryban minden port meg van nyitva a kimenő kommunikációhoz. A Azure-SSIS IR integrálható a virtuális hálózattal a kimenő kommunikációs vezérlők biztosításához.
Azure-beli integrációs modul számítási erőforrásai és skálázása
Az Azure-beli integrációs modul teljesen felügyelt, kiszolgáló nélküli számítást biztosít az Azure-ban. Nem kell aggódnia az infrastruktúra kiépítése, a szoftvertelepítés, a javítás vagy a kapacitás skálázása miatt. Ráadásul csak a tényleges használat időtartamára fizet.
Az Azure-beli integrációs modul biztosítja a natív számítást az adatok felhőalapú adattárak közötti biztonságos, megbízható és nagy teljesítményű módon való mozgatásához. Beállíthatja, hogy hány adatintegrációs egységet használjon a másolási tevékenységhez, és az Azure integrációs modul számítási mérete rugalmasan felskálázható ennek megfelelően anélkül, hogy explicit módon módosítania kellene az Azure-Integration Runtime méretét.
A tevékenységküldés egy egyszerű művelet, amely a tevékenységet a cél számítási szolgáltatáshoz irányítja, így ehhez a forgatókönyvhöz nem kell vertikálisan felskáláznia a számítási méretet.
Az Azure-beli integrációs modul létrehozásával és konfigurálásával kapcsolatos információkért tekintse meg az Azure Integration Runtime létrehozását és konfigurálását ismertető témakört.
Megjegyzés
Az Azure Integration Runtime Adatfolyam futtatókörnyezethez kapcsolódó tulajdonságokkal rendelkezik, amelyek meghatározzák az adatfolyamok futtatásához használt mögöttes számítási infrastruktúrát.
Saját üzemeltetésű integrációs modul
Egy saját üzemeltetésű IR a következőkre képes:
- Másolási tevékenység futtatása felhőalapú adattárak és egy magánhálózaton lévő adattár között.
- A következő átalakítási tevékenységek küldése helyszíni vagy Azure-beli virtuális hálózaton lévő számítási erőforrásokon: HDInsight Hive-tevékenység (BYOC-Bring Your Own Cluster), HDInsight Pig-tevékenység (BYOC), HDInsight MapReduce-tevékenység (BYOC), HDInsight Spark-tevékenység (BYOC), HDInsight Streaming-tevékenység (BYOC), ML Studio (klasszikus) Kötegelt végrehajtási tevékenység, ML Studio (klasszikus) erőforrás-frissítési tevékenységei, tárolt eljárási tevékenység, Data Lake Analytics U-SQL tevékenység, egyéni tevékenység (Azure Batch fut), keresési tevékenység és metaadatok lekérése tevékenység.
Megjegyzés
Saját üzemeltetésű integrációs modul használata olyan adattárak támogatásához, amelyek saját illesztőprogramot igényelnek( például SAP Hana, MySQL stb.). További információt a támogatott adattárakban talál.
Megjegyzés
A Java-futtatókörnyezet (JRE) a helyi integrációs modul függősége. Győződjön meg arról, hogy a JRE telepítve van ugyanarra a gazdagépre.
Saját üzemeltetésű integrációs modul hálózati környezete
Ha olyan magánhálózati környezetben szeretné biztonságosan végrehajtani az adatintegrációt, amely nem rendelkezik a nyilvános felhőkörnyezet közvetlen látóvonalával, telepíthet egy saját üzemeltetésű integrációs modult a helyszíni környezetben tűzfal mögött vagy egy virtuális magánhálózaton belül. A saját üzemeltetésű integrációs modul csak kimenő HTTP-alapú kapcsolatokat létesít az internetre.
Saját üzemeltetésű integrációs modul erőforrásai és skálázása
Telepítsen egy helyi integrációs modult egy helyszíni gépre vagy egy magánhálózaton belüli virtuális gépre. A helyi integrációs modul jelenleg csak Windows operációs rendszeren támogatott.
A magas rendelkezésre állás és a méretezhetőség érdekében horizontálisan felskálázhatja saját üzemeltetésű integrációs modulját, ha több helyszíni géppel aktív-aktív módban társít hozzá egy logikai példányt. További információt a saját üzemeltetésű integrációs modul létrehozásáról és konfigurálásáról szóló cikkben talál.
Azure SSIS integrációs modul
A meglévő SSIS számítási feladat átemeléséhez létrehozhat egy Azure-SSIS integrációs modult az SSIS-csomagok natív létrehozásához.
Azure-SSIS integrációs modul hálózati környezete
A Azure-SSIS IR nyilvános hálózaton vagy magánhálózaton építhetők ki. A helyszíni adathozzáférés a Azure-SSIS IR a helyszíni hálózathoz csatlakoztatott virtuális hálózathoz való csatlakoztatásával támogatott.
Azure-SSIS integrációs modul számítási erőforrásai és skálázása
A Azure-SSIS IR az SSIS-csomagok futtatására dedikált Azure-beli virtuális gépek teljes körűen felügyelt fürtje. Saját Azure SQL Database vagy SQL Managed Instance hozhat az SSIS-projektek/csomagok katalógusához (SSISDB). A számítási teljesítmény vertikális felskálázásához adjon meg egy csomópontméretet, és skálázza fel horizontálisan a fürt csomópontszámának megadásával. Az Azure-SSIS Integration Runtime futtatásának költségeit a követelményeknek megfelelően leállíthatja és elindíthatja.
További információ: A Azure-SSIS IR létrehozása és konfigurálása. A létrehozás után a meglévő SSIS-csomagokat úgy helyezheti üzembe és felügyelheti, hogy nem változnak a megszokott eszközök, például az SQL Server Data Tools (SSDT) és a SQL Server Management Studio (SSMS), ugyanúgy, mint a helyszíni SSIS használata.
Az Azure-SSIS futtatókörnyezetről az alábbi cikkekben talál további információt:
- Oktatóanyag: SSIS-csomagok üzembe helyezése az Azure-ban. Ez a cikk részletes útmutatást nyújt egy Azure-SSIS IR létrehozásához, és egy Azure SQL Database használ az SSIS-katalógus üzemeltetéséhez.
- Útmutató: Azure-SSIS integrációs modul létrehozása. Ez a cikk kiterjeszti az oktatóanyagot, és útmutatást nyújt a SQL Managed Instance használatához és az integrációs modul virtuális hálózathoz való csatlakoztatásához.
- Azure-SSIS integrációs modul monitorozása. Ez a cikk bemutatja, hogyan kérdezhet le információkat egy Azure-SSIS IR, és ismerteti az állapotokat a visszaadott információkban.
- Azure-SSIS integrációs modul kezelése. Ez a cikk bemutatja, hogyan lehet leállítani, elindítani vagy eltávolítani egy Azure-SSIS integrációs modult. Azt is bemutathatja, hogyan skálázhatja fel horizontálisan az Azure-SSIS integrációs modult úgy, hogy további csomópontokat ad hozzá.
- Azure-SSIS integrációs modul csatlakoztatása virtuális hálózathoz. Ez a cikk egy Azure-SSIS integrációs modul Azure virtuális hálózathoz való csatlakoztatásával kapcsolatos elméleti információkat tartalmaz. Emellett a Azure Portal használatával konfigurálhat egy virtuális hálózatot, és csatlakoztathat hozzá egy Azure-SSIS IR.
Az integrációs modul helye
A gyár helye és az integrációs modul helye közötti kapcsolat
A Data Factory vagy a Synapse-munkaterület egy példányának létrehozásakor meg kell adnia a helyét. A példány metaadatait itt tárolja a rendszer, és innen indítja el a folyamat aktiválását. A metaadatok csak a kiválasztott régióban vannak tárolva, és más régiókban nem lesznek tárolva.
Eközben a folyamatok hozzáférhetnek más Azure-régiókban lévő adattárakhoz és számítási szolgáltatásokhoz, hogy adatokat helyezzenek át az adattárak között, vagy számítási szolgáltatások használatával dolgozzanak fel adatokat. Ez a viselkedés az adatok megfelelősége, a hatékonyság és a hálózati kimeneti forgalmának alacsonyabb költségei érdekében a globálisan elérhető integrációs modulon keresztül valósul meg.
Az integrációs modul helye határozza meg a háttérbeli számítás helyét, valamint azt, hogy hol történik az adatáthelyezés, a tevékenységküldés és az SSIS-csomag végrehajtása. Az integrációs modul helye eltérhet annak a Data Factorynak a helyétől, amelyhez tartozik.
Az Azure-beli integrációs modul helye
Beállíthatja egy Azure ir helyrégióját, amely esetben a tevékenység végrehajtása vagy elküldése a kiválasztott régióban történik.
Az alapértelmezett beállítás az Azure IR automatikus feloldása a nyilvános hálózaton. Ezzel a beállítással:
Másolási tevékenység esetén a rendszer mindent megtesz annak érdekében, hogy automatikusan észlelje a fogadó adattár helyét, majd használja az integrációs modult vagy ugyanabban a régióban, ha elérhető, vagy a legközelebbi régióban, máskülönben; ha a fogadó adattár régiója nem észlelhető, a rendszer ehelyett a példány régiójában lévő integrációs modult használja.
Például egy Data Factory- vagy Synapse-munkaterületet hoztak létre az USA keleti régiójában,
- Ha az usa nyugati régiójában lévő Azure-blobba másol adatokat, ha a blob az USA nyugati régiójában található, a másolási tevékenység az USA nyugati régiójában található integrációs modulon lesz végrehajtva; ha a régióészlelés sikertelen, a másolási tevékenység az USA keleti régiójában található integrációs modulon lesz végrehajtva.
- Amikor adatokat másol Salesforce, amelyek esetében a régió nem észlelhető, a másolási tevékenység az USA keleti régiójában található integrációs modulon lesz végrehajtva.
Tipp
Ha szigorú adatmegfelelőségi követelményekkel rendelkezik, és meg kell győződnie arról, hogy az adatok nem hagynak el egy bizonyos földrajzi helyet, explicit módon létrehozhat egy Azure IR-t egy adott régióban, és a ConnectVia tulajdonság használatával erre az integrációs modulra irányíthatja a társított szolgáltatást. Ha például egy dél-egyesült királyságbeli blobból szeretne adatokat másolni egy Azure Synapse munkaterületre az Egyesült Királyság déli régiójában, és biztosítani szeretné, hogy az adatok ne hagyják el az Egyesült Királyságot, hozzon létre egy Azure IR-t az Egyesült Királyság déli régiójában, és kapcsolja mindkét társított szolgáltatást ehhez az integrációs modulhoz.
A Keresési/GetMetadata/Törlési tevékenységek végrehajtása (Folyamattevékenységek), átalakítási tevékenységek kézbesítése (külső tevékenységek) és szerzői műveletek (tesztkapcsolat, mappalista és táblalista tallózása és előzetes verziójú adatok) esetében a Data Factoryval vagy a Synapse-munkaterülettel azonos régióban található integrációs modult használja a rendszer.
A Adatfolyam a Data Factory vagy a Synapse-munkaterület integrációs modulja használható.
Tipp
Az ajánlott eljárás annak biztosítása, hogy az adatfolyamok ugyanabban a régióban fussanak, mint a megfelelő adattárak, amikor csak lehetséges. Ezt az Azure IR automatikus feloldásával érheti el (ha az adattár helye megegyezik a Data Factory vagy a Synapse-munkaterület helyével), vagy létrehozhat egy új Azure IR-példányt az adattárakkal azonos régióban, majd végrehajthatja rajta az adatfolyamokat.
Ha az Azure IR automatikus feloldásával engedélyezi a felügyelt virtuális hálózatot, a Data Factory vagy a Synapse-munkaterület régióban lévő integrációs modul lesz használatban.
A data factory studio vagy Synapse Studio folyamattevékenység-figyelési nézetében, illetve a tevékenységmonitorozás hasznos adataiban figyelheti, hogy mely integrációs modul helye lép érvénybe a tevékenység végrehajtása során.
A saját üzemeltetésű integrációs modul helye
A saját üzemeltetésű integrációs modul logikailag regisztrálva van a Data Factoryban vagy a Synapse-munkaterületen, és a funkcióit támogató számítást Ön biztosítja. Ezért a saját üzemeltetésű integrációs modulok esetében nincs explicit hely tulajdonság.
Ha adatmozgás végrehajtásához használja, a saját üzemeltetésű integrációs modul kinyeri az adatokat a forrásból, és a célra írja.
Az Azure-SSIS integrációs modul helye
Megjegyzés
Az Azure-SSIS integrációs futtatókörnyezetek jelenleg nem támogatottak a Synapse-folyamatokban.
Az Azure-SSIS integrációs modul számára a megfelelő helyet kiválasztása az ETL folyamatokban létfontosságú a magas teljesítmény eléréséhez.
- A Azure-SSIS IR helyének nem kell megegyeznie a Data Factory helyével, de meg kell egyeznie a saját Azure SQL Database vagy SQL Managed Instance helyével, ahol az SSISDB található. Ily módon az Azure-SSIS Integration Runtime egyszerűen hozzáférhet az SSISDB-hez anélkül, hogy a különböző helyek közötti túlzott forgalmat váltanak ki.
- Ha nincs meglévő SQL Database vagy SQL Managed Instance, de helyszíni adatforrásokkal/célokkal rendelkezik, hozzon létre egy új Azure SQL Database vagy SQL Managed Instance a helyszíni hálózathoz csatlakoztatott virtuális hálózat ugyanazon helyén. Így létrehozhatja a Azure-SSIS IR az új Azure SQL Database vagy SQL Managed Instance használatával, és csatlakozhat a virtuális hálózathoz. Minden ugyanazon a helyen lesz, minimalizálva az adatáthelyezést és a kapcsolódó költségeket, miközben maximalizálja a teljesítményt.
- Ha a meglévő Azure SQL Database vagy SQL Managed Instance helye nem egyezik meg a helyszíni hálózathoz csatlakoztatott virtuális hálózat helyével, először hozza létre a Azure-SSIS IR egy meglévő Azure SQL Database vagy SQL Managed Instance és csatlakozzon egy másik virtuális hálózathoz ugyanazon a helyen. Ezután konfiguráljon egy virtuális hálózatot a különböző helyek közötti virtuális hálózati kapcsolathoz.
Az alábbi ábra a Data Factory és az integrációs futtatókörnyezetek helybeállításait mutatja be:
A használandó integrációs modul meghatározása
Ha egy tevékenység egynél több típusú integrációs modulhoz van társítva, az az egyikre lesz feloldva. A saját üzemeltetésű integrációs modul elsőbbséget élvez a felügyelt virtuális hálózattal rendelkező Azure Data Factory vagy Synapse Workspace-példányok Azure-integrációs futtatókörnyezetével szemben. Ez utóbbi elsőbbséget élvez a globális Azure-integrációs modullal szemben.
Egy másolási tevékenység például arra szolgál, hogy adatokat másoljon a forrásból a fogadóba. A globális Azure-integrációs modul a forráshoz társított szolgáltatáshoz és egy Azure-integrációs modulhoz van társítva egy Azure Data Factory felügyelt virtuális hálózatban a fogadó társított szolgáltatásával, majd az eredmény az, hogy a forrás- és fogadó társított szolgáltatások is az Azure integrációs modult használják a Azure Data Factory felügyelt virtuális hálózatban. Ha azonban egy helyi integrációs modul társítja a forráshoz társított szolgáltatást, akkor a forrás és a fogadó társított szolgáltatás is a saját üzemeltetésű integrációs modult használja.
Másolási tevékenység
A Copy tevékenység forrás- és fogadóalapú társított szolgáltatásokra is szükség van az adatfolyam irányának meghatározásához. A rendszer az alábbi logikával határozza meg, melyik integrációsmodell-példányt használja a másolás végrehajtásához:
- Másolás két felhőbeli adatforrás között: ha a forrás- és fogadó társított szolgáltatások is az Azure IR-t használják, akkor a rendszer a regionális Azure IR-t használja, ha meg lett adva, vagy az Azure IR helyét automatikusan meghatározza, ha az integrációs modul (alapértelmezett) automatikus feloldási beállítását választotta az integrációs modul helyének szakaszában leírtak szerint.
- Másolás egy felhőbeli adatforrás és egy magánhálózat adatforrása között: ha a forrás vagy fogadó társított szolgáltatás egy helyi integrációs modulra mutat, a másolási tevékenység a saját üzemeltetésű integrációs modulon lesz végrehajtva.
- Magánhálózat két adatforrása közötti másolás: a forrás- és fogadó társított szolgáltatásnak az integrációs modul ugyanazon példányára kell mutatnia, és ezt az integrációs modult kell használnia a másolási tevékenység végrehajtásához.
Keresési és metaadat-beolvasási tevékenység
A keresési és metaadat-beolvasási tevékenységet a rendszer az adattár társított szolgáltatásához rendelt integrációs modulon hajtja végre.
Külső átalakítási tevékenység
Minden külső számítási motort használó külső átalakítási tevékenység rendelkezik egy célként szolgáló számítási társított szolgáltatással, amely egy integrációs modulra mutat. Ez az integrációs modul-példány határozza meg azt a helyet, ahonnan a külső, kézzel kódolt átalakítási tevékenység el lesz küldve.
Adatfolyam tevékenység
Adatfolyam tevékenységek a társított Azure-integrációs modulon lesznek végrehajtva. Az adatfolyamok által használt Spark-számítást az Azure IR adatfolyam-tulajdonságai határozzák meg, és a szolgáltatás teljes mértékben felügyeli.
Integration Runtime CI/CD-ben
Az integrációs futtatókörnyezetek nem változnak gyakran, és hasonlóak a CI/CD minden szakaszában. A Data Factory megköveteli, hogy a CI/CD minden szakaszában ugyanazzal a névvel és típusú integrációs futtatókörnyezetkel rendelkezzen. Ha az integrációs futtatókörnyezeteket minden fázisban meg szeretné osztani, fontolja meg egy dedikált gyár használatát, amely csak a megosztott integrációs futtatókörnyezeteket tartalmazza. Ezt a megosztott gyárat ezután az összes környezetben használhatja csatolt integrációs modultípusként.
Következő lépések
Lásd az alábbi cikkeket:
- Azure-integrációs modul létrehozása
- Saját üzemeltetésű integrációs modul létrehozása
- Azure-SSIS integrációs modul létrehozása. Ez a cikk kiterjeszti az oktatóanyagot, és útmutatást nyújt a SQL Managed Instance használatához és az integrációs modul virtuális hálózathoz való csatlakoztatásához.