Adatrögzítés módosítása az Azure Data Factoryben és az Azure Synapse Analyticsben

A következőkre vonatkozik: Azure Data Factory Azure Synapse Analytics

Tipp.

Próbálja ki a Data Factoryt a Microsoft Fabricben, amely egy teljes körű elemzési megoldás a nagyvállalatok számára. A Microsoft Fabric az adattovábbítástól az adatelemzésig, a valós idejű elemzésig, az üzleti intelligenciáig és a jelentéskészítésig mindent lefed. Ismerje meg, hogyan indíthat új próbaverziót ingyenesen!

Ez a cikk az Azure Data Factory változásadat-rögzítését (CDC) ismerteti.

További információkért tekintse meg az Azure Data Factory vagy az Azure Synapse áttekintését.

Áttekintés

Amikor adatintegrációt és ETL-folyamatokat hajt végre a felhőben, a feladatok jobban teljesíthetnek, és hatékonyabbak lehetnek, ha csak a folyamat utolsó futtatása óta megváltozott forrásadatokat olvassa, ahelyett, hogy minden futtatáskor egy teljes adatkészletet kérdez le. Az ADF több különböző módot biztosít arra, hogy egyszerűen megkapja a deltaadatokat csak az utolsó futtatásból.

Adatrögzítési gyári erőforrás módosítása

A data factory CDC-vel való használatának legegyszerűbb és leggyorsabb módja a gyári szintű Adatrögzítési erőforrás módosítása. A fő folyamattervezőben kattintson az Új elemre a Gyári erőforrások területen az új adatrögzítés létrehozásához. A CDC-gyári erőforrás konfigurációs útmutatót biztosít, ahol kiválaszthatja a forrásokat és a célhelyeket, opcionális átalakításokat alkalmazhat, majd az indításra kattintva megkezdheti az adatrögzítést. A CDC-erőforrással nem kell folyamatokat vagy adatfolyam-tevékenységeket terveznie. Emellett csak az általános célú adatfolyamok négy magjáért kell fizetnie, amíg az adatok feldolgozása folyamatban van. Beállíthat egy előnyben részesített késést, amelyet az ADF használ a megváltozott adatok felébresztéséhez és kereséséhez. Ez az egyetlen alkalom, amikor kiszámlázzuk. A legfelső szintű CDC-erőforrás a folyamatok folyamatos futtatásának ADF-módszere is. Az ADF-ben a folyamatok csak kötegek, de a CDC-erőforrás folyamatosan futtatható.

Natív változásadat-rögzítés a leképezési adatfolyamban

A módosított adatok, beleértve a beszúrt, frissített és törölt sorokat, automatikusan észlelhetők és kinyerhetők a forrásadatbázisokból származó ADF-leképezési adatfolyamok. A módosítások azonosításához nincs szükség időbélyegre vagy azonosítóoszlopra, mivel a natív változásadat-rögzítési technológiát használja az adatbázisokban. Ha egyszerűen láncol egy forrásátalakítást és egy fogadó-átalakítóhivatkozást egy adatbázis-adatkészlethez egy leképezési adatfolyamban, láthatja, hogy a forrásadatbázis módosításai automatikusan alkalmazva lesznek a céladatbázisra, így könnyedén szinkronizálhatja az adatokat két tábla között. A változásadatok feldolgozásához bármely üzleti logikához bármilyen átalakítást hozzáadhat. A fogadóadatok célhelyének meghatározásakor anélkül állíthat be beszúrási, frissítési, frissítési és törlési műveleteket a fogadóban, hogy szükség van az Alter Row átalakításra, mivel az ADF képes automatikusan észlelni a sorkészítőket.

Támogatott összekötők

Automatikus növekményes kinyerés a leképezési adatfolyamban

Az újonnan frissített sorokat vagy frissített fájlokat az ADF-leképezési adatfolyam automatikusan észlelheti és kinyerheti a forrástárolókból. Ha deltaadatokat szeretne lekérni az adatbázisokból, a növekményes oszlopra van szükség a módosítások azonosításához. Ha csak egy tárolóból szeretne új fájlokat vagy frissített fájlokat betölteni, az ADF-leképezési adatfolyam csak a fájlok legutóbbi módosítási ideje alatt működik.

Támogatott összekötők

Ügyfél által felügyelt változásadatok kinyerése folyamatban

Minden ADF által támogatott adattárhoz létrehozhat saját delta-adatkinyerési folyamatot, például keresési tevékenységgel lekérheti a külső vezérlőtáblában tárolt vízjelértéket, másolási vagy adatfolyam-leképezési tevékenységet, hogy lekérdezze a deltaadatokat az időbélyeg vagy az azonosító oszlop alapján, valamint az SP-tevékenységgel visszaírhatja az új vízjelértéket a külső vezérlőtáblába a következő futtatáshoz. Ha csak egy tárolóból szeretne új fájlokat betölteni, törölheti a fájlokat minden alkalommal, miután sikeresen áthelyezték őket a célhelyre, vagy használhatja a particionált mappa vagy fájlnevek időátállítását, vagy az utolsó módosítás időpontját az új fájlok azonosításához.

Ajánlott eljárások

Adatrögzítés módosítása adatbázisokból

  • A natív változásadatok rögzítése mindig ajánlott a legegyszerűbb módja a változásadatok lekérésének. Emellett sokkal kisebb terhet ró a forrásadatbázisra, amikor az ADF kinyeri a módosítási adatokat további feldolgozás céljából.
  • Ha az adatbázis-tárolók nem részei az ADF-összekötők listájának natív változásrögzítési támogatással, javasoljuk, hogy ellenőrizze az automatikus növekményes kinyerési beállítást, ahol csak növekményes oszlopot kell beírnia a módosítások rögzítéséhez. Az ADF gondoskodik a többiről, beleértve egy dinamikus lekérdezés létrehozását a változásbetöltéshez és az ellenőrzőpont felügyeletét minden tevékenységfuttatáshoz.
  • Az ügyfél által felügyelt delta-adatkinyerés a folyamatban az ADF által támogatott összes adatbázist lefedi, és rugalmasan szabályozhat mindent önállóan.

Fájlrögzítés módosítása fájlalapú tárolókból

  • Ha adatokat szeretne betölteni az Azure Blob Storage-ból, az Azure Data Lake Storage Gen2-ből vagy az Azure Data Lake Storage Gen1-ből, a leképezési adatfolyam lehetővé teszi, hogy csak egy kattintással szerezze be az új vagy frissített fájlokat. Ez a legegyszerűbb és ajánlott módja annak, hogy ezekből a fájlalapú tárolókból deltaterhelést érjen el a leképezési adatfolyamban.
  • További ajánlott eljárásokat is találhat.

Checkpoint

Ha engedélyezi a natív módosítási adatrögzítési vagy automatikus növekményes kinyerési beállításokat az ADF-leképezési adatfolyamban, az ADF segít az ellenőrzőpont kezelésében, hogy az egyes tevékenységfuttatások automatikusan csak a folyamat utolsó futtatása óta megváltozott forrásadatokat olvassák be automatikusan. Alapértelmezés szerint az ellenőrzőpont a folyamat és a tevékenység nevével van összekapcsolva. Ha módosítja a folyamat nevét vagy tevékenységnevét, az ellenőrzőpont alaphelyzetbe lesz állítva, ami azt eredményezi, hogy az első lépésektől kezdve vagy a következő futtatáskor a módosítások lekérése következik. Ha módosítani szeretné a folyamat nevét vagy tevékenységnevét, de továbbra is megtartja az ellenőrzőpontot a módosított adatok automatikus lekéréséhez, használja a saját Ellenőrzőpont-kulcsát az adatfolyam-tevékenységben ennek eléréséhez. A saját ellenőrzőpontkulcs elnevezési szabálya megegyezik a társított szolgáltatásokkal, adatkészletekkel, folyamatokkal és adatfolyamokkal.

A folyamat hibakeresésekor ez a funkció ugyanúgy működik. Az ellenőrzőpont alaphelyzetbe áll, amikor frissíti a böngészőt a hibakeresési futtatás során. Miután elégedett a hibakeresési futtatás folyamatának eredményével, közzéteheti és aktiválhatja a folyamatot. Abban a pillanatban, amikor először aktiválja a közzétett folyamatot, az automatikusan újraindul az elejétől, vagy mostantól módosításokat kap.

A figyelési szakaszban mindig lehetősége van egy folyamat újrafuttatására. Ha így tesz, a módosított adatok mindig a kiválasztott folyamatfuttatás előző ellenőrzőpontjáról lesznek rögzítve.

Oktatóanyagok

Az alábbiakban az Azure Data Factory és az Azure Synapse Analytics változásadat-rögzítésének elindítására vonatkozó oktatóanyagokat talál.

Sablonok

Az alábbiakban az Azure Data Factory és az Azure Synapse Analytics változásadat-rögzítését használó sablonokat követjük.