Share via


Adatrögzítés módosítása az Azure Cosmos DB elemzési tárában

A KÖVETKEZŐKRE VONATKOZIK: Nosql MongoDB

Az Azure Cosmos DB elemzési tárában lévő adatrögzítés (CDC) lehetővé teszi a módosított (beszúrt, frissített és törölt) adatok folyamatos és növekményes adatcsatornájának hatékony használatát az elemzési tárból. Az Azure Synapse és az Azure Data Factory zökkenőmentesen integrálható, skálázható, kód nélküli felületet biztosít a nagy adatmennyiség érdekében. Mivel a változásadat-rögzítési funkció az elemzési táron alapul, nem használja fel a kiépített kérelemegységeket, nem befolyásolja a tranzakciós számítási feladatokat, alacsonyabb késést biztosít, és alacsonyabb TCO-val rendelkezik.

Az Azure Cosmos DB elemzési tár változásadat-rögzítési funkciója az Azure Synapse vagy az Azure Data Factory adatfolyamával különböző fogadókba írhat.

Diagram of the analytical store in Azure Cosmos DB and how it, with change data capture, can write to various first and third-party target services.

A leképezési adatfolyamban támogatott fogadótípusokról további információt az adatfolyam által támogatott fogadótípusokban talál.

Amellett, hogy növekményes adatcsatornát biztosít az elemzési tártól a különböző célokig, a változásadat-rögzítés a következő képességeket támogatja:

  • Támogatja a törlések és köztes frissítések rögzítését
  • Egy adott művelettípus változáscsatornájának szűrése (Frissítés | törlése | TTL beszúrása) |
  • Szűrők, előrejelzések és átalakítások alkalmazását támogatja a Változáscsatorna forrás lekérdezésen keresztül
  • Ugyanazon a tárolón egyszerre több változáscsatorna is használható
  • A tárolóban minden változás pontosan egyszer jelenik meg a változásadat-rögzítési csatornában, és az ellenőrzőpontokat belsőleg kezelik Az Ön számára
  • A módosítások szinkronizálhatók "az elejétől" vagy "egy adott időbélyegtől" vagy "mostantól"
  • Nincs korlátozás arra a rögzített adatmegőrzési időszakra vonatkozóan, amelyre vonatkozóan elérhetőek a módosítások

Hatékony növekményes adatrögzítés belsőleg felügyelt ellenőrzőpontokkal

A Cosmos DB-tárolók minden módosítása pontosan egyszer jelenik meg a CDC-hírcsatornában, és az ellenőrzőpontokat belsőleg kezelik. Ez segít kezelni az egyéni ellenőrzőpontok "_ts" értéken alapuló gyakori használatának alábbi hátrányait:

  • A rendszer a "_ts" szűrőt alkalmazza az adatfájlokra, ami nem mindig garantálja a minimális adatvizsgálatot. Az új CDC-képesség belsőleg felügyelt GLSN-alapú ellenőrzőpontjai biztosítják, hogy a növekményes adatazonosítás csak a metaadatok alapján történjen, így minimális adatvizsgálatot garantál az egyes streamekben.

  • Az elemzési tár szinkronizálási folyamata nem garantálja a "_ts" alapú rendezést, ami azt jelenti, hogy előfordulhatnak olyan esetek, amikor egy növekményes rekord "_ts" kisebb, mint az utolsó ellenőrzőponttal rendelkező "_ts", és kihagyható a növekményes streamben. Az új CDC nem veszi figyelembe a "_ts" elemet a növekményes rekordok azonosításához, így garantálja, hogy a növekményes rekordok egyike sem hiányzik.

Funkciók

Az Adatrögzítés módosítása az Azure Cosmos DB elemzési tárában az alábbi főbb funkciókat támogatja.

Változások rögzítése az elejétől

Ha a Start from beginning beállítás be van jelölve, a kezdeti terhelés tartalmazza a tárolóadatok teljes pillanatképét az első futtatáskor, és a módosított vagy növekményes adatok rögzítve lesznek a későbbi futtatások során. Ezt a tulajdonság korlátozza, és az analytical TTL elemzési tárból eltávolított TTL-dokumentumok nem szerepelnek a változáscsatornában. Példa: Képzeljen el egy analytical TTL 31536000 másodperces tárolót, amely 1 évnek felel meg. Ha CDC-folyamatot hoz létre ehhez a tárolóhoz, csak az 1 évnél újabb dokumentumok lesznek belefoglalva a kezdeti terhelésbe.

Adott időbélyeg módosításainak rögzítése

Ha a Start from timestamp beállítás be van jelölve, a kezdeti terhelés feldolgozza az adatokat az adott időbélyegből, és a növekményes vagy módosított adatok rögzítve lesznek a későbbi futtatások során. Ezt a folyamatot a analytical TTL tulajdonság is korlátozza.

Változások rögzítése mostantól

Ha a Start from timestamp beállítás be van jelölve, a rendszer nem rögzíti a tároló összes korábbi műveletét.

Törlések, köztes frissítések és TCL-ek rögzítése

Az elemzési tár módosítási adatrögzítési funkciója rögzíti a törléseket, a köztes frissítéseket és a TTL-műveleteket. A rögzített törlések és frissítések alkalmazhatók a törlési és frissítési műveleteket támogató fogadókra. A(z) {_rid} érték egyedileg azonosítja a rekordokat, ezért ha a(z) {_rid} értéket kulcsoszlopként adja meg a Fogadó oldalon, a frissítési és törlési műveletek megjelennek a Fogadóban.

Vegye figyelembe, hogy a TTL-műveletek törlésnek minősülnek. A forrásbeállítások szakaszban ellenőrizheti a mód részleteit, valamint a köztes frissítések és törlések támogatását a fogadókban.

A változáscsatorna szűrése egy adott művelettípushoz

A módosítási adatrögzítési csatornát szűrheti egy adott művelettípusra. Például csak a beszúrási és frissítési műveleteket rögzítheti szelektíven, így figyelmen kívül hagyhatja a felhasználó-törlési és ATL-törlési műveleteket.

Szűrők, előrejelzések és átalakítások alkalmazása a Változáscsatornán forrás lekérdezéssel

A forrás lekérdezéssel megadhatja a szűrő(k), a vetület(ek) és az átalakítás(ok) megadását, amelyek mind le lesznek küldve az oszlopos elemzési tárolóba. Íme egy minta forrás-lekérdezés, amely csak növekményes rekordokat rögzít a szűrővel Category = 'Urban'. Ez a minta lekérdezés csak öt mezőt projektel, és egy egyszerű átalakítást alkalmaz:

SELECT ProductId, Product, Segment, concat(Manufacturer, '-', Category) as ManufacturerCategory
FROM c 
WHERE Category = 'Urban'

Több CDC-folyamat

Több folyamatot is létrehozhat a CDC elemzési tárolóban való felhasználásához. Ez a megközelítés rugalmasságot biztosít a különböző forgatókönyvek és követelmények támogatásához. Előfordulhat, hogy egy folyamat nem rendelkezik adatátalakítással és több fogadóval, egy másik pedig adatelsimítással és egy fogadóval. És párhuzamosan is futhatnak.

Átviteli sebesség elkülönítése, kisebb késés és alacsonyabb TCO

A Cosmos DB elemzési tárban végzett műveletek nem használják fel a kiosztott kérelemegységeket, ezért nem érintik a tranzakciós számítási feladatokat. Az adatrögzítés módosítása az elemzési tárral alacsonyabb késéssel és alacsonyabb TCO-val is rendelkezik. Az alacsonyabb késést az elemzési tárnak tulajdonították, amely jobb párhuzamosságot tesz lehetővé az adatfeldolgozáshoz, és csökkenti a teljes TCO-t, amely lehetővé teszi a költségek hatékonyságának növelését ezekben a gyorsan változó gazdasági körülmények között.

Forgatókönyvek

Az alábbi gyakori forgatókönyvek a változási adatrögzítés és az elemzési tár használata.

Növekményes adatok felhasználása a Cosmos DB-ből

Az elemzési tár módosítási adatrögzítését akkor használhatja, ha éppen használja vagy tervezi a használatát:

  • Növekményes adatrögzítés az Azure Data Factory Adatfolyam vagy Copy tevékenység használatával.
  • Egyszeri kötegelt feldolgozás az Azure Data Factory használatával.
  • Cosmos DB-adatok streamelése
    • Az elemzési tár legfeljebb 2 perces késéssel szinkronizálja a tranzakciós tár adatait. Az Azure Data Factoryben percenként ütemezhet Adatfolyam.
    • Ha a fenti késés nélkül kell streamelnie, javasoljuk, hogy használja a tranzakciós tároló változáscsatorna funkcióját.
  • Törlések rögzítése, növekményes módosítások, szűrők alkalmazása a Cosmos DB-adatokra.
    • Ha Azure Functions-eseményindítókat vagy bármely más beállítást használ a változáscsatornával, és rögzíteni szeretné a törléseket, a növekményes módosításokat, az átalakításokat stb.; javasoljuk, hogy módosítsa az adatrögzítést az elemzési táron keresztül.

Növekményes hírcsatorna a választott elemzési platformra

Az adatrögzítési képesség módosítása lehetővé teszi a végpontok közötti elemzési megoldást, így rugalmasan használhatja az Azure Cosmos DB-adatokat a támogatott fogadótípusok bármelyikével. A támogatott fogadótípusokról további információt az adatfolyam által támogatott fogadótípusokban talál. Az adatrögzítés lehetővé teszi az Azure Cosmos DB-adatok központosított adattóba helyezését is, és összekapcsolhatja az adatokat más különböző forrásokból származó adatokkal. Az adatokat simíthatja, particionálhatja, és további átalakításokat alkalmazhat az Azure Synapse Analyticsben vagy az Azure Data Factoryben.

Adatrögzítés módosítása a MongoDB-tárolókhoz készült Azure Cosmos DB-ben

A MongoDB API társított szolgáltatási felülete még nem érhető el az Azure Data Factory-adatfolyamokban. A MongoDB-fiókvégponthoz tartozó API-t az Azure Cosmos DB for NoSQL társított szolgáltatás felületével használhatja munka közben, amíg a Mongo társított szolgáltatás közvetlenül nem támogatott.

Az új NoSQL-társított szolgáltatás felületében válassza az Enter Manually (Manuális ) lehetőséget az Azure Cosmos DB-fiók adatainak megadásához. Itt használja a fiók NoSQL-dokumentumvégpontját (például: https://<account-name>.documents.azure.com:443/) a Mongo DB-végpont helyett (példa: mongodb://<account-name>.mongo.cosmos.azure.com:10255/)

További lépések