Mi az adattárház-kezelés az Azure Databricksben?

Az adatraktározás több forrásból származó adatok gyűjtésére és tárolására utal, így azok gyorsan elérhetők az üzleti elemzésekhez és jelentésekhez. Ez a cikk az adattárház data lakehouse-ban történő kiépítésének legfontosabb fogalmait tartalmazza.

Adattárház a tóházban

A Lakehouse architektúrája és a Databricks SQL felhőbeli adattárházi képességeket biztosít a data lake-ekhez. A jól ismert adatstruktúrák, kapcsolatok és felügyeleti eszközök használatával egy nagy teljesítményű, költséghatékony adattárházat modellezhet, amely közvetlenül a data lake-en fut. További információ: Mi az a data lakehouse?

Lakehouse architecture with a top layer that includes data warehousing, data engineering, data streaming, and data science and ML

A hagyományos adattárházakhoz hasonlóan az üzleti követelményeknek megfelelően modellezheti az adatokat, majd a végfelhasználók számára is kiszolgálhatja őket elemzésekhez és jelentésekhez. A hagyományos adattárházaktól eltérően elkerülheti az üzleti elemzési adatok silózását, vagy redundáns másolatokat hozhat létre, amelyek gyorsan elavulttá válnak.

A lakehouse-beli adattárház létrehozása lehetővé teszi, hogy az összes adatot egyetlen rendszerbe hozza, és kihasználhassa az olyan funkciók előnyeit, mint a Unity Catalog és a Delta Lake.

A Unity Catalog egy egységes szabályozási modellt ad hozzá, amellyel biztonságossá teheti és naplózhatja az adathozzáférést, és leágazási információkat biztosíthat az alsóbb rétegbeli táblákról. A Delta Lake savtranzakciókat és sémafejlődést is biztosít, többek között az adatok megbízható, skálázható és kiváló minőségű megőrzéséhez.

Mi az a Databricks SQL?

Feljegyzés

A Databricks SQL Serverless nem érhető el az Azure China-ban. A Databricks SQL nem érhető el az Azure Government-régiókban.

A Databricks SQL olyan szolgáltatások gyűjteménye, amelyek adatraktározási képességeket és teljesítményt hoznak létre a meglévő adattavakban. A Databricks SQL támogatja a nyílt formátumokat és a szabványos ANSI SQL-t. A platformon belüli SQL-szerkesztő és irányítópult-eszközök lehetővé teszik a csapattagok számára, hogy közvetlenül a munkaterületen együttműködjenek más Databricks-felhasználókkal. A Databricks SQL számos eszközzel is integrálható, így az elemzők lekérdezéseket és irányítópultokat hozhatnak létre kedvenc környezeteikben anélkül, hogy új platformra módosítanák őket.

A Databricks SQL általános számítási erőforrásokat biztosít, amelyek a lakehouse-beli táblákon lesznek végrehajtva. A Databricks SQL-t SQL-raktárak működtetik, és skálázható SQL számítási erőforrásokat kínálnak a tárterülettől elválasztva.

Az SQL Warehouse alapértelmezett beállításairól és beállításairól további információt a Mi az SQL Warehouse? című témakörben talál.

A Databricks SQL integrálható a Unity Catalog szolgáltatással, így egyetlen helyről fedezheti fel, naplózhatja és szabályozhatja az adategységeket. További információ: Mi a Unity Katalógus?

Adatmodellezés az Azure Databricksben

A lakehouse számos modellezési stílust támogat. Az alábbi képen az adatok összeválogatása és modellezése látható, miközben egy tóház különböző rétegei között mozognak.

A diagram showing various data models at each level of the medallion lakehouse archtecture.

Medallion architektúra

A medallion architektúra egy adattervezési minta, amely növekményesen finomított adatrétegek sorozatát írja le, amelyek alapszintű struktúrát biztosítanak a tóházban. A bronz, ezüst és arany rétegek minden szinten növekvő adatminőséget jeleznek, az arany pedig a legmagasabb minőséget képviseli. További információ: Mi a medallion lakehouse architektúra?

Egy tóházban minden réteg tartalmazhat egy vagy több táblát. Az adattárház az ezüst rétegen modellezhető, és speciális adat martokat táplál az aranyrétegben.

Bronz réteg

Az adatok bármilyen formátumban és köteg- vagy gőzölési tranzakciók bármilyen kombinációjával beléphetnek a lakehouse-ba. A bronz réteg az összes nyers adat kezdőterét biztosítja eredeti formájában. Az adatok deltatáblákká alakulnak.

Ezüst réteg

Az ezüst réteg egyesíti a különböző forrásokból származó adatokat. Az adatelemzési és gépi tanulási alkalmazásokra összpontosító üzleti tevékenységnek ez az a része, ahol megkezdheti a hasznos adategységek kurálását. Ezt a folyamatot gyakran a sebességre és az agilitásra összpontosítják.

Az ezüst rétegben a különböző forrásokból származó adatokat is gondosan integrálhatja, így adattárházat hozhat létre a meglévő üzleti folyamatokkal összhangban. Ezek az adatok gyakran harmadik normál űrlapot (3NF) vagy Data Vault-modellt követnek. Az elsődleges és idegen kulcsokra vonatkozó korlátozások megadása lehetővé teszi a végfelhasználók számára a táblakapcsolatok megértését a Unity Catalog használatakor. Az adattárháznak az adatpiacok egyetlen igazságforrásaként kell szolgálnia.

Maga az adattárház sémaalapú és atomi. A módosításra van optimalizálva, így gyorsan módosíthatja az adattárházat, hogy megfeleljen az aktuális igényeknek, amikor az üzleti folyamatok megváltoznak vagy fejlődnek.

Arany réteg

Az aranyréteg a bemutató réteg, amely egy vagy több adathelyet tartalmazhat. Az adat martok gyakran olyan dimenziómodellek, amelyek egy adott üzleti perspektívát rögzítő kapcsolódó táblák formájában jelennek meg.

Az aranyréteg emellett részleg- és adatelemzési tesztkörnyezeteket is biztosít, amelyek lehetővé teszik az önkiszolgáló elemzést és az adatelemzést a vállalaton belül. Ha ezeket a tesztkörnyezeteket és saját külön számítási fürtöket biztosít, az üzleti csapatok nem hozhatnak létre másolatokat az adatokról a lakehouse-on kívül.

Következő lépés

Ha többet szeretne megtudni a databricks használatával történő tóház megvalósításának és üzemeltetésének alapelveiről és ajánlott eljárásairól, tekintse meg a jól felépítésű data lakehouse bemutatása című témakört.