Co jsou datové sklady v Azure Databricks?

Datové sklady odkazují na shromažďování a ukládání dat z více zdrojů, aby k němu bylo možné rychle přistupovat pro obchodní přehledy a vytváření sestav. Tento článek obsahuje klíčové koncepty pro vytvoření datového skladu ve vašem datovém jezeře.

Datové sklady v jezeře

Architektura lakehouse a Databricks SQL přinášejí do datových jezer možnosti cloudového datového skladu. Pomocí známých datových struktur, vztahů a nástrojů pro správu můžete modelovat vysoce výkonný a nákladově efektivní datový sklad, který běží přímo ve vašem datovém jezeře. Další informace najdete v tématu Co je datové jezero?

Lakehouse architecture with a top layer that includes data warehousing, data engineering, data streaming, and data science and ML

Stejně jako u tradičního datového skladu modelujete data podle obchodních požadavků a pak je koncovým uživatelům obsluhujete pro analýzy a sestavy. Na rozdíl od tradičního datového skladu se můžete vyhnout vysílání dat obchodní analýzy nebo vytváření redundantních kopií, které se rychle stanou zastaralými.

Vytvoření datového skladu uvnitř jezera vám umožní přenést všechna data do jednoho systému a využít výhod funkcí, jako je Katalog Unity a Delta Lake.

Katalog Unity přidává jednotný model zásad správného řízení, abyste mohli zabezpečit a auditovat přístup k datům a poskytovat informace o rodokmenu podřízených tabulek. Delta Lake kromě dalších výkonných nástrojů přidává transakce ACID a vývoj schématu pro zajištění spolehlivého, škálovatelného a vysoce kvalitního dat.

Co je Databricks SQL?

Poznámka:

Bezserverová služba Databricks SQL není v Azure China dostupná. Databricks SQL není k dispozici v oblastech Azure Government.

Databricks SQL je kolekce služeb, které přinášejí možnosti a výkon datových skladů do stávajících datových jezer. Databricks SQL podporuje otevřené formáty a standardní ANSI SQL. Nástroje pro editor SQL a řídicí panely v platformě umožňují členům týmu spolupracovat s ostatními uživateli Databricks přímo v pracovním prostoru. Databricks SQL se také integruje s různými nástroji, aby analytici mohli vytvářet dotazy a řídicí panely ve svých oblíbených prostředích, aniž by museli upravovat novou platformu.

Databricks SQL poskytuje obecné výpočetní prostředky, které se spouštějí na tabulkách v jezeře. Databricks SQL využívá sql warehouses a nabízí škálovatelné výpočetní prostředky SQL oddělené od úložiště.

Další informace o výchozích nastaveních a možnostech SQL Warehouse najdete v tématu Co je SQL Warehouse?

Databricks SQL se integruje s katalogem Unity, abyste mohli zjišťovat, auditovat a řídit datové prostředky z jednoho místa. Další informace najdete v tématu Co je katalog Unity?

Modelování dat v Azure Databricks

Lakehouse podporuje různé styly modelování. Následující obrázek ukazuje, jak se data kurátorují a modelují při procházení různými vrstvami jezera.

A diagram showing various data models at each level of the medallion lakehouse archtecture.

Architektura medailionu

Architektura medailiónu je vzor návrhu dat, který popisuje řadu přírůstkově zpřesněných datových vrstev, které poskytují základní strukturu v jezeře. Bronzové, stříbrné a zlaté vrstvy značí zvýšení kvality dat na každé úrovni, přičemž zlato představuje nejvyšší kvalitu. Další informace najdete v tématu Co je architektura jezero medallion?.

Uvnitř jezera může každá vrstva obsahovat jednu nebo více tabulek. Datový sklad je modelován na stříbrné vrstvě a podává specializované datové tržiště ve zlaté vrstvě.

Bronzová vrstva

Data mohou do jezera vstoupit v libovolném formátu a prostřednictvím jakékoli kombinace dávkových nebo parních transakcí. Bronzová vrstva poskytuje cílový prostor pro všechna nezpracovaná data v původním formátu. Tato data se převedou na tabulky Delta.

Stříbrná vrstva

Stříbrná vrstva spojuje data z různých zdrojů dohromady. V rámci firmy, která se zaměřuje na aplikace datových věd a strojového učení, začínáte kurátorovat smysluplné datové prostředky. Tento proces je často označen zaměřením na rychlost a flexibilitu.

Stříbrná vrstva je také tam, kde můžete pečlivě integrovat data z různorodých zdrojů a vytvořit datový sklad v souladu s vašimi stávajícími obchodními procesy. Tato data se často řídí modelem třetího normálního formátu (3NF) nebo datového trezoru. Určení omezení primárního a cizího klíče umožňuje koncovým uživatelům pochopit relace mezi tabulkami při použití katalogu Unity. Váš datový sklad by měl sloužit jako jediný zdroj pravdy pro vaše datová tržiště.

Samotný datový sklad je schéma při zápisu a atomické. Je optimalizovaná pro změnu, takže můžete datový sklad rychle upravit tak, aby odpovídal vašim aktuálním potřebám při změně nebo vývoji obchodních procesů.

Zlatá vrstva

Zlatá vrstva je prezentační vrstva, která může obsahovat jedno nebo více datových mart. Datová tržiště jsou často dimenzionální modely ve formě sady souvisejících tabulek, které zachycují konkrétní obchodní perspektivu.

Zlatá vrstva také obsahuje oddělení a sandboxy pro datové vědy, které umožňují samoobslužné analýzy a datové vědy v celém podniku. Poskytnutí těchto sandboxů a jejich vlastních samostatných výpočetních clusterů brání obchodním týmům vytvářet kopie dat mimo lakehouse.

Další krok

Další informace o principech a osvědčených postupech pro implementaci a provozování lakehouse pomocí Databricks najdete v tématu Úvod k dobře navrženým datovým jezerům.