Sdílet prostřednictvím


Architektura Data Lakehouse: Dobře navržená architektura Databricks

Tato sada článků o architektuře data lakehouse poskytuje principy a osvědčené postupy pro implementaci a provoz jezerahouse pomocí Azure Databricks.

Dobře navržená architektura Databricks pro jezero

Well-architected framework: data lakehouse diagram.

Dobře navržená jezero se skládá ze 7 pilířů, které popisují různé oblasti zájmu při implementaci datového jezera v cloudu:

  • Zásady správného řízení dat

    Dohled nad tím, aby data přinesla hodnotu a podporovala vaši obchodní strategii.

  • Interoperabilita a použitelnost

    Schopnost jezeře komunikovat s uživateli a dalšími systémy.

  • Provozní dokonalost

    Všechny provozní procesy, které udržují lakehouse spuštěné v produkčním prostředí.

  • Zabezpečení, ochrana osobních údajů, dodržování předpisů

    Chraňte aplikaci Azure Databricks, úlohy zákazníků a zákaznická data před hrozbami.

  • Spolehlivost

    Schopnost systému obnovit funkci v případě selhání a pokračovat v provozu.

  • Účinnost výkonu

    Schopnost systému přizpůsobit se změnám zatížení

  • Optimalizace nákladů

    Správa nákladů a maximalizace poskytované hodnoty

Dobře navržená jezero rozšiřuje architekturu Microsoft Azure Well-Architected Framework na platformu Databricks Data Intelligence Platform a sdílí pilíře "Efektivita provozu", "Zabezpečení" (jako "Zabezpečení, ochrana osobních údajů, dodržování předpisů"), "Spolehlivost", "Efektivita výkonu" a "Optimalizace nákladů".

U těchto pěti pilířů se na jezero stále vztahují principy a osvědčené postupy cloudové architektury. Dobře navržená jezero rozšiřuje o principy a osvědčené postupy specifické pro jezero a důležité k vytvoření efektivního a efektivního jezera.

Zásady správného řízení a interoperabilita dat a použitelnost v architekturách lakehouse

Pilíře "Zásady správného řízení dat" a "Interoperabilita a použitelnost" pokrývají obavy týkající se jezera.

Zásady správného řízení dat zapouzdřuje zásady a postupy implementované k bezpečné správě datových prostředků v rámci organizace. Jedním ze základních aspektů je centralizované řízení dat: Lakehouse sjednocuje datové sklady a AI případy používá na jedné platformě. To zjednodušuje moderní datový zásobník tím, že eliminuje sila dat, která tradičně odděluje a komplikuje přípravu dat, analýzy, BI, datové vědy a strojové učení. Pro zjednodušení zásad správného řízení dat nabízí lakehouse jednotné řešení zásad správného řízení pro data, analýzy a AI. Minimalizací kopií vašich dat a přechodem na jednu vrstvu zpracování dat, ve které se můžou spouštět všechny ovládací prvky zásad správného řízení dat, zlepšíte své šance na dodržování předpisů a zjistíte porušení zabezpečení dat.

Další důležitou součástí jezera je poskytnutí skvělého uživatelského prostředí pro všechny osoby, které s ním pracují, a schopnost pracovat s širokým ekosystémem externích systémů. Azure už má řadu datových nástrojů, které provádějí většinu úloh, které může potřebovat podnik řízený daty. Tyto nástroje však musí být správně sestaveny, aby poskytovaly všechny funkce, přičemž každá služba nabízí jiné uživatelské prostředí. Tento přístup může vést k vysokým nákladům na implementaci a obvykle neposkytuje stejné uživatelské prostředí jako nativní platforma lakehouse: Uživatelé jsou omezeni nekonzistencí mezi nástroji a chybějícími možnostmi spolupráce a často musí projít složitými procesy pro získání přístupu k systému a tím i datům.

Integrovaný lakehouse na druhé straně poskytuje konzistentní uživatelské prostředí napříč všemi úlohami a zvyšuje tak použitelnost. Tím se sníží náklady na trénování a onboarding a zlepší se spolupráce mezi funkcemi. Kromě toho se nové funkce postupně přidávají automaticky – aby se dále zlepšilo uživatelské prostředí – bez nutnosti investovat do interních prostředků a rozpočtů.

Přístup s více cloudy může být záměrnou strategií společnosti nebo výsledkem fúze a akvizice nebo nezávislých obchodních jednotek, které vybírají různé poskytovatele cloudu. V takovém případě použití multicloudového jezera vede k jednotnému uživatelskému prostředí ve všech cloudech. Tím se snižuje šíření systémů v rámci podniku, což zase snižuje dovednosti a požadavky na školení zaměstnanců zapojených do úloh řízených daty.

A konečně v síťovém světě s podnikovými obchodními procesy musí systémy spolupracovat co nejplynulejším způsobem. Stupeň interoperability je zde klíčovým kritériem a nejnovější data, jako základní prostředek jakékoli firmy, musí bezpečně přetékat mezi interními a externími partnery.

Principy a osvědčené postupy