Stažení referenčních architektur lakehouse

Článek
05/22/2024

Tento článek popisuje pokyny k architektuře pro jezero z hlediska zdroje dat, příjmu dat, transformace, dotazování a zpracování, obsluhy, analýzy/výstupu a úložiště.

Každá referenční architektura má ke stažení PDF ve formátu 11 x 17 (A3).

Obecná referenční architektura

Obecná referenční architektura jezerahouse

Ke stažení: Referenční architektura Generic Lakehouse pro Databricks (PDF)

Uspořádání referenčních architektur

Referenční architektura je strukturovaná podél plavecké dráhy Zdroj, Ingestování, Transformace, Dotazování a proces, Obsluha, Analýza a Úložiště:

Source

Architektura rozlišuje částečně strukturovaná a nestrukturovaná data (senzory a IoT, média, soubory/protokoly) a strukturovaná data (RDBMS, obchodní aplikace). Zdroje SQL (RDBMS) je také možné integrovat do lakehouse a katalogu Unity bez ETL prostřednictvím federace lakehouse. Kromě toho se můžou načítat data od jiných poskytovatelů cloudu.
Spolknout

Data je možné ingestovat do jezera prostřednictvím dávky nebo streamování:
- Soubory doručované do cloudového úložiště je možné načíst přímo pomocí automatického zavaděče Databricks.
- V případě dávkového příjmu dat z podnikových aplikací do Delta Lake spoléhá Databricks Lakehouse na partnerské nástroje ingestování s konkrétními adaptéry pro tyto systémy záznamu.
- Události streamování se můžou ingestovat přímo ze systémů streamování událostí, jako je Kafka pomocí strukturovaného streamování Databricks. Zdroje streamování můžou být senzory, IoT nebo procesy zachytávání dat.
Úložiště

Data jsou obvykle uložená v systému cloudového úložiště, kde kanály ETL používají architekturu medailonu k ukládání dat kurátorovaným způsobem jako soubory nebo tabulky Delta.
Transformace a dotazování a zpracování

Databricks Lakehouse používá své moduly Apache Spark a Photon pro všechny transformace a dotazy.

Vzhledem k jednoduchosti je deklarativní architektura DLT (Delta Live Tables) dobrou volbou pro vytváření spolehlivých, udržovatelných a testovatelných kanálů zpracování dat.

Platforma Databricks Data Intelligence Platform s podporou Apache Sparku a Photonu podporuje oba typy úloh: dotazy SQL prostřednictvím sql warehouse a úlohy SQL, Python a Scala prostřednictvím clusterů pracovních prostorů.

V případě datových věd (ML Modeling and Gen AI) poskytuje platforma Databricks AI a Machine Učení specializované moduly runtime ML pro AutoML a pro kódování úloh ML. MLflow nejlépe podporuje všechny pracovní postupy datových věd a MLOps.
Sloužit

Pro případy použití DWH a BI poskytuje Databricks Lakehouse Databricks SQL, datový sklad využívající SQL a bezserverové služby SQL Warehouse.

Pro strojové učení je obsluha modelů škálovatelný model na podnikové úrovni hostovaný v řídicí rovině Databricks.

Provozní databáze: Externí systémy, jako jsou provozní databáze, se dají použít k ukládání a doručování konečných datových produktů do uživatelských aplikací.

Spolupráce: Obchodní partneři získají zabezpečený přístup k datům, která potřebují prostřednictvím rozdílového sdílení. Na základě rozdílového sdílení je Databricks Marketplace otevřeným fórem pro výměnu datových produktů.
Analýza

Poslední obchodní aplikace jsou v této plavecké dráhou. Mezi příklady patří vlastní klienti, jako jsou aplikace AI připojené k službě Databricks Model Serving pro odvozování v reálném čase nebo aplikace, které přistupují k datům odsílaným z lakehouse do provozní databáze.

V případě použití BI analytici obvykle používají nástroje BI pro přístup k datovému skladu. Vývojáři SQL můžou navíc použít Editor SQL Databricks (nezobrazuje se v diagramu) pro dotazy a řídicí panely.

Platforma data Intelligence také nabízí řídicí panely pro vytváření vizualizací dat a sdílení přehledů.

Možnosti pro vaše úlohy

Kromě toho databricks lakehouse nabízí možnosti správy, které podporují všechny úlohy:

Zásady správného řízení pro data a AI

Centrální systém zásad správného řízení dat a AI v platformě Databricks Data Intelligence Platform je katalog Unity. Katalog Unity poskytuje jediné místo pro správu zásad přístupu k datům, které se vztahují na všechny pracovní prostory, a podporuje všechny prostředky vytvořené nebo používané v jezeře, jako jsou tabulky, svazky, funkce (úložiště funkcí) a modely (registr modelů). Katalog Unity se dá použít také k zachycení rodokmenu dat modulu runtime napříč dotazy spuštěným v Databricks.

Monitorování Databricks Lakehouse umožňuje monitorovat kvalitu dat ve všech tabulkách ve vašem účtu. Může také sledovat výkon modelů strojového učení a koncových bodů obsluhy modelů.

V případě pozorovatelnosti představují systémové tabulky analytické úložiště hostované službou Databricks provozních dat vašeho účtu. Systémové tabulky se dají použít pro historickou pozorovatelnost v rámci vašeho účtu.
Modul pro analýzu dat

Platforma Databricks Data Intelligence umožňuje celé organizaci používat data a umělou inteligenci. Využívá databricksIQ a kombinuje generování umělé inteligence s unifikačními výhodami jezera, aby porozuměla jedinečné sémantice vašich dat.

Databricks Assistant je k dispozici v poznámkových blocích Databricks, editoru SQL a editoru souborů jako pomocník pro AI pracující s kontextem pro vývojáře.
Orchestrace

Pracovní postupy Databricks orchestrují zpracování dat, strojové učení a analytické kanály na platformě Databricks Data Intelligence Platform. Pracovní postupy mají plně spravované služby orchestrace integrované do platformy Databricks, včetně úloh Databricks pro spouštění neinteraktivního kódu v pracovním prostoru Databricks a rozdílových živých tabulek za účelem vytváření spolehlivých a udržovatelných kanálů ETL.

Referenční architektura platformy Data Intelligence v Azure

Referenční architektura Azure Databricks je odvozená od obecné referenční architektury přidáním služeb specifických pro Azure pro elementy Source, Ingest, Serve, Analysis/Output a Storage.

Referenční architektura pro Azure Databricks Lakehouse

Ke stažení: Referenční architektura pro Databricks Lakehouse v Azure

Referenční architektura Azure ukazuje následující služby specifické pro Azure pro ingestování, úložiště, obsluhu a analýzu a výstup:

Azure Synapse a SQL Server jako zdrojové systémy pro Federaci Lakehouse
Azure IoT Hub a Azure Event Hub pro ingestování streamování
Azure Data Factory pro dávkové ingestování
Azure Data Lake Storage Gen2 (ADLS) jako úložiště objektů
Azure SQL DB a Azure Cosmos DB jako provozní databáze
Azure Purview jako podnikový katalog, do kterého uc exportuje informace o schématu a rodokmenu
Power BI jako nástroj BI

Poznámka:

Toto zobrazení referenční architektury se zaměřuje pouze na služby Azure a databricks lakehouse. Lakehouse v Databricks je otevřená platforma, která se integruje s rozsáhlým ekosystémem partnerských nástrojů.
Zobrazené služby poskytovatele cloudu nejsou vyčerpávající. Jsou vybrány k ilustraci konceptu.

Případ použití: Batch ETL

Referenční architektura pro dávkové ETL v Azure Databricks

Stáhnout: Referenční architektura Batch ETL pro Azure Databricks

Nástroje Ingestování používají adaptéry specifické pro zdroj ke čtení dat ze zdroje a pak je buď ukládají do cloudového úložiště, odkud ho může automatický zavaděč číst, nebo volat Databricks přímo (například s nástroji pro příjem partnerských ingestací integrovaných do Databricks Lakehouse). Pokud chcete načíst data, spouští dotazy modul ETL a zpracování Databricks prostřednictvím DLT. Úlohy s jedním nebo více úkoly je možné orchestrovat pomocí pracovních postupů Databricks a řídit se katalogem Unity (řízení přístupu, audit, rodokmen atd.). Pokud provozní systémy s nízkou latencí vyžadují přístup ke konkrétním zlatým tabulkám, je možné je exportovat do provozní databáze, jako je rdBMS nebo úložiště klíč-hodnota na konci kanálu ETL.

Případ použití: Streamování a zachytávání dat změn (CDC)

Architektura strukturovaného streamování Sparku v Azure Databricks

Stažení: Architektura strukturovaného streamování Sparku pro Azure Databricks

Modul ETL pro Databricks používá strukturované streamování Sparku ke čtení z front událostí, jako je Apache Kafka nebo Azure Event Hub. Následující kroky se řídí přístupem výše uvedeného případu použití služby Batch.

Zachytávání dat změn v reálném čase (CDC) obvykle používá frontu událostí k ukládání extrahovaných událostí. Odsud se případ použití řídí případem použití streamování.

Pokud se CDC provádí v dávce, kde jsou extrahované záznamy nejprve uložené v cloudovém úložišti, může je autoloader Databricks přečíst a případ použití následuje po dávkovém ETL.

Případ použití: Strojové učení a AI

Referenční architektura strojového učení a umělé inteligence pro Azure Databricks

Stáhnout: Referenční architektura strojového učení a AI pro Azure Databricks

Pro strojové učení poskytuje platforma Databricks Data Intelligence AI umělou inteligenci, která se dodává s nejmodernějšími knihovnami strojového a hlubokého učení. Poskytuje funkce, jako je úložiště funkcí a registr modelů (integrované do katalogu Unity), funkce s nízkým kódem s AutoML a integrace MLflow do životního cyklu datových věd.

Všechny prostředky související s datovými vědami (tabulky, funkce a modely) se řídí katalogem Unity a datoví vědci můžou k orchestraci svých úloh použít pracovní postupy Databricks.

Pokud chcete nasazovat modely škálovatelným a podnikovým způsobem, použijte funkce MLOps k publikování modelů v obsluhě modelu.

Případ použití: Načtení rozšířené generace (Gen AI)

Referenční architektura pro Azure Databricks gen AI RAG

Stáhnout: Referenční architektura AI RAG genu pro Azure Databricks

Pro případy použití generující umělé inteligence přichází systém Mosaic AI se špičkovými knihovnami a konkrétními možnostmi Gen AI od výzev k doladění stávajících modelů a předběžného trénování od nuly. Výše uvedená architektura ukazuje příklad toho, jak je možné integrovat vektorové vyhledávání k vytvoření aplikace AI (rag (načítání rozšířené generace).

Pokud chcete nasazovat modely škálovatelným a podnikovým způsobem, použijte funkce MLOps k publikování modelů v obsluhě modelu.

Případ použití: ANALÝZY BI a SQL

Referenční architektura analýz BI a SQL pro Azure Databricks

Stažení: Referenční architektura analýz BI a SQL pro Azure Databricks

V případě použití BI můžou obchodní analytici používat řídicí panely, editor SQL Databricks nebo konkrétní nástroje BI, jako je Tableau nebo Power BI. Ve všech případech je modul Databricks SQL (bezserverový nebo bezserverový) a zjišťování, zkoumání a řízení přístupu k datům poskytuje Katalog Unity.

Případ použití: Federace Lakehouse

Referenční architektura federace Lakehouse pro Azure Databricks

Stáhnout: Referenční architektura federace Lakehouse pro Azure Databricks

Federace Lakehouse umožňuje integraci externích databází SQL dat (například MySQL, Postgres, SQL Serveru nebo Azure Synapse) s Databricks.

Všechny úlohy (AI, DWH a BI) z toho můžou těžit, aniž by bylo nutné nejprve data etL do úložiště objektů. Externí zdrojový katalog je mapován do katalogu Unity a jemně odstupňované řízení přístupu lze použít pro přístup přes platformu Databricks.

Referenční architektura sdílení podnikových dat pro Azure Databricks

Stáhnout: Referenční architektura sdílení podnikových dat pro Azure Databricks

Sdílení dat na podnikové úrovni poskytuje rozdílové sdílení. Poskytuje přímý přístup k datům v úložišti objektů zabezpečených službou Unity Catalog a Databricks Marketplace je otevřené fórum pro výměnu datových produktů.

Sdílet prostřednictvím

Stažení referenčních architektur lakehouse

Obecná referenční architektura

Uspořádání referenčních architektur

Možnosti pro vaše úlohy

Referenční architektura platformy Data Intelligence v Azure

Případ použití: Batch ETL

Případ použití: Streamování a zachytávání dat změn (CDC)

Případ použití: Strojové učení a AI

Případ použití: Načtení rozšířené generace (Gen AI)

Případ použití: ANALÝZY BI a SQL

Případ použití: Federace Lakehouse

Váš názor

Váš názor

Další materiály

Sdílet prostřednictvím

Stažení referenčních architektur lakehouse

Obecná referenční architektura

Uspořádání referenčních architektur

Možnosti pro vaše úlohy

Referenční architektura platformy Data Intelligence v Azure

Případ použití: Batch ETL

Případ použití: Streamování a zachytávání dat změn (CDC)

Případ použití: Strojové učení a AI

Případ použití: Načtení rozšířené generace (Gen AI)

Případ použití: ANALÝZY BI a SQL

Případ použití: Federace Lakehouse

Případ použití: Sdílení podnikových dat

Váš názor

Váš názor

Další materiály