Logický datový sklad s Azure Synapse bezserverovými fondy SQL

Azure Cosmos DB
Azure Data Factory
Azure Data Lake
Azure Synapse Analytics
Power BI

Návrhy řešení

Tento článek je nápadem na řešení. Pokud chcete, abychom obsah rozšířili o další informace, jako jsou potenciální případy použití, alternativní služby, aspekty implementace nebo pokyny k cenám, dejte nám vědět tím, že nám poskytnete zpětnou vazbu na GitHubu.

Model logického datového skladu (LDW) vytváří jednoduchou virtualizovanou relační vrstvu nad daty, která jsou uložená v datovém jezeře nebo databázi. Tato vrstva virtualizace poskytuje přístup k datovému skladu bez nutnosti přesunu dat. Toto řešení může kombinovat data o zpracování online transakcí (OLTP) s analytickými daty z datových jezer, což představuje způsob s nízkou složitostí a nízkou latencí pro úlohy business intelligence (BI) a analytické úlohy.

Apache Spark™ je ochranná známka Apache Software Foundation v USA a/nebo jiných zemích/oblastech. Použití této značky nevyžaduje žádné doporučení ze strany Apache Software Foundation.

Architektura

Diagram znázorňující tok dat zleva doprava, jak je popsáno v krocích

Stáhněte si powerpointový soubor všech diagramů v tomto článku.

Tok dat

  1. Azure Data Factory integruje data ze zdrojových systémů do podnikového datového jezera.

  2. Data ze zařízení a senzorů se také streamují z hraničních zařízení do cloudu prostřednictvím Azure IoT Hub. Azure Stream Analytics zpracovává data a odesílá je do podnikového datového jezera.

  3. Azure Synapse bezserverové fondy SQL definují LDW, které mají logické tabulky a zobrazení přístupné prostřednictvím koncového bodu bezserverového fondu SQL na vyžádání Azure Synapse pracovního prostoru.

  4. Azure Synapse Link pro Azure Cosmos DB dotazuje transakční data v reálném čase prostřednictvím Azure Synapse bezserverových fondů SQL. Tato data se spojí se studenou dávkou a horkými streamovanými daty z podnikového datového jezera za účelem vytvoření logických zobrazení.

  5. Aplikace pro vytváření sestav, BI a další analytické aplikace přistupují k datům a zobrazením LDW pomocí bezserverového koncového bodu SQL Azure Synapse pracovního prostoru.

    Poznámka

    Bezserverový koncový bod SQL Azure Synapse pracovního prostoru je přístupný z libovolného nástroje nebo služby, která podporuje připojení TDS (Tabular Data Stream) k SQL Server.

Komponenty

  • Azure Synapse Analytics je neomezená analytická služba, která spojuje integraci dat, skladování podnikových dat a analýzu velkých objemů dat.
  • Data Factory nabízí integraci dat a orchestraci toků dat v cloudovém měřítku.
  • IoT Hub umožňuje zabezpečenou a spolehlivou komunikaci mezi aplikacemi a zařízeními internetu věcí (IoT).
  • Stream Analytics poskytuje bezserverové kanály analýzy streamování v reálném čase.
  • Azure Data Lake Storage nabízí škálovatelné a nákladově efektivní cloudové úložiště.
  • Azure Cosmos DB je plně spravovaná databáze NoSQL pro vývoj moderních aplikací.

Podrobnosti scénáře

Pomocí nástroje LDW s Azure Synapse bezserverovými fondy SQL můžete spojit studená dávková data, horká streamovaná data a živá transakční data v jednom dotazu T-SQL nebo definici zobrazení.

Toto řešení zabraňuje přesunu dat mezi složitými, nákladným a latencí náchylným k extrakci, transformaci a načítání (ETL). Koncept LDW se podobá datovému lakehouse, ale LDW s Azure Synapse Analytics zahrnuje podporu hybridního zpracování transakcí a analýz (HTAP). HTAP používá Azure Synapse bezserverových fondů SQL k dotazování dat OLTP uložených ve službě Azure Cosmos DB.

Služba Azure Synapse Analytics LDW je založená na bezserverových fondech SQL, které jsou k dispozici ve všech Azure Synapse pracovních prostorech. Rozšířená verze funkce OPENROWSET umožňuje bezserverové fondy SQL přistupovat k datům v Data Lake Storage.

Tento přístup k datům umožňuje vytváření objektů relačních databází, jako jsou tabulky a zobrazení kolekcí datových souborů, které představují logické entity, jako jsou produkty, zákazníky a prodejní transakce. Nástroje BI, které se připojují pomocí standardního koncového bodu SQL Server, můžou tyto logické entity využívat jako dimenze a tabulky faktů.

Diagram znázorňující souběžné porovnání koncepčního návrhu LDW vedle implementace LDW s bezserverovým fondem SQL Azure Synapse Analytics

Možnost přístupu k transakčním úložištím dat, jako je Azure Cosmos DB, prostřednictvím Azure Synapse Linku pro Službu Azure Cosmos DB tyto možnosti rozšiřuje. Přístup k datům OLTP pomocí architektury HTAP poskytuje okamžité aktualizace bez zásahu do živých transakcí.

Diagram znázorňující tok externích dat do vrstvy generování sestav pomocí bezserverového fondu SQL Azure Synapse Analytics

Každý Azure Synapse pracovní prostor obsahuje koncový bod SQL na vyžádání. Koncový bod umožňuje SQL Server správcům a vývojářům používat známá prostředí pro práci s LDW, které Azure Synapse definovat bezserverové fondy SQL.

Následující snímek obrazovky ukazuje, SQL Server Management Studio (SSMS) připojený k Azure Synapse bezserverovém fondu SQL.

Snímek obrazovky znázorňující aplikaci SSMS připojenou ke koncovému bodu Azure Synapse SQL Server

Azure Synapse bezserverové fondy SQL podporují následující formáty souborů:

  • Text s oddělovači, například CSV, TSV a TXT
  • JSON
  • Parquet

Azure Synapse bezserverové fondy SQL podporují také formát Delta Lake. Tato podpora umožňuje vzory, jako je rozšiřování Sparku, a slouží s SQL, kde služby Apache Spark™, jako jsou Azure Databricks nebo Fondy Apache Sparku, v Azure Synapse inženýrů k vytváření kurátorovaných datových sad v data lake. Místo toho, abyste museli tyto datové sady načítat do fyzického datového skladu, můžete definovat LDW přes datové jezero a poskytnout tak vrstvu modelu nebo služby pro vytváření sestav.

Diagram znázorňující tok externích dat do vrstvy generování sestav pomocí bezserverového fondu SQL Azure Synapse Analytics

LDW s Azure Synapse bezserverovými fondy SQL je implementace modelu Data Lakehouse. Použití Databricks SQL k implementaci LDW je alternativní řešení. Databricks SQL ale nemá možnost HTAP Azure Synapse Link pro Cosmos DB.

Potenciální případy použití

Tento model je užitečný v následujících případech:

  • Vrstva obsluhující datový sklad pro BI a další analytické případy použití
  • Ad hoc zkoumání nezpracovaných dat v datovém jezeře
  • Nákladově efektivní streamování dat do datového jezera, které k zápisu dat nevyžaduje vlastní výpočetní prostředky. Tabulka logické databáze, zobrazení nebo ad hoc dotaz T-SQL má k datům okamžitý přístup z data lake.
  • Okamžitý přístup k transakčním datům Azure Cosmos DB za účelem vytváření kanálů agregace v reálném čase nebo spojení s analytickými daty uloženými v data lake.

Přispěvatelé

Tento článek spravuje Microsoft. Původně ji napsali následující přispěvatelé.

Hlavní autor:

Pokud chcete zobrazit neveřejné profily LinkedIn, přihlaste se na LinkedIn.

Další kroky