Návrhy řešení
Tento článek je nápadem na řešení. Pokud chcete, abychom obsah rozšířili o další informace, jako jsou potenciální případy použití, alternativní služby, aspekty implementace nebo pokyny k cenám, dejte nám vědět tím, že nám poskytnete zpětnou vazbu na GitHubu.
Model logického datového skladu (LDW) vytváří jednoduchou virtualizovanou relační vrstvu nad daty, která jsou uložená v datovém jezeře nebo databázi. Tato vrstva virtualizace poskytuje přístup k datovému skladu bez nutnosti přesunu dat. Toto řešení může kombinovat data o zpracování online transakcí (OLTP) s analytickými daty z datových jezer, což představuje způsob s nízkou složitostí a nízkou latencí pro úlohy business intelligence (BI) a analytické úlohy.
Apache Spark™ je ochranná známka Apache Software Foundation v USA a/nebo jiných zemích/oblastech. Použití této značky nevyžaduje žádné doporučení ze strany Apache Software Foundation.
Architektura
Stáhněte si powerpointový soubor všech diagramů v tomto článku.
Tok dat
Azure Data Factory integruje data ze zdrojových systémů do podnikového datového jezera.
Data ze zařízení a senzorů se také streamují z hraničních zařízení do cloudu prostřednictvím Azure IoT Hub. Azure Stream Analytics zpracovává data a odesílá je do podnikového datového jezera.
Azure Synapse bezserverové fondy SQL definují LDW, které mají logické tabulky a zobrazení přístupné prostřednictvím koncového bodu bezserverového fondu SQL na vyžádání Azure Synapse pracovního prostoru.
Azure Synapse Link pro Azure Cosmos DB dotazuje transakční data v reálném čase prostřednictvím Azure Synapse bezserverových fondů SQL. Tato data se spojí se studenou dávkou a horkými streamovanými daty z podnikového datového jezera za účelem vytvoření logických zobrazení.
Aplikace pro vytváření sestav, BI a další analytické aplikace přistupují k datům a zobrazením LDW pomocí bezserverového koncového bodu SQL Azure Synapse pracovního prostoru.
Poznámka
Bezserverový koncový bod SQL Azure Synapse pracovního prostoru je přístupný z libovolného nástroje nebo služby, která podporuje připojení TDS (Tabular Data Stream) k SQL Server.
Komponenty
- Azure Synapse Analytics je neomezená analytická služba, která spojuje integraci dat, skladování podnikových dat a analýzu velkých objemů dat.
- Azure Synapse bezserverových fondů SQL se dotazují na datová jezera pomocí koncových bodů T-SQL a bezserverových sql na vyžádání.
- Azure Synapse Link pro Azure Cosmos DB se dotazuje na data OLTP služby Azure Cosmos DB pomocí Azure Synapse bezserverových fondů SQL.
- Data Factory nabízí integraci dat a orchestraci toků dat v cloudovém měřítku.
- IoT Hub umožňuje zabezpečenou a spolehlivou komunikaci mezi aplikacemi a zařízeními internetu věcí (IoT).
- Stream Analytics poskytuje bezserverové kanály analýzy streamování v reálném čase.
- Azure Data Lake Storage nabízí škálovatelné a nákladově efektivní cloudové úložiště.
- Azure Cosmos DB je plně spravovaná databáze NoSQL pro vývoj moderních aplikací.
Podrobnosti scénáře
Pomocí nástroje LDW s Azure Synapse bezserverovými fondy SQL můžete spojit studená dávková data, horká streamovaná data a živá transakční data v jednom dotazu T-SQL nebo definici zobrazení.
Toto řešení zabraňuje přesunu dat mezi složitými, nákladným a latencí náchylným k extrakci, transformaci a načítání (ETL). Koncept LDW se podobá datovému lakehouse, ale LDW s Azure Synapse Analytics zahrnuje podporu hybridního zpracování transakcí a analýz (HTAP). HTAP používá Azure Synapse bezserverových fondů SQL k dotazování dat OLTP uložených ve službě Azure Cosmos DB.
Služba Azure Synapse Analytics LDW je založená na bezserverových fondech SQL, které jsou k dispozici ve všech Azure Synapse pracovních prostorech. Rozšířená verze funkce OPENROWSET umožňuje bezserverové fondy SQL přistupovat k datům v Data Lake Storage.
Tento přístup k datům umožňuje vytváření objektů relačních databází, jako jsou tabulky a zobrazení kolekcí datových souborů, které představují logické entity, jako jsou produkty, zákazníky a prodejní transakce. Nástroje BI, které se připojují pomocí standardního koncového bodu SQL Server, můžou tyto logické entity využívat jako dimenze a tabulky faktů.
Možnost přístupu k transakčním úložištím dat, jako je Azure Cosmos DB, prostřednictvím Azure Synapse Linku pro Službu Azure Cosmos DB tyto možnosti rozšiřuje. Přístup k datům OLTP pomocí architektury HTAP poskytuje okamžité aktualizace bez zásahu do živých transakcí.
Každý Azure Synapse pracovní prostor obsahuje koncový bod SQL na vyžádání. Koncový bod umožňuje SQL Server správcům a vývojářům používat známá prostředí pro práci s LDW, které Azure Synapse definovat bezserverové fondy SQL.
Následující snímek obrazovky ukazuje, SQL Server Management Studio (SSMS) připojený k Azure Synapse bezserverovém fondu SQL.
Azure Synapse bezserverové fondy SQL podporují následující formáty souborů:
- Text s oddělovači, například CSV, TSV a TXT
- JSON
- Parquet
Azure Synapse bezserverové fondy SQL podporují také formát Delta Lake. Tato podpora umožňuje vzory, jako je rozšiřování Sparku, a slouží s SQL, kde služby Apache Spark™, jako jsou Azure Databricks nebo Fondy Apache Sparku, v Azure Synapse inženýrů k vytváření kurátorovaných datových sad v data lake. Místo toho, abyste museli tyto datové sady načítat do fyzického datového skladu, můžete definovat LDW přes datové jezero a poskytnout tak vrstvu modelu nebo služby pro vytváření sestav.
LDW s Azure Synapse bezserverovými fondy SQL je implementace modelu Data Lakehouse. Použití Databricks SQL k implementaci LDW je alternativní řešení. Databricks SQL ale nemá možnost HTAP Azure Synapse Link pro Cosmos DB.
Potenciální případy použití
Tento model je užitečný v následujících případech:
- Vrstva obsluhující datový sklad pro BI a další analytické případy použití
- Ad hoc zkoumání nezpracovaných dat v datovém jezeře
- Nákladově efektivní streamování dat do datového jezera, které k zápisu dat nevyžaduje vlastní výpočetní prostředky. Tabulka logické databáze, zobrazení nebo ad hoc dotaz T-SQL má k datům okamžitý přístup z data lake.
- Okamžitý přístup k transakčním datům Azure Cosmos DB za účelem vytváření kanálů agregace v reálném čase nebo spojení s analytickými daty uloženými v data lake.
Přispěvatelé
Tento článek spravuje Microsoft. Původně ji napsali následující přispěvatelé.
Hlavní autor:
- Jon Dobrzeniecki | Sr. Cloud Solution Architect
Pokud chcete zobrazit neveřejné profily LinkedIn, přihlaste se na LinkedIn.
Další kroky
- Dotazování souborů úložiště pomocí bezserverového fondu SQL v Azure Synapse Analytics
- Kurz: Vytvoření logické Data Warehouse s bezserverovým fondem SQL
- Co je Azure Synapse Link pro Azure Cosmos DB?
- POLARIS: Distribuovaný modul SQL v Azure Synapse
- Co je Delta Lake?