Tento příklad scénáře ukazuje, jak pomocí rozsáhlé rodiny azure Data Services vytvořit moderní datovou platformu, která dokáže zvládnout nejběžnější problémy s daty v organizaci.
Řešení popsané v tomto článku kombinuje řadu služeb Azure, které budou ingestovat, ukládat, zpracovávat, rozšiřovat a obsluhovat data a přehledy z různých zdrojů (strukturované, částečně strukturované, nestrukturované a streamované).
Relevantní případy použití
Tento přístup lze také použít k:
- Vytvořte datové centrum v celém podniku, které se skládá z datového skladu pro strukturovaná data a datového jezera pro částečně strukturovaná a nestrukturovaná data. Toto datové centrum se stane jediným zdrojem pravdivých informací pro data sestav.
- Integrujte relační zdroje dat s jinými nestrukturovanými datovými sadami s použitím technologií zpracování velkých dat.
- Použijte sémantické modelování a výkonné vizualizační nástroje pro jednodušší analýzu dat.
- Datové sady můžete sdílet v rámci organizace nebo s důvěryhodnými externími partnery.
Architektura
Poznámka
- Služby zahrnuté v této architektuře jsou pouze podmnožinou mnohem větší skupiny služeb Azure. Podobných výsledků lze dosáhnout pomocí jiných služeb nebo funkcí, na které se tento návrh nevztahuje.
- Konkrétní obchodní požadavky na váš případ použití analýz mohou také žádat o použití různých služeb nebo funkcí, které nejsou v tomto návrhu zváženy.
Případy použití analýz
Analytické případy použití, které architektura popisuje, ilustrují různé zdroje dat na levé straně diagramu. Data protékají řešením zdola nahoru následujícím způsobem:
Azure Data Services, HTAP nativní pro cloud s Cosmos DB
Azure Synapse Link pro Azure Cosmos DB umožňuje spouštět analýzy provozních dat v Azure Cosmos DB v reálném čase pomocí dvou analytických modulů dostupných ve vašem pracovním prostoru Azure Synapse: SQL Bez serveru a Fondy Spark.
Pomocí bez serveru SQL nebo poznámkového bloku fondu Sparkumůžete získat přístup k analytickému obchodu Cosmos DB a pak kombinovat datové sady z provozních dat v reálném čase s daty z datového jezera nebo datového skladu.
Výsledné datové sady z vašeho SQL bez serveru je možné zachovat ve vašem datovém jezeře. Pokud používáte poznámkové bloky Sparku,výsledné datové sady je možné zachovat ve vašem datovém jezeře nebo datovém skladu (SQL fondu).
Načtěte relevantní data z Azure Synapse SQL nebo data lake do Power BI datové sady pro vizualizaci dat. Power BI modely implementují sémantický model, který zjednodušuje analýzu obchodních dat a vztahů.
Obchodní analytici používají Power BI sestav a řídicích panelů k analýze dat a odvození obchodních přehledů.
Data je také možné bezpečně sdílet s dalšími obchodními jednotkami nebo externími důvěryhodnými partnery pomocí Azure Data Share.
Relační databáze
Pomocí Azure Synapse můžete natahovat data z široké škály databází místně i v cloudu. Pipelines je možné aktivovat na základě předdefinovaných plánů v reakci na událost nebo je možné je explicitně volat prostřednictvím rozhraní REST API.
V Azure Synapse kanálu použijte aktivitu Kopírování dat k fázi dat zkopírovaných z relačních databází do zóny Raw vašeho datového jezera Azure Data Lake Store Gen2. Data můžete uložit v textovém formátu s oddělovači nebo komprimovat jako soubory Parquet.
K ověření,transformaci a přesunu datovýchsad do kurátorované zóny v datovém jezeře použijte toky dat, SQL bez serveru nebo poznámkové bloky Sparku.
- V rámci transformací dat můžete volat modely strojového učení z fondů SQL pomocí standardních poznámkových bloků T-SQL sparkových poznámkových bloků. Tyto ML můžete použít k obohacení datových sad a generování dalších obchodních přehledů. Tyto modely strojového učení je možné využívat z Azure Cognitive Services nebo vlastních ML z Azure ML.
Konečnou datovou sadu můžete obsloužit přímo ze zóny Kurátorované datové jezero nebo můžete pomocí aktivity Kopírování dat ingestovat konečnou datovou sadu do tabulek fondu SQL pomocí příkazu COPY pro rychlý příjem dat.
Načtěte relevantní data z Azure Synapse SQL nebo data lake do Power BI datové sady pro vizualizaci dat. Power BI modely implementují sémantický model, který zjednodušuje analýzu obchodních dat a vztahů.
Obchodní analytici používají Power BI sestav a řídicích panelů k analýze dat a odvození obchodních přehledů.
Data je také možné bezpečně sdílet s dalšími obchodními jednotkami nebo externími důvěryhodnými partnery pomocí Azure Data Share.
Částečně strukturované zdroje dat
Pomocí Azure Synapse můžete natahovat data z široké škály částečně strukturovaných zdrojů dat místně i v cloudu. Příklad:
- Ingestování dat ze zdrojů založených na souborech obsahujících soubory CSV nebo JSON
- Připojení k databázím bez SQL, jako je Cosmos DB nebo Mongo DB.
- Volejte rozhraní REST API poskytovaná aplikacemi SaaS, která budou fungovat jako zdroj dat pro kanál.
Z kanálu Azure Synapse můžete použít aktivitu Kopírování dat k fázi dat zkopírovaných z částečně strukturovaných zdrojů dat do zóny Raw vašeho datového jezera Azure Data Lake Store Gen2. Měli byste uložit data, která se zachovávají v původním formátu získaném ze zdrojů dat.
Pomocí toků dat, SQL bez serveru nebo poznámkových bloků Spark ověřte, transformujte a přesuňte datové sady do kurátorované zóny ve vašem datovém jezeře. SQL Dotazy bez serveru zpřístupňuje základní soubory CSV, Parquet nebo JSON jako externí tabulky, aby je bylo možné dotazovat pomocí T-SQL.
- V rámci transformací dat můžete volat modely strojového učení z fondů SQL pomocí standardních poznámkových bloků T-SQL sparkových poznámkových bloků. Tyto ML můžete použít k obohacení datových sad a generování dalších obchodních přehledů. Tyto modely strojového učení je možné využívat z Azure Cognitive Services nebo vlastních ML z Azure ML.
Konečnou datovou sadu můžete obsloužit přímo ze zóny Kurátorované datové jezero nebo můžete pomocí aktivity Kopírování dat ingestovat konečnou datovou sadu do tabulek fondu SQL pomocí příkazu COPY pro rychlý příjem dat.
Načtěte relevantní data z Azure Synapse SQL nebo data lake do Power BI datové sady pro vizualizaci dat. Power BI modely implementují sémantický model, který zjednodušuje analýzu obchodních dat a vztahů.
Obchodní analytici používají Power BI sestav a řídicích panelů k analýze dat a odvození obchodních přehledů.
Data je také možné bezpečně sdílet s dalšími obchodními jednotkami nebo externími důvěryhodnými partnery pomocí Azure Data Share.
Nestruktury zdrojů dat
Pomocí Azure Synapse můžete natahovat data z široké škály nestrukturyných zdrojů dat, a to jak místně, tak v cloudu. Příklad:
- Ingestování videa, obrázku, zvuku nebo volného textu ze zdrojů založených na souborech obsahujících zdrojové soubory
- Volejte rozhraní REST API poskytovaná aplikacemi SaaS, která budou fungovat jako zdroj dat pro kanál.
Z kanálu Azure Synapse použijte aktivitu Kopírování dat k fázi dat zkopírovaných z nestruktury zdrojů dat do zóny Raw vašeho datového jezera Azure Data Lake Store Gen2. Měli byste uložit data, která se zachovávají v původním formátu získaném ze zdrojů dat.
Pomocí poznámkových bloků Spark můžete ověřovat, transformovat, rozšiřovat a přesouvat datové sady do kurátorované zóny v datovém jezeře.
- V rámci transformací dat můžete volat modely strojového učení z fondů SQL pomocí standardních poznámkových bloků T-SQL sparkových poznámkových bloků. Tyto ML můžete použít k obohacení datových sad a generování dalších obchodních přehledů. Tyto modely strojového učení je možné využívat z Azure Cognitive Services nebo vlastních ML z Azure ML.
Konečnou datovou sadu můžete obsloužit přímo ze zóny Kurátorované datové jezero nebo můžete pomocí aktivity Kopírování dat ingestovat konečnou datovou sadu do tabulek datového skladu pomocí příkazu COPY pro rychlý příjem dat.
Načtěte relevantní data z Azure Synapse SQL nebo data lake do Power BI datové sady pro vizualizaci dat. Power BI modely implementují sémantický model, který zjednodušuje analýzu obchodních dat a vztahů.
Obchodní analytici používají Power BI sestav a řídicích panelů k analýze dat a odvození obchodních přehledů.
Data je také možné bezpečně sdílet s dalšími obchodními jednotkami nebo externími důvěryhodnými partnery pomocí Azure Data Share.
Streamování
Pomocí Azure Event Hubs nebo Azure IoT Hubs ingestujte datové proudy generované klientskými aplikacemi nebo zařízeními IoT. Centrum událostí nebo IoT Hub pak ingestuje a uloží streamovaná data a zachová posloupnost přijatých událostí. Spotřebiteli se pak mohou připojit k centru událostí nebo IoT Hub koncové body a načíst zprávy pro zpracování.
Nakonfigurujte event hub capture nebo IoT Hub Storage koncové body a uložte kopii událostí do zóny Raw vašeho datového jezera Azure Data Lake Store Gen2. Tato funkce implementuje "studenou cestu" vzoru architektury Lambda a umožňuje provádět historické a trendové analýzy streamovaných dat uložených ve vašem datovém jezeře pomocí dotazů SQL bez serveru nebo poznámkových bloků Spark podle vzoru pro částečně strukturované zdroje dat popsané výše.
Pomocí Stream Analytics můžete implementovat "horkou cestu" vzoru architektury Lambda a odvodit přehledy z dat datového proudu během přenosu. Definujte alespoň jeden vstup pro datový proud přicházející z centra událostí nebo IoT Hub, jeden dotaz pro zpracování vstupního datového proudu Power BI jeden výstup Power BI, kam se budou výsledky dotazu odesílat.
- V rámci zpracování dat pomocí Stream Analytics můžete vyvolat modely strojového učení a obohatit datové sady datových proudů a řídit obchodní rozhodnutí na základě generovaných předpovědí. Tyto modely strojového učení je možné využívat z Azure Cognitive Services nebo z vlastních ML ve službě Azure Machine Learning.
Obchodní analytici pak Power BI datové sady a možnosti řídicích panelů v reálném čase pro k vizualizaci rychle se měnících přehledů generovaných vaším Stream Analytics dotazem.
Zjišťování a řízení
Zásady správného řízení dat jsou v rozsáhlých podnikových prostředích běžným problémem. Obchodní analytici na jedné straně musí být schopni zjišťovat a chápat datové prostředky, které jim můžou pomoct při řešení obchodních problémů. Na druhé straně ředitelka dat chce mít přehled o ochraně osobních údajů a zabezpečení obchodních dat.
Azure Purview
Azure Purview můžete využít ke zjišťování dat a přehledům zásad správného řízení vašich datových prostředků,klasifikaci dat a citlivosti pokrývající celou oblast dat organizace.
Azure Purview vám může pomoct udržovat obchodní glosář s konkrétní obchodní terminologií, kterou uživatelé potřebují k pochopení sémantiky toho, co datové sady znamenají a jak se mají používat v celé organizaci.
Můžete zaregistrovat všechny zdroje dat a nastavit pravidelné kontroly pro automatické katalogizaci a aktualizaci relevantních metadat o datových assetech v organizaci. Azure Purview může také automaticky přidávat informace o datových řádcích na základě informací z Azure Data Factory nebo Azure Synapse kanálů.
Popisky klasifikace dat a citlivosti dat je možné automaticky přidat do datových assetů na základě předem nakonfigurovaných nebo obvyklých pravidel použitých při pravidelných kontrolách.
Odborníci na zásady správného řízení dat mohou používat sestavy a přehledy vygenerované službou Azure Purview, aby si udrželi kontrolu nad celým prostředím dat a chránili organizaci před problémy se zabezpečením a ochranou osobních údajů.
Služby platformy
Pokud chcete zlepšit kvalitu vašich řešení Azure, postupujte podle doporučení a pokynů definovaných v architektuře Azure Well-Architected Framework s pěti pilíři kvalitní architektury: optimalizace nákladů, efektivita provozu, efektivita výkonu, spolehlivost a zabezpečení.
Následující služby by se měly považovat za součást návrhu podle těchto doporučení:
- Azure Active Directory:služby identit, jednotné přihlašování a vícefaktorové ověřování napříč úlohami Azure.
- Azure Cost Management:finanční zásady správného řízení pro vaše úlohy Azure.
- Azure Key Vault:Zabezpečení správy přihlašovacích údajů a certifikátů. Například Azure Synapse Pipelines , Azure Synapse Spark a Azure ML mohou načítat přihlašovací údaje a certifikáty z Azure Key Vault pro zabezpečený přístup k datovým úložišťm.
- Azure Monitor:shromažďování, analýza a práce s telemetrickými informacemi vašich prostředků Azure za účelem proaktivní identifikace problémů a maximalizace výkonu a spolehlivosti.
- Azure Security Center:posílit a monitorovat stav zabezpečení vašich úloh Azure.
- Azure DevOps & GitHub:Implementujte DevOps, které vynucují automatizaci a dodržování předpisů pro kanály vývoje a nasazení úloh pro Azure Synapse a Azure ML.
- Azure Policy:Implementujte organizační standardy a zásady správného řízení pro zajištění konzistence prostředků, dodržování právních předpisů, zabezpečení, nákladů a správy.
Součásti architektury
V architektuře byly použity následující služby Azure:
- Azure Synapse Analytics
- Azure Data Lake Gen2
- Azure Cosmos DB
- Azure Cognitive Services
- Azure Machine Learning
- Azure Event Hubs
- Azure IoT Hub
- Azure Stream Analytics
- Azure Purview
- Azure Data Share
- Microsoft Power BI
- Azure Active Directory
- Správa nákladů v Azure
- Azure Key Vault
- Azure Monitor
- Azure Security Center
- Azure DevOps
- Azure Policy
- GitHubu
Alternativy
Ve výše uvedené architektuře jsou Azure Synapse kanály zodpovědné za orchestraci datových kanálů. Azure Data Factory kanály také poskytují stejné možnosti, které jsou popsané v tomto článku.
Azure Databricks lze také použít jako výpočetní modul, který se používá ke zpracování strukturovaných a nestrukturovaných dat přímo v datovém jezeře.
Ve výše uvedené architektuře je Azure Stream Analytics odpovědná za zpracování streamovaných dat. Azure Synapse fondy Sparku a Azure Databricks můžete také použít k provedení stejné role prostřednictvím provádění poznámkových bloků.
Azure HDInsight clustery Kafka je také možné použít k ingestování streamovaných dat a zajištění správné úrovně výkonu a škálovatelnosti vyžadované velkými úlohami streamování.
Můžete také využít vlastní Azure Functions k vyvolání Azure Cognitive Services nebo Azure Machine Learning vlastních ML z Azure Synapse kanálu.
Porovnání jiných alternativ najdete zde:
Požadavky
Technologie v této architektuře byly zvoleny, protože každá z nich poskytuje nezbytné funkce pro řešení nejběžnějších problémů s daty v organizaci. Tyto služby splňují požadavky na škálovatelnost a dostupnost a zároveň pomáhají řídit náklady. Služby zahrnuté v této architektuře jsou pouze podmnožinou mnohem větší skupiny služeb Azure. Podobných výsledků lze dosáhnout pomocí jiných služeb nebo funkcí, na které se tento návrh nevztahuje.
Konkrétní obchodní požadavky na případy použití analýz mohou také žádat o použití různých služeb nebo funkcí, které nejsou v tomto návrhu zváženy.
Podobnou architekturu je možné implementovat také v předprodukcích prostředí, kde můžete vyvíjet a testovat úlohy. Vezměte v úvahu specifické požadavky pro vaše úlohy a možnosti jednotlivých služeb pro nákladově efektivní předprodukní prostředí.
Ceny
Obecně platí, že k odhadu nákladů použijte cenovou kalkulačku Azure. Ideální individuální cenová úroveň a celkové náklady na každou službu zahrnutou v architektuře závisí na množství dat, která se mají zpracovat a uložit, a na očekávané přijatelné úrovni výkonu. Další informace o tom, jak jednotlivé služby stojí, najdete v následujícím průvodci:
Azure Synapse Analytics bez serveru umožňuje nezávisle škálovat úrovně výpočetních prostředků a úložiště. Výpočetní prostředky se účtují na základě využití a tyto prostředky můžete na vyžádání škálovat nebo pozastavit. Storage se účtut za terabajt, takže se vaše náklady při ingestování dalších dat zvýší.
Azure Data Lake Gen2 se účtuje na základě množství uložených dat a počtu transakcí pro čtení a zápis dat.
Azure Event Hubs a Azure IoT Hub se účtují na základě množství výpočetních prostředků požadovaných ke zpracování datových proudů zpráv.
Azure Machine Learning poplatky pocházejí z množství výpočetních prostředků používaných k trénování a nasazování modelů strojového učení.
Cognitive Services se účtují na základě počtu volání rozhraní API služby.
Cena za Azure Purview vychází z počtu datových prostředků v katalogu a výpočetního výkonu potřebného k jejich prohledávání.
Azure Stream Analytics se účtují na základě množství výpočetního výkonu potřebného ke zpracování dotazů streamu.
Power BI má různé možnosti produktů pro různé požadavky. Power BI Embedded poskytuje možnost vkládání funkcí do vašich aplikací Power BI azure. Instance Power BI Embedded je součástí výše uvedené ukázky cen.
Cena služby Azure CosmosDB vychází z objemu úložiště a výpočetních prostředků vyžadovaných vašimi databázemi.
Další kroky
Komplexní pokyny k architektuře datových kanálů, datových skladů, online analytického zpracování (OLAP) a velkých dat najdete v příručce k architektuře dat Azure.
Seznamte se Datoví technici Učení v Microsoftu a seznamte se s dalšími školeními k obsahu a cvičením ke službám, které jsou součástí této referenční architektury.
