Firemní datový sklad

Azure Blob Storage
Azure Data Lake
Azure Synapse Analytics

Nápady na řešení

Tento článek je myšlenkou řešení. Pokud chcete, abychom obsah rozšířili o další informace, jako jsou potenciální případy použití, alternativní služby, aspekty implementace nebo pokyny k cenám, dejte nám vědět tím, že nám poskytnete zpětnou vazbu k GitHubu.

Tento článek představuje řešení podnikového datového skladu v Azure, které:

  • Spojí všechna vaše data bez ohledu na měřítko nebo formát.
  • Poskytuje všem uživatelům způsob, jak získat přehledy z vašich dat prostřednictvím analytických řídicích panelů, provozních sestav a pokročilých analýz.

Apache® a Apache Spark jsou registrované ochranné známky nebo ochranné známky Apache Software Foundation v USA a/nebo v jiných zemích. Použití těchto značek nevyžaduje žádné doporučení Apache Software Foundation.

Architektura

Architecture diagram of an enterprise data warehouse that uses Azure Synapse Analytics, Data Lake Storage, Analysis Services, and Power BI.

Stáhněte si soubor aplikace Visio s touto architekturou.

Tok dat

  1. Kanály Azure Synapse Analytics spojují strukturovaná, nestrukturovaná a částečně strukturovaná data, jako jsou protokoly, soubory a média. Kanály ukládají data ve službě Azure Data Lake Storage.
  2. Fondy Apache Sparku v Azure Synapse Analytics čistí a transformují data Data Lake Storage.
  3. Azure Synapse Analytics kombinuje zpracovávaná data se stávajícími strukturovanými daty a vytváří jedno sjednocené datové centrum.
  4. Vyhrazený fond SQL zpřístupňuje data pro provozní sestavy a analytické řídicí panely, které odvozují přehledy. Azure Analysis Services obsluhuje sestavy a řídicí panely tisícům koncových uživatelů.

Komponenty

  • Azure Synapse Analytics je analytická služba pro datové sklady a systémy pro velké objemy dat. Tento nástroj používá architekturu masivního paralelního zpracování a má hlubokou integraci se službami Azure.
  • Kanály Azure Synapse Analytics poskytují způsob, jak vytvářet, plánovat a orchestrovat pracovní postupy, jako jsou extrakce, načítání, transformace (ELT) a extrakce, transformace, načítání (ETL).
  • Azure Blob Storage poskytuje široce škálovatelné a nákladově efektivní úložiště objektů pro libovolný typ nestrukturovaných dat – obrázky, videa, zvuk, dokumenty a další.
  • Data Lake Storage je úložiště, které obsahuje velké množství dat v nativním nezpracovaném formátu. Data Lake Storage je postavená na službě Blob Storage. Služba Data Lake Storage proto nabízí škálovatelnost, vrstvené úložiště, vysokou dostupnost a možnosti zotavení po havárii služby Blob Storage.
  • Fondy Spark služby Azure Synapse Analytics poskytují architekturu paralelního zpracování, která podporuje zpracování v paměti za účelem zvýšení výkonu analytických aplikací pro velké objemy dat.
  • Analysis Services je analytický modul na podnikové úrovni, který poskytuje uživatelům snadný způsob, jak provádět ad hoc analýzu dat. Službu Analysis Services můžete použít k řízení, testování a doručování obchodních řešení ve velkém měřítku.
  • Power BI je sada nástrojů pro obchodní analýzy, které poskytují přehledy v celé organizaci. Pomocí Power BI se můžete připojit ke stovkám zdrojů dat, zjednodušit přípravu dat a řídit ad hoc analýzu. Můžete také vytvářet krásné sestavy a publikovat je pro vaši organizaci, aby je mohly využívat na webu a na mobilních zařízeních.

Podrobnosti scénáře

Podnikový datový sklad spojuje všechna vaše data bez ohledu na zdroj, formát nebo škálování. Datový sklad také poskytuje způsob, jak spouštět vysoce výkonné analýzy dat, abyste mohli získat přehledy prostřednictvím analytických řídicích panelů, provozních sestav a pokročilých analýz.

Toto řešení vytvoří datový sklad, který:

  • Je jedním zdrojem pravdy pro vaše data.
  • Integruje relační zdroje dat s jinými nestrukturovanými datovými sadami.
  • Používá sémantické modelování a výkonné vizualizační nástroje pro jednodušší analýzu dat.

K integraci dat do sjednocené platformy používá toto řešení kanály Azure Synapse Analytics. Tyto kanály nabízejí možnosti ELT a ETL. Konkrétně můžete pomocí kanálů přesouvat data v pracovních postupech řízených daty. Kanály pracují s různými datovými formáty a strukturami.

Kanály ukládají data ve službě Data Lake Storage, která je založená na službě Blob Storage. Tato služba úložiště dokáže zpracovávat velké objemy nestrukturovaných dat.

Fondy Sparku azure Synapse Analytics tvoří klíčovou součást řešení. Tyto fondy čistí a transformují data uložená v Azure. Jejich architektura paralelního zpracování podporuje zpracování v paměti pro rychlost a efektivitu. Fondy také podporují automatické škálování, aby mohly podle potřeby přidávat nebo odebírat uzly.

Vyhrazený fond SQL zpřístupňuje zpracovávaná data pro vysoce výkonné analýzy. Tento fond ukládá data v relačních tabulkách se sloupcovým úložištěm, což je formát, který výrazně snižuje náklady na úložiště dat. Zlepšuje také výkon dotazů, takže můžete spouštět analýzy v masivním měřítku.

Potenciální případy použití

Toto řešení můžete použít ve scénářích, jako jsou následující, které zahrnují velké objemy dat:

  • Integrace zařízení IoT
  • Platformy zákaznických dat
  • Zpracování přirozeného jazyka
  • Algoritmy strojového učení

Ceny

Pokud chcete zobrazit odhad nákladů na toto řešení, podívejte se na ukázku cen v cenové kalkulačce.

Další kroky