Analýzy velkých objemů dat s využitím zabezpečení na podnikové úrovni s využitím Azure Synapse

Azure Analysis Services
Azure Data Lake Storage
Azure Synapse Analytics

Nápady na řešení

Tento článek je myšlenkou řešení. Pokud chcete, abychom obsah rozšířili o další informace, jako jsou potenciální případy použití, alternativní služby, aspekty implementace nebo pokyny k cenám, dejte nám vědět tím, že nám poskytnete zpětnou vazbu k GitHubu.

Řešení popsané v tomto článku ukazuje, jak pomocí Azure Synapse Analytics vytvořit moderní datovou platformu pro příjem, zpracování, ukládání, obsluhu a vizualizaci dat z různých zdrojů.

Architektura

Diagram showing the data flow in this solution. For a detailed explanation, see the following article text.

Stáhněte si soubor aplikace Visio s touto architekturou.

Tok dat

Data procházejí tímto řešením:

  1. Kanály Synapse kopírují aktivity ingestování nezpracovaných strukturovaných dat z externích relačních datových skladů, částečně strukturovaných dat, jako jsou protokoly, ploché soubory a xml a další zdrojové systémy. Tato ingestovaná data se pak uloží do umístění Azure Data Lake Storage Gen2. Pomocí místního prostředí Integration Runtime můžete také spravovat a spouštět aktivity kopírování mezi úložištěm dat v místním prostředí a v cloudu.

  2. Azure Data Lake Storage Gen2 poskytuje zabezpečené úložiště.

    • K omezení přístupu účtu úložiště k důvěryhodným službám Azure se doporučuje omezit ohrožení zabezpečení externího útoku pomocí brány firewall.

    • Privátní koncové body pro účty Azure Storage umožňují klientům ve virtuální síti bezpečně přistupovat k datům přes Private Link. Privátní koncový bod používá IP adresu z adresního prostoru virtuální sítě pro službu účtu úložiště. Síťový provoz mezi klienty ve virtuální síti a účtem úložiště prochází přes virtuální síť a privátní propojení v páteřní síti Microsoftu, čímž se eliminuje vystavení veřejnému internetu.

  3. Neaktivní uložená data se šifrují, jakmile se ingestují do datového jezera. Použití vlastních klíčů spravovaných zákazníkem může dále chránit šifrovací klíče a při správě řízení přístupu získáte větší flexibilitu.

  4. Data se ingestují pomocí kanálů Synapse a zpracovávají se ve fázích pomocí fondu Synapse Spark a jeho funkcí Data Lake. Data se ukládají v účtu Azure Storage pomocí adresářů Azure Data Lake Storage Gen2 specifických pro fázi. Tyto fáze jsou:

    1. Kanály Synapse kopírují aktivity, které zpočátku ingestují data ze zdrojových systémů. Tato ingestovaná data se ukládají v nezpracovaných formátech pomocí bronzového adresáře data lake.

    2. Fond Synapse Spark pak spustí pravidla kvality dat, která vyčistí nezpracovaná data. Tato rozšířená data se pak ukládají do adresáře Silver data Lake.

    3. Po procesu čištění fond Spark použije u dat v adresáři Silver všechna požadovaná normalizace, transformace dat a obchodní pravidla. Tato transformovaná data se pak uloží do zlatého adresáře data lake.

  5. Konektor Synapse Apache Spark do Synapse SQL odešle normalizovaná data do fondu Synapse SQL pro spotřebu podřízenými aplikacemi a službami generování sestav, jako je Power BI. Tento konektor je navržený tak, aby optimálně přenášel data mezi bezserverovými fondy Apache Sparku a fondy SQL v pracovním prostoru Azure Synapse Analytics.

  6. Služba Power BI používá režim DirectQuery k bezpečnému načtení dat z fondu Synapse SQL. Brána dat nainstalovaná na virtuálním počítači v privátní virtuální síti funguje jako propojovací platforma mezi služba Power BI a fondem Synapse SQL pomocí privátního koncového bodu ve stejné virtuální síti pro bezpečné připojení.

  7. Externí aplikace mají přístup k datům z bezserverových fondů Synapse nebo vyhrazených fondů SQL, a to přístupem k příslušným privátním koncovým bodům připojeným k virtuální síti.

Toto ukázkové řešení využívá několik služeb a funkcí Azure:

  • Azure Synapse Analytics je základní služba, která se v tomto ukázkovém řešení používá k poskytování příjmu, zpracování a analýzy dat.

  • Služba Azure Data Lake Storage (Gen2) je založená na službách Azure Storage a poskytuje funkce datového jezera, které ostatní služby v tomto příkladu řešení používají při ukládání a zpracování dat.

  • Kanály Synapse kopírují data z původních zdrojů do umístění úložiště Data Lake.

  • Apache Spark ve službě Azure Synapse Analytics čistí, normalizuje a provádí další úlohy zpracování dat přijatých ze zdrojových umístění.

  • Vyhrazený fond SQL (dříve SQL DW) poskytuje datové sklady pro data po jejich zpracování a normalizaci a je připravený k použití koncovými uživateli a aplikacemi.

  • Bezserverový fond SQL umožňuje uživatelům rychle dotazovat a analyzovat zpracovávaná a normalizovaná data.

  • Spravovaná virtuální síť Azure Synapse vytvoří izolované spravované prostředí virtuálních sítí pro pracovní prostor Azure Synapse, což vám umožní spravovat konfiguraci sítě pro prostředky pracovního prostoru.

  • Spravované privátní koncové body Azure Synapse navazují privátní propojení s prostředky Azure a směrují provoz mezi pracovními prostory Azure Synapse a dalšími prostředky Azure pomocí pouze páteřní sítě Microsoftu.

  • Azure Virtual Network (VNet) poskytuje možnosti privátní sítě pro prostředky Azure, které nejsou součástí pracovního prostoru Azure Synapse. Umožňuje spravovat přístup, zabezpečení a směrování mezi prostředky.

  • Privátní koncový bod Azure poskytuje privátní IP adresu z virtuální sítě řešení do spravovaných služeb Azure a efektivně propojuje službu s virtuální sítí. To umožňuje zabezpečené sítě mezi pracovním prostorem Azure Synapse a dalšími službami Azure, jako jsou Azure Storage, Azure Cosmos DB, Azure SQL Database nebo vlastní služba Azure Private Link.

  • Power BI umožňuje uživatelům provádět pokročilou analýzu a sdílet přehledy pomocí zpracovaných dat řešení.

Komponenty

Podrobnosti scénáře

Azure Synapse Analytics spojuje integraci dat, podnikové datové sklady a analýzy velkých objemů dat, které vám pomůžou vytvořit moderní datovou platformu, která dokáže zvládnout nejběžnější problémy s daty, kterým čelí velké organizace. Azure Virtual Network umožňuje vytvořit vlastní privátní síť ve veřejném cloudu Azure a spravované síti a privátní koncový bod Azure umožňuje bezpečně integrovat spravované cloudové služby do těchto privátních sítí.

Potenciální případy použití

Řešení popsané v tomto článku ukazuje, jak tyto technologie kombinovat a vytvořit moderní datovou platformu, která dokáže ingestovat, zpracovávat, ukládat, obsluhovat a vizualizovat data z různých zdrojů, a to jak strukturovaných, tak částečně strukturovaných a částečně strukturovaných, zatímco splňuje vysoké standardy zabezpečení, které vaše organizace očekává. To zahrnuje podporu běžných požadavků, například:

  • Zabezpečení zdrojů dat Zdroje dat uvnitř místní podnikové sítě nebo virtuální sítě jsou zabezpečené za bránou firewall. K těmto prostředkům se dá bezpečně přistupovat instalací místního prostředí Integration Runtime na prostředky hostované místně nebo ve virtuálních sítích.

  • Ověřování a autorizace pomocí spravovaných identit Komunikaci mezi službami Azure je možné zabezpečit pomocí spravovaných identit, které poskytují identitu aplikacím, které se mají použít při připojování k prostředkům, které podporují ověřování Microsoft Entra. V tomto příkladu Azure Synapse používá spravovanou identitu k integraci kanálů.

  • Privátní koncové body, které navazují privátní propojení s prostředky Azure Azure Synapse poskytuje plně spravované funkce privátního koncového bodu pro služby v pracovním prostoru Synapse (například Azure Storage nebo Azure Cosmos DB). Další prostředky Azure, jako jsou aplikace Azure, Microsoft Power BI a služba Azure Synapse, jsou zabezpečené pomocí privátních koncových bodů integrovaných do virtuální sítě ukázkového řešení. Síťový provoz mezi vaší privátní sítí a fondy Synapse používá službu Private Link k přesunu provozu přes páteřní síť Microsoftu, čímž eliminuje riziko ohrožení veřejného internetu.

  • Šifrování přenášených dat Přenášená data se šifrují, protože všechny přenosy dat jsou prostřednictvím zabezpečeného kanálu HTTPS a TLS přes protokol TCP, aby se zabránilo útokům typu man-in-the-middle během komunikace se službami Azure, což zajišťuje kompletní zabezpečený přesun privátních dat.

  • Šifrování neaktivních uložených dat Transparentní šifrování dat ve službě Azure Synapse Analytics pomáhá chránit před škodlivými aktivitami tím, že provádí šifrování a dešifrování dat uložených v pracovním prostoru Synapse v reálném čase. Azure Storage také šifruje všechna neaktivní uložená data v účtu úložiště. Ve výchozím nastavení se data šifrují pomocí klíčů spravovaných Microsoftem, ale pokud potřebujete další kontrolu nad šifrováním, můžete spravovat vlastní klíče.

Nasazení tohoto scénáře

Musíte mít existující účet Azure. Pokud ještě nemáte předplatné Azure, vytvořte si napřed bezplatný účet.

Šablony Azure Resource Manageru, které budete potřebovat k nasazení komponent popsaných v této architektuře, jsou k dispozici v úložišti GitHub . Tyto šablony nasadí všechny služby uvedené v diagramu architektury s výjimkou: brány dat Power BI, místního prostředí Integration Runtime a služby Azure Key Vault pro klíče spravované zákazníkem.

Je na uživateli, aby vytvořil strukturu složek Data Lake a integrační kanály Azure Synapse Analytics, které jsou nezbytné pro připojení ke zdrojům dat.

Kliknutím na toto tlačítko nasaďte šablonu ARM přímo:

Deploy to Azure

Přispěvatelé

Tento článek spravuje Microsoft. Původně byla napsána následujícími přispěvateli.

Hlavní autor:

Další kroky

Pokud se chcete dozvědět, jak tento přístup dále vyvíjet, seznamte se se základy Azure Synapse Analytics dokončením následujících kurzů:

Při plánování a nasazování řešení s využitím Azure Synapse Analytics si projděte tyto články: