Idea řešení
Pokud se chcete podívat, jak tento článek rozšíříme o další informace, jako jsou potenciální případy použití, alternativní služby, aspekty implementace nebo pokyny k cenám, dejte nám vědět pomocí GitHub Feedback!
Azure synapse Analytics spojuje integraci dat, podnikové datové sklady a analýzy velkých objemů dat, které vám pomůžou vytvořit moderní datovou platformu, která dokáže zpracovávat nejběžnější výzvy k práci s daty orientovanými na velké organizace. Azure Virtual Network umožňuje vytvořit vlastní privátní síť ve veřejném cloudu Azure a spravované síti a soukromý koncový bod Azure umožňuje do těchto privátních sítí bezpečně integrovat spravované cloudové služby.
Potenciální případy použití
Řešení popsané v tomto článku ukazuje, jak tyto technologie kombinovat, abyste mohli vytvořit moderní datovou platformu, která umožňuje ingestovat, zpracovávat, ukládat, obsluhovat a vizualizovat data z různých zdrojů, jak strukturovaných, tak i částečně strukturovaných, a přitom splňují standardy vysokého zabezpečení, které vaše organizace očekává. To zahrnuje podporu běžných požadavků, jako jsou:
Zabezpečení zdrojů dat. Zdroje dat v místní podnikové síti nebo ve virtuální síti jsou zabezpečené za bránou firewall. K těmto prostředkům se dá bezpečně přistup nainstalovat Integration runtime v místním prostředí do prostředku hostovaného místně nebo ve virtuálních sítích.
Ověřování a autorizace pomocí spravovaných identit. komunikace mezi službami Azure se dá zabezpečit pomocí spravovaných identit. tato služba poskytuje identitu pro aplikace, které se použijí při připojování k prostředkům, které podporují ověřování Azure Active Directory (Azure AD). V tomto příkladu Azure synapse pomocí spravované identity integruje kanály.
Soukromé koncové body vytvářející privátní odkaz na prostředky Azure. Azure Synapse poskytuje plně spravované funkce privátních koncových bodů pro služby v pracovním prostoru Synapse (například Azure Storage nebo Azure Cosmos DB). další prostředky azure, jako jsou aplikace azure, Microsoft Power BI a služba azure Synapse, jsou zabezpečené pomocí privátních koncových bodů integrovaných do virtuální sítě ukázkového řešení. Síťový provoz mezi vaší privátní sítí a synapse fondy používá privátní odkaz k přesunu provozu přes páteřní síť Microsoftu, což eliminuje expozici veřejnému Internetu.
Šifrování dat při přenosu. Data se zašifrují při přenosu, protože všechny přenosy dat jsou prostřednictvím zabezpečeného kanálu HTTPS a TLS přes protokol TCP, aby při komunikaci se službami Azure nedocházelo k útokům prostředníkem, a zajistili tak komplexní zabezpečený přesun privátních dat.
Šifrování neaktivních dat. Transparentní šifrování dat ve službě Azure synapse Analytics pomáhá chránit před škodlivými aktivitami pomocí šifrování a dešifrování dat uložených v pracovním prostoru synapse v reálném čase. Azure Storage taky šifruje všechna data v účtu úložiště v klidovém umístění. Ve výchozím nastavení se data šifrují pomocí klíčů spravovaných Microsoftem, ale pokud potřebujete větší kontrolu nad šifrováním, můžete spravovat vlastní klíče.
Architektura
Toto ukázkové řešení využívá několik služeb a funkcí Azure:
Azure synapse Analytics je základní službou použitou v tomto ukázkovém řešení k poskytování přijímání, zpracování a analýzám dat.
Azure Data Lake Storage (Gen2) je postaven na Azure Storage services a poskytuje možnosti Data Lake, které v tomto ukázkovém řešení používají k ukládání a zpracování dat i další služby.
Kanály synapse zkopíruje data z původních zdrojů do umístění služby Data Lake Storage.
Apache Spark ve službě Azure synapse Analytics cleanses, normalizuje a provádí další úlohy zpracování pro data ingestovaná ze zdrojových umístění.
vyhrazený fond SQL (dřív SQL DW) poskytuje možnosti datového skladu pro data poté, co byla zpracována a normalizována a je připravena pro použití koncovými uživateli a aplikacemi.
fond SQL bez serveru umožňuje uživatelům rychle zadávat dotazy a analyzovat zpracovaná a normalizovaná data.
Azure synapse Managed Virtual Network vytvoří izolované spravované virtuální síťové prostředí pro pracovní prostor Azure synapse, což vám převede ke správě konfigurace sítě pro prostředky pracovního prostoru.
Spravované soukromé koncové body služby Azure synapse vytvářejí privátní odkazy na prostředky Azure a směrují provoz mezi vašimi pracovními prostory Azure synapse a dalšími prostředky Azure jenom pomocí páteřní sítě Microsoftu.
Azure Virtual Network (VNET) poskytuje možnosti privátních sítí pro prostředky Azure, které nejsou součástí pracovního prostoru Azure synapse. Umožňuje spravovat přístup, zabezpečení a směrování mezi prostředky.
Privátní koncový bod Azure poskytuje privátní IP adresu z virtuální sítě řešení ke spravovaným službám Azure a efektivně se připojuje ke službě VNET. to umožňuje zabezpečenou síť mezi pracovním prostorem azure Synapse a dalšími službami azure, jako jsou Azure Storage, Azure Cosmos DB, Azure SQL Database nebo vaše vlastní služba privátního propojení azure.
Power BI umožňuje uživatelům provádět pokročilou analýzu a sdílet přehledy pomocí zpracovaných dat řešení.
Tok dat
Data přecházejí do řešení následujícím způsobem:
Synapse kanálu kopírování aktivity ingestují nezpracovaná strukturovaná data z externích relačních datových skladů, částečně strukturovaných dat, jako jsou protokoly, ploché soubory a XML a další zdrojové systémy. tato ingestovaná data se pak ukládají do Azure Data Lake Storage Gen2ho umístění. Pomocí prostředí Integration runtime v místním prostředí můžete také spravovat a spouštět aktivity kopírování mezi úložištěm dat ve vašem místním prostředí a cloudu.
Azure Data Lake Storage Gen2 poskytuje zabezpečené úložiště.
použití brány firewall k omezení přístupu účtu Storage k důvěryhodným službám Azure doporučujeme omezit zranitelnost externích útoků.
Soukromé koncové body pro účty Azure Storage umožňují klientům ve virtuální síti (VNet) zabezpečený přístup k datům prostřednictvím privátního propojení. Privátní koncový bod používá IP adresu z adresního prostoru virtuální sítě pro službu účtu úložiště. Síťový provoz mezi klienty ve virtuální síti a účtem úložiště prochází přes virtuální síť a privátní odkaz na páteřní síti Microsoftu, což eliminuje expozici veřejnému Internetu.
Po ingestování dat do data Lake se data zašifrují v klidovém stavu. Používání vlastních klíčů spravovaných zákazníkem může dále chránit šifrovací klíče a při správě řízení přístupu zvýšit flexibilitu.
Data se ingestují pomocí kanálů synapse a zpracovávají se ve fázích pomocí fondu synapse Spark a jeho funkcí Data Lake. Data jsou uložená v účtu Azure Storage pomocí adresářů Azure Data Lake Storage Gen 2 pro konkrétní fáze. Tyto fáze:
Aktivity kopírování v kanálu synapse zpočátku ingestují data ze zdrojových systémů. Tato ingestovaná data se ukládají v nezpracovaném formátu pomocí bronzového adresáře Data Lake.
Fond synapse Spark potom spustí pravidla kvality dat pro vyčištění nezpracovaných dat. Tato obohacená data se pak uloží do stříbrného adresáře Data Lake.
Po vyčištění aplikuje fond Spark všechny požadované normalizace, transformace dat a obchodní pravidla na data v adresáři stříbrného. Tato transformovaná data se pak ukládají do Gold adresáře služby Data Lake.
Synapse Apache Spark do Synapse konektoru služby SQL vloží normalizovaná data do fondu Synapse SQL, aby je mohl spotřebovat pomocí aplikací pro příjem dat a služeb generování sestav, jako je například Power BI. tento konektor je určený k optimálnímu přenosu dat mezi Apache Spark fondy bez serveru a fondy SQL v pracovním prostoru Azure Synapse Analytics.
služba Power BI používá režim DirectQuery k bezpečnému načítání dat z fondu SQL Synapse. brána dat nainstalovaná na virtuálním počítači na privátní virtuální síti funguje jako připojující platforma mezi službou Power BI a fondem SQL Synapse a pomocí privátního koncového bodu ve stejné virtuální síti pro zabezpečené připojení.
externí aplikace mají přístup k datům z fondů bez serveru Synapse nebo vyhrazené fondy SQL tím, že přistupují k příslušným soukromým koncovým bodům připojeným k virtuální síti.
Komponenty
Nasazení tohoto scénáře
Musíte mít existující účet Azure. Pokud ještě nemáte předplatné Azure, vytvořte si napřed bezplatný účet.
Azure Resource Manager šablony, které budete potřebovat k nasazení součástí popsaných v této architektuře, jsou k dispozici v úložišti GitHub . tyto šablony budou nasazovat všechny služby zobrazené v diagramu architektury s výjimkou: Power BI brána dat, místní prostředí integration runtime a Azure Key Vault pro spravované klíče zákazníka.
Pro vytvoření struktury složek Data Lake a kanálů integrace služby Azure synapse Analytics, které jsou nezbytné pro připojení ke zdrojům dat, je uživatel.
Šablonu ARM nasaďte přímo kliknutím na toto tlačítko:
Další kroky
Další informace o postupu při dalším vývoji tohoto přístupu najdete v následujících kurzech v tématu Základy analýzy Azure synapse:
Související prostředky
V těchto článcích najdete informace o plánování a nasazení řešení pomocí Azure synapse Analytics:
Pracovní prostory Azure synapse Analytics pro data exfiltrace Protection
Pravidla brány firewall protokolu IP pro Azure synapse Analytics
Připojení do Azure Synapse studia pomocí center privátních odkazů Azure
Připojení k zabezpečenému účtu Azure storage z pracovního prostoru Synapse
použití ověřování Azure Active Directory pro ověřování pomocí Synapse SQL