Lösningsidé
Om du vill att vi utökar den här artikeln med mer information, till exempel potentiella användningsfall, alternativa tjänster, implementeringsöverväganden eller prisvägledning, kan du berätta för GitHub Feedback!
Azure Synapse Analytics samman dataintegrering, informationslagerhantering för företag och stordataanalys som hjälper dig att skapa en modern dataplattform som kan hantera de vanligaste datautmaningarna för stora organisationer. Med Azure Virtual Network kan du skapa ett eget privat nätverk i det offentliga Azure-molnet och det hanterade nätverket, och med Azure Private Endpoint kan du på ett säkert sätt integrera hanterade molntjänster i dessa privata nätverk.
Potentiella användningsfall
Lösningen som beskrivs i den här artikeln visar hur du kombinerar dessa tekniker för att skapa en modern dataplattform som kan mata in, bearbeta, lagra, hantera och visualisera data från olika källor, både strukturerade och halvstrukturerade, samtidigt som de höga säkerhetsstandarder som din organisation förväntar sig uppfyllas. Detta omfattar stöd för vanliga krav, till exempel:
Skydda datakällor. Datakällor i det lokala företagsnätverket eller i det virtuella nätverket skyddas bakom en brandvägg. Dessa resurser kan nås på ett säkert sätt genom att installera en lokal Integration Runtime på en resurs som finns lokalt eller i de virtuella nätverken.
Autentisering och auktorisering med hanterade identiteter. Kommunikation mellan Azure-tjänster kan skyddas med hjälp av hanterade identiteter, vilket ger program en identitet som kan användas vid anslutning till resurser som stöder Azure Active Directory-autentisering (Azure AD). I det här exemplet Azure Synapse den hanterade identiteten för att integrera pipelines.
Privata slutpunkter som upprättar en privat länk till Azure-resurser. Azure Synapse fullständigt hanterade privata slutpunktsfunktioner för tjänster på Synapse-arbetsytan (till exempel Azure Storage eller Azure Cosmos DB). Andra Azure-resurser som Azure-program, Microsoft Power BI och Azure Synapse-tjänsten skyddas med privata slutpunkter som är integrerade i exempellösningens virtuella nätverk. Nätverkstrafiken mellan ditt privata nätverk och Synapse-poolerna använder Private Link för att flytta trafik över Microsofts stamnätverk, vilket eliminerar exponeringen för det offentliga Internet.
Kryptera data under överföring. Data krypteras under överföring eftersom alla dataöverföringar sker via säker kanal HTTPS och TLS över TCP för att förhindra man-in-the-middle-attacker under kommunikation med Azure-tjänster, vilket säkerställer säker privat dataförflyttning från start till slut.
Kryptera vilodata. Transparent datakryptering i Azure Synapse Analytics skyddar mot skadlig aktivitet genom att utföra kryptering och dekryptering i realtid av dina data som lagras på Synapse-arbetsytan. Azure Storage krypterar även alla data i ett vilokonto för lagring. Som standard krypteras data med Microsoft-hanterade nycklar, men du kan hantera dina egna nycklar om du behöver ytterligare kontroll över krypteringen.
Arkitektur
Den här exempellösningen använder flera Azure-tjänster och -funktioner:
Azure Synapse Analytics är den kärntjänst som används i den här exempellösningen för att tillhandahålla datainmatning, bearbetning och analys.
Azure Data Lake Storage (Gen2) bygger på Azure Storage-tjänster och tillhandahåller datasjöfunktioner som andra tjänster i den här exempellösningen använder vid lagring och bearbetning av data.
Synapse-pipelines kopierar data från ursprungliga källor till datasjölagringsplatserna.
Apache Spark i Azure Synapse Analytics rensar, normaliserar och utför andra bearbetningsuppgifter på data som matas in från källplatser.
Dedikerad SQL-pool (tidigare SQL DW) tillhandahåller informationslagerfunktioner för data när de har bearbetats och normaliserats och är redo att användas av dina slutanvändare och program.
Med SQL serverlös datapool kan användarna snabbt köra frågor mot och analysera bearbetade och normaliserade data.
Azure Synapse Managed Virtual Network skapar en isolerad hanterad virtuell nätverksmiljö för Azure Synapse-arbetsytan, vilket avlastar behovet av att hantera nätverkskonfigurationen för arbetsytans resurser.
Azure Synapse hanterade privata slutpunkter upprättar privata länkar till Azure-resurser och dirigerar trafik mellan dina Azure Synapse-arbetsytor och andra Azure-resurser med hjälp av endast Microsofts stamnätverk.
Azure Virtual Network (VNet) tillhandahåller privata nätverksfunktioner för Azure-resurser som inte ingår i Azure Synapse arbetsytan. Det gör att du kan hantera åtkomst, säkerhet och routning mellan resurser.
Azures privata slutpunkt tillhandahåller en privat IP-adress från lösningens VNet till Azure-hanterade tjänster, vilket effektivt ansluter en tjänst till det virtuella nätverket. Detta möjliggör säkra nätverk mellan Azure Synapse-arbetsytan och andra Azure-tjänster som Azure Storage, Azure Cosmos DB, Azure SQL Database eller din Azure Private Link tjänst.
Power BI användare att utföra avancerad analys och dela insikter med hjälp av lösningens bearbetade data.
Dataflöde
Data flödar genom lösningen på följande sätt:
Kopieringsaktiviteterna i Synapse-pipelines matar in råa strukturerade data från externa relationsinformationslager, halvstrukturerade data som loggar, flata filer och xml samt andra källsystem. Dessa indata lagras sedan på en Azure Data Lake Storage Gen2-plats. Med en integrationskörning med egen värd kan du också hantera och köra kopieringsaktiviteter mellan ett datalager i din lokala miljö och molnet.
Azure Data Lake Storage Gen2 tillhandahåller säker lagring.
Vi rekommenderar att du använder en brandvägg Storage att begränsa åtkomsten till betrodda Azure-tjänster för att begränsa säkerhetsrisken för externa attacker.
Privata slutpunkter för dina Azure Storage-konton gör att klienter i det virtuella nätverket (VNet) på ett säkert sätt kan komma åt data via Private Link. Den privata slutpunkten använder en IP-adress från VNet-adressutrymmet för lagringskontotjänsten. Nätverkstrafiken mellan klienterna i det virtuella nätverket och lagringskontot passerar över det virtuella nätverket och en privat länk i Microsofts stamnätverk, vilket eliminerar exponeringen för det offentliga Internet.
Data krypteras i vila när de har matats in i datasjön. Om du använder dina egna kund hanterade nycklar kan du ytterligare skydda dina krypteringsnycklar och lägga till mer flexibilitet när du hanterar åtkomstkontroller.
Data matas in med Synapse-pipelines och bearbetas i steg med hjälp av Synapse Spark-poolen och dess Data Lake-funktioner. Data lagras i Azure Storage konto med hjälp av stegspecifika Azure Data Lake Storage Gen 2-kataloger. Dessa steg är:
Synapse-pipelines kopierar aktiviteter inledningsvis data från källsystemen. Dessa indata lagras i obearbetat format med hjälp av datasjöns bronskatalog.
Synapse Spark-poolen kör sedan datakvalitetsregler för att rensa rådata. Dessa berikade data lagras sedan i datasjöns Silver-katalog.
Efter rensningen tillämpar Spark-poolen all nödvändig normalisering, datatransformationer och affärsregler för data i Silver-katalogen. Dessa transformerade data lagras sedan i datasjöns Guldkatalog.
Synapse Apache Spark till Synapse SQL-anslutningsappen pushar normaliserade data till Synapse SQL-poolen för användning av underordnade program och rapporteringstjänster som Power BI. Den här anslutningsappen är utformad för att optimalt överföra data mellan Apache Spark serverlösa pooler och SQL i Azure Synapse Analytics arbetsytan.
Tjänsten Power BI använder DirectQuery-läge för att på ett säkert sätt hämta data från Synapse SQL poolen. En datagateway som är installerad på en virtuell dator i det privata virtuella nätverket fungerar som en anslutningsplattform mellan Power BI-tjänsten och Synapse SQL-poolen med hjälp av privat slutpunkt i samma virtuella nätverk för att ansluta på ett säkert sätt.
Externa program kan komma åt data från Synapse-serverlösa pooler eller dedikerade SQL-pooler genom att komma åt lämpliga privata slutpunkter som är anslutna till det virtuella nätverket.
Komponenter
Distribuera det här scenariot
Du måste ha ett befintligt Azure-konto. Om du inte har någon Azure-prenumeration kan du skapa ett kostnadsfritt konto innan du börjar.
De Azure Resource Manager mallar som du behöver för att distribuera komponenterna som beskrivs i den här arkitekturen finns i GitHub lagringsplatsen. Dessa mallar distribuerar alla tjänster som visas i arkitekturdiagrammet förutom :Power BI Data Gateway, integrationskörning med egen värd och Azure Key Vault för kund hanterade nycklar.
Det är upp till användaren att skapa data lake-mappstrukturen och de Azure Synapse Analytics som behövs för att ansluta till datakällorna.
Distribuera ARM-mallen direkt genom att klicka på den här knappen:
Nästa steg
Om du vill lära dig mer om att utveckla den här metoden kan du lära dig grunderna Azure Synapse Analytics genom att slutföra följande självstudier:
Relaterade resurser
Läs dessa artiklar när du planerar och distribuerar lösningar med Azure Synapse Analytics:
Data exfiltreringsskydd för Azure Synapse Analytics arbetsytor
Konfigurera brandväggar och virtuella nätverk i Azure Storage
Anslut till Azure Synapse Studio med Azure Private Link Hubs
Anslut till ett säkert Azure Storage-konto från Synapse-arbetsytan
Använda Azure Active Directory-autentisering för autentisering med Synapse-SQL
