Big data-analyses met beveiliging op bedrijf niveau met behulp van Azure Synapse

Analysis Services
Data Lake Storage
Synapse Analytics

Oplossingsidee

Als u wilt dat we dit artikel uitbreiden met meer informatie, zoals mogelijke use cases, alternatieve services, implementatieoverwegingen of prijsinformatie, laat het ons dan weten met GitHub Feedback!

Azure Synapse Analytics brengt gegevensintegratie, zakelijke datawarehousing en big data-analyses samen om u te helpen een modern gegevensplatform te bouwen dat geschikt is voor de meest voorkomende gegevensuitdagingen waar grote organisaties mee te maken hebben. Met Azure Virtual Network kunt u uw eigen privénetwerk maken in de openbare cloud en het beheerde Azure-netwerk. Met Azure Private Endpoint kunt u beheerde cloudservices veilig integreren in deze particuliere netwerken.

Potentiële gebruikscases

In de oplossing die in dit artikel wordt beschreven, wordt gedemonstreerd hoe u deze technologieën combineert om een modern gegevensplatform te bouwen waarmee u gegevens uit verschillende bronnen kunt opnemen, verwerken, opslaan, bedienen en visualiseren, zowel gestructureerd als semigestructureerd, terwijl wordt voldaan aan de hoge beveiligingsnormen die uw organisatie verwacht. Dit omvat de ondersteuning van algemene vereisten, zoals:

  • Gegevensbronnen beveiligen. Gegevensbronnen in het on-premises bedrijfsnetwerk of in het virtuele netwerk worden beveiligd achter een firewall. Deze resources zijn veilig toegankelijk door een zelf-hostende Integration Runtime te installeren op een resource die on-premises of op de virtuele netwerken wordt gehost.

  • Verificatie en autorisatie met behulp van beheerde identiteiten. Communicatie tussen Azure-services kan worden beveiligd met behulp van beheerde identiteiten, die toepassingen een identiteit bieden die kan worden gebruikt bij het verbinden met resources die ondersteuning bieden voor Azure Active Directory (Azure AD)-verificatie. In dit voorbeeld wordt Azure Synapse beheerde identiteit gebruikt om pijplijnen te integreren.

  • Privé-eindpunten die een privékoppeling naar Azure-resources tot stand brengen. Azure Synapse biedt volledig beheerde functionaliteit voor privé-eindpunten voor services binnen de Synapse-werkruimte (zoals Azure Storage of Azure Cosmos DB). Andere Azure-resources, zoals Azure-toepassingen, Microsoft Power BI en Azure Synapse-service, worden beveiligd met behulp van privé-eindpunten die zijn geïntegreerd in het virtuele netwerk van de voorbeeldoplossing. Netwerkverkeer tussen uw particuliere netwerk en de Synapse-pools maakt gebruik van Private Link om verkeer via het backbone-netwerk van Microsoft te verplaatsen, waardoor de blootstelling aan het openbare internet wordt voorkomen.

  • Gegevens tijdens overdracht versleutelen. Gegevens worden tijdens de overdracht versleuteld omdat alle gegevensoverdrachten via https en TLS via beveiligde kanalen via TCP worden uitgevoerd om man-in-the-middle-aanvallen te voorkomen tijdens communicatie met Azure-services, waardoor end-to-end veilige verplaatsing van privégegevens wordt gewaarborgd.

  • Data-at-rest versleutelen. Transparante gegevensversleuteling in Azure Synapse Analytics beschermt tegen schadelijke activiteiten door realtime versleuteling en ontsleuteling uit te voeren van uw gegevens die zijn opgeslagen in de Synapse-werkruimte. Azure Storage versleutelt ook alle gegevens in een opslagaccount in rust. Gegevens worden standaard versleuteld met door Microsoft beheerde sleutels, maar u kunt uw eigen sleutels beheren als u extra controle over versleuteling nodig hebt.

Architectuur

Diagram met de gegevensstroom in deze oplossing. Zie de volgende artikeltekst voor een gedetailleerde uitleg.

Deze voorbeeldoplossing maakt gebruik van verschillende Azure-services en -functies:

  • Azure Synapse Analytics   is de kernservice die in deze voorbeeldoplossing wordt gebruikt om gegevens op te nemen, te verwerken en te analyseren.

  • Azure Data Lake Storage (Gen2) is gebaseerd op Azure Storage-services en biedt data lake-mogelijkheden die andere services in deze voorbeeldoplossing gebruiken bij het opslaan en verwerken van gegevens.

  • Synapse-pijplijnen   kopieert gegevens uit oorspronkelijke bronnen naar de data lake opslaglocaties.

  • Apache Spark in Azure Synapse Analytics schoont, normaliseert en voert andere verwerkingstaken uit op gegevens die zijn opgenomen uit bronlocaties.

  • Toegewezen SQL-pool (voorheen SQL DW) biedt datawarehousingmogelijkheden voor gegevens nadat deze zijn verwerkt en genormaliseerd en klaar is voor gebruik door uw eindgebruikers en toepassingen.

  • Met serverloze SQL kunnen gebruikers snel verwerkte en genormaliseerde gegevens opvragen en analyseren.

  • Azure Synapse Managed Virtual Network maakt een geïsoleerde beheerde virtuele netwerkomgeving voor de Azure Synapse-werkruimte, waardoor u de netwerkconfiguratie voor de werkruimtebronnen niet meer hoeft te beheren.

  • Azure Synapse privé-eindpunten maken privékoppelingen naar Azure-resources en routeer verkeer tussen uw Azure Synapse-werkruimten en andere Azure-resources met behulp van alleen het Microsoft-backbonenetwerk.

  • Azure Virtual Network (VNet) biedt mogelijkheden voor privénetwerken voor Azure-resources die geen deel uitmaken van Azure Synapse werkruimte. Hiermee kunt u de toegang, beveiliging en routering tussen resources beheren.

  • Privé-eindpunt van Azure biedt een privé-IP-adres van het VNet van de oplossing naar door Azure beheerde services, om zo een service effectief te verbinden met het VNet. Dit maakt beveiligde netwerken mogelijk tussen de Azure Synapse-werkruimte en andere Azure-services, zoals Azure Storage, Azure Cosmos DB, Azure SQL Database of uw eigen Azure Private Link service.

  • Power BI   biedt gebruikers de mogelijkheid om geavanceerde analyses uit te voeren en inzichten te delen met behulp van de verwerkte gegevens van de oplossing.

Gegevensstroom

De gegevens stromen als volgt door de oplossing:

  1. De kopieeractiviteiten van de Synapse-pijplijnen nemen onbewerkte gestructureerde gegevens op uit externe relationele datawarehouses, semigestructureerde gegevens zoals logboeken, platte bestanden en XML en andere bronsystemen. Deze opgenomen gegevens worden vervolgens opgeslagen in een Azure Data Lake Storage Gen2-locatie. Met behulp van een zelf-hostende Integration Runtime kunt u ook kopieeractiviteiten beheren en uitvoeren tussen een gegevensopslag in uw on-premises omgeving en de cloud.

  2. Azure Data Lake Storage Gen2 biedt beveiligde opslag.

    • Het gebruik van een firewall om Storage toegang tot vertrouwde Azure-services te beperken, wordt aanbevolen om beveiligingsprobleem met externe aanvallen te beperken.

    • Privé-eindpunten   voor uw Azure Storage-accounts kunnen clients in het virtuele netwerk (VNet) veilig toegang krijgen tot gegevens via een Private Link. Het privé-eindpunt gebruikt een IP-adres uit de VNet-adresruimte voor de opslagaccountservice. Netwerkverkeer tussen de clients op het VNet en het opslagaccount gaat over het VNet en een privékoppeling op het Backbone-netwerk van Microsoft, waardoor de blootstelling aan het openbare internet wordt voorkomen.

  3. Gegevens worden at-rest versleuteld zodra ze zijn opgenomen in de data lake. Door uw eigen door de klant beheerde sleutels te gebruiken, kunt u uw versleutelingssleutels verder beveiligen en meer flexibiliteit bieden bij het beheren van toegangsbeheer.

  4. Gegevens worden opgenomen met behulp van Synapse-pijplijnen en in fasen verwerkt met behulp van de Synapse Spark-pool en de data lake-mogelijkheden. Gegevens worden opgeslagen in het Azure Storage-account met behulp van fasespecifieke Azure Data Lake Storage Gen 2-directories. Deze fasen zijn:

    1. Met de Synapse-pijplijnen worden in eerste instantie gegevens uit de bronsystemen opgenomen. Deze opgenomen gegevens worden opgeslagen in de onbewerkte indeling met behulp van data lake map Brons van de brons.

    2. De Synapse Spark-pool voert vervolgens regels voor gegevenskwaliteit uit om de onbewerkte gegevens op te schonen. Deze verrijkte gegevens worden vervolgens opgeslagen in de Silver data lake map van het bedrijf.

    3. Na het opschonen past de Spark-pool de vereiste normalisatie, gegevenstransformaties en bedrijfsregels toe op de gegevens in de Silver-map. Deze getransformeerde gegevens worden vervolgens opgeslagen in data lake map Gold van het bedrijf.

  5. De Synapse Apache Spark naar Synapse SQL-connector pusht de genormaliseerde gegevens naar de Synapse SQL-pool voor gebruik door downstreamtoepassingen en rapportageservices zoals Power BI. Deze connector is ontworpen om gegevens optimaal over te dragen tussen de serverloze Apache Spark-pools en de SQL-pools in de Azure Synapse Analytics werkruimte.

  6. De Power BI-service gebruikt de DirectQuery-modus om veilig gegevens op te halen uit de Synapse-SQL groep. Een gegevensgateway die is geïnstalleerd op een virtuele machine in het privé-VNet, fungeert als een verbindingsplatform tussen de Power BI-service en de Synapse SQL-pool, met behulp van een privé-eindpunt in hetzelfde VNet om veilig verbinding te maken.

  7. Externe toepassingen hebben toegang tot gegevens uit de serverloze Synapse-pools of toegewezen SQL-pools door toegang te krijgen tot de juiste privé-eindpunten die zijn verbonden met het VNet.

Onderdelen

Dit scenario implementeren

U moet een bestaand Azure-account hebben. Als u nog geen abonnement op Azure hebt, maak dan een gratis account aan voordat u begint.

De Azure Resource Manager sjablonen, die u nodig hebt om de onderdelen te implementeren die in deze architectuur worden beschreven, zijn beschikbaar in de GitHub opslagplaats. Met deze sjablonen worden alle services geïmplementeerd die worden weergegeven in het architectuurdiagram, met uitzondering van : de Power BI Data Gateway, de zelf-hostende Integration Runtime en Azure Key Vault voor door de klant beheerde sleutels.

Het is aan de gebruiker om de mapstructuur van de data lake te maken en de Azure Synapse Analytics-integratiepijplijnen die nodig zijn om verbinding te maken met de gegevensbronnen.

Implementeer de ARM-sjabloon rechtstreeks door op deze knop te klikken:

Implementeren in Azure

Volgende stappen

Als u wilt weten hoe u deze aanpak verder kunt ontwikkelen, leert u de basisbeginselen van Azure Synapse Analytics door de volgende zelfstudies te voltooien:

Raadpleeg deze artikelen bij het plannen en implementeren van oplossingen met Azure Synapse Analytics: