Oplossingsideeën
Dit artikel is een oplossingsidee. Als u wilt dat we de inhoud uitbreiden met meer informatie, zoals mogelijke use cases, alternatieve services, implementatieoverwegingen of prijsrichtlijnen, laat het ons dan weten door GitHub-feedback te geven.
De oplossing die in dit artikel wordt beschreven, laat zien hoe u Azure Synapse Analytics gebruikt om een modern gegevensplatform te bouwen voor het opnemen, verwerken, opslaan, gebruiken en visualiseren van gegevens uit verschillende bronnen.
Architectuur
Een Visio-bestand van deze architectuur downloaden.
Gegevensstroom
De gegevens stromen als volgt door de oplossing:
De Synapse-pijplijnen kopiëren activiteiten voor het opnemen van onbewerkte gestructureerde gegevens uit externe relationele datawarehouses, semi-gestructureerde gegevens zoals logboeken, platte bestanden en XML en andere bronsystemen. Deze opgenomen gegevens worden vervolgens opgeslagen op een Azure Data Lake Storage Gen2-locatie. Met behulp van een zelf-hostende Integration Runtime kunt u ook kopieeractiviteiten beheren en uitvoeren tussen een gegevensarchief in uw on-premises omgeving en de cloud.
Azure Data Lake Storage Gen2 biedt beveiligde opslag.
Het gebruik van een firewall om de toegang van opslagaccounts tot vertrouwde Azure-services te beperken, wordt aanbevolen om beveiligingsproblemen met externe aanvallen te beperken.
Met privé-eindpunten voor uw Azure Storage-accounts kunnen clients in het virtuele netwerk (VNet) veilig toegang krijgen tot gegevens via een Private Link. Het privé-eindpunt maakt gebruik van een IP-adres uit de VNet-adresruimte voor de opslagaccountservice. Netwerkverkeer tussen de clients op het VNet en het opslagaccount loopt via het VNet en een privékoppeling op het Microsoft backbone-netwerk, waardoor blootstelling aan het openbare internet wordt geëlimineerd.
Gegevens worden in rust versleuteld zodra ze worden opgenomen in de data lake. Door uw eigen door de klant beheerde sleutels te gebruiken, kunt u uw versleutelingssleutels verder beveiligen en meer flexibiliteit toevoegen bij het beheren van toegangsbeheer.
Gegevens worden opgenomen met behulp van Synapse-pijplijnen en verwerkt in fasen met behulp van de Synapse Spark-pool en de bijbehorende Data Lake-mogelijkheden. Gegevens worden opgeslagen in het Azure Storage-account met behulp van fasespecifieke Azure Data Lake Storage Gen 2-directory's. Deze fasen zijn:
Met de Synapse-pijplijnen worden in eerste instantie gegevens uit de bronsystemen opgenomen. Deze opgenomen gegevens worden opgeslagen in de onbewerkte indeling met behulp van de bronsmap van data lake.
De Synapse Spark-pool voert vervolgens regels voor gegevenskwaliteit uit om de onbewerkte gegevens op te schonen. Deze verrijkte gegevens worden vervolgens opgeslagen in de Silver-map van data lake.
Na het opschonen past de Spark-pool alle vereiste normalisatie, gegevenstransformaties en bedrijfsregels toe op de gegevens in de Silver-directory. Deze getransformeerde gegevens worden vervolgens opgeslagen in de Gold-map van data lake.
De Synapse Apache Spark-connector naar Synapse SQL pusht de genormaliseerde gegevens naar de Synapse SQL-pool voor gebruik door downstreamtoepassingen en reporting services zoals Power BI. Deze connector is ontworpen om gegevens optimaal over te dragen tussen de serverloze Apache Spark-pools en de SQL-pools in de Azure Synapse Analytics-werkruimte.
De Power BI-service gebruikt de DirectQuery-modus om veilig gegevens op te halen uit de Synapse SQL-pool. Een gegevensgateway die is geïnstalleerd in een virtuele machine op het privé-VNet fungeert als een verbindingsplatform tussen de Power BI-service en de Synapse SQL-pool, waarbij privé-eindpunt in hetzelfde VNet wordt gebruikt om veilig verbinding te maken.
Externe toepassingen hebben toegang tot gegevens uit de serverloze Synapse-pools of toegewezen SQL-pools door toegang te krijgen tot de juiste privé-eindpunten die zijn verbonden met het VNet.
Deze voorbeeldoplossing maakt gebruik van verschillende Azure-services en -functies:
Azure Synapse Analytics is de kernservice die in deze voorbeeldoplossing wordt gebruikt om gegevensopname, verwerking en analyse te bieden.
Azure Data Lake Storage (Gen2) is gebouwd op Basis van Azure Storage-services en biedt data lake-mogelijkheden die andere services in deze voorbeeldoplossing gebruiken bij het opslaan en verwerken van gegevens.
Synapse-pijplijnen kopieert gegevens van oorspronkelijke bronnen naar de data lake-opslaglocaties.
Apache Spark in Azure Synapse Analytics schoont, normaliseert en voert andere verwerkingstaken uit op gegevens die zijn opgenomen vanaf bronlocaties.
Toegewezen SQL-pool (voorheen SQL DW) biedt datawarehousingmogelijkheden voor gegevens nadat deze zijn verwerkt en genormaliseerd en gereed is voor gebruik door uw eindgebruikers en toepassingen.
Met een serverloze SQL-pool kunnen gebruikers snel query's uitvoeren op verwerkte en genormaliseerde gegevens.
Met Azure Synapse Managed Virtual Network maakt u een geïsoleerde, beheerde virtuele netwerkomgeving voor de Azure Synapse-werkruimte, waarbij u de netwerkconfiguratie voor de werkruimteresources moet offloaden.
Met Azure Synapse beheerde privé-eindpunten worden privékoppelingen naar Azure-resources tot stand gebracht en verkeer gerouteerd tussen uw Azure Synapse-werkruimten en andere Azure-resources met alleen het Microsoft backbone-netwerk.
Azure Virtual Network (VNet) biedt mogelijkheden voor privénetwerken voor Azure-resources die geen deel uitmaken van de Azure Synapse-werkruimte. Hiermee kunt u de toegang, beveiliging en routering tussen resources beheren.
Azure Private Endpoint biedt een privé-IP-adres van het VNet van de oplossing naar beheerde Azure-services, waarmee een service effectief wordt verbonden met het VNet. Dit maakt beveiligde netwerken mogelijk tussen de Azure Synapse-werkruimte en andere Azure-services, zoals Azure Storage, Azure Cosmos DB, Azure SQL Database of uw eigen Azure Private Link-service.
Met Power BI kunnen gebruikers geavanceerde analyses uitvoeren en inzichten delen met behulp van de verwerkte gegevens van de oplossing.
Onderdelen
Scenariodetails
Azure Synapse Analytics brengt gegevensintegratie, zakelijke datawarehousing en big data-analyses samen om u te helpen bij het bouwen van een modern gegevensplatform dat de meest voorkomende gegevensuitdagingen voor grote organisaties kan verwerken. Met Azure Virtual Network kunt u uw eigen privénetwerk maken in de openbare Azure-cloud en het beheerde netwerk, en met Azure Private Endpoint kunt u beheerde cloudservices veilig integreren in deze privénetwerken.
Potentiële gebruikscases
De oplossing die in dit artikel wordt beschreven, laat zien hoe u deze technologieën kunt combineren om een modern gegevensplatform te bouwen dat gegevens uit verschillende bronnen kan opnemen, verwerken, opslaan, leveren en visualiseren, zowel gestructureerd als semigestructureerd, terwijl aan de hoge beveiligingsstandaarden voldoet die uw organisatie verwacht. Dit omvat de ondersteuning van algemene vereisten, zoals:
Gegevensbronnen beveiligen. Gegevensbronnen in het on-premises bedrijfsnetwerk of in het virtuele netwerk worden beveiligd achter een firewall. Deze resources kunnen veilig worden geopend door een zelf-hostende Integration Runtime te installeren op een on-premises resource of in de virtuele netwerken.
Verificatie en autorisatie met behulp van beheerde identiteiten. Communicatie tussen Azure-services kan worden beveiligd met behulp van beheerde identiteiten, die een identiteit bieden voor toepassingen die kunnen worden gebruikt bij het maken van verbinding met resources die ondersteuning bieden voor Microsoft Entra-verificatie. In dit voorbeeld gebruikt Azure Synapse de beheerde identiteit om pijplijnen te integreren.
Privé-eindpunten voor het tot stand brengen van een privékoppeling naar Azure-resources. Azure Synapse biedt volledig beheerde functionaliteit voor privé-eindpunten voor services in de Synapse-werkruimte (zoals Azure Storage of Azure Cosmos DB). Andere Azure-resources, zoals Azure-toepassingen, Microsoft Power BI en de Azure Synapse-service, worden beveiligd met behulp van privé-eindpunten die zijn geïntegreerd in het virtuele netwerk van de voorbeeldoplossing. Netwerkverkeer tussen uw privénetwerk en de Synapse-pools maakt gebruik van Private Link om verkeer over het Backbone-netwerk van Microsoft te verplaatsen, waardoor blootstelling aan het openbare internet wordt geëlimineerd.
Het versleutelen van gegevens die onderweg zijn. Gegevens worden tijdens overdracht versleuteld omdat alle gegevensoverdrachten via beveiligd kanaal HTTPS en TLS via TCP zijn om man-in-the-middle-aanvallen te voorkomen tijdens communicatie met Azure-services, waardoor end-to-end veilige privégegevensverplaatsing wordt gewaarborgd.
Data-at-rest versleutelen. Transparante gegevensversleuteling in Azure Synapse Analytics helpt bescherming te bieden tegen schadelijke activiteiten door realtime versleuteling en ontsleuteling van uw gegevens uit te voeren die zijn opgeslagen in de Synapse-werkruimte. Azure Storage versleutelt ook alle gegevens in een opslagaccount-at-rest. Standaard worden gegevens versleuteld met door Microsoft beheerde sleutels, maar u kunt uw eigen sleutels beheren als u extra controle over versleuteling nodig hebt.
Dit scenario implementeren
U moet een bestaand Azure-account hebben. Als u geen Azure-abonnement hebt, maakt u een gratis account voordat u begint.
De Azure Resource Manager-sjablonen, die u nodig hebt om de onderdelen te implementeren die in deze architectuur worden beschreven, zijn beschikbaar in de GitHub-opslagplaats . Met deze sjablonen worden alle services geïmplementeerd die worden weergegeven in het architectuurdiagram , met uitzondering van: de Power BI Data Gateway, zelf-hostende integratieruntime en Azure Key Vault voor door de klant beheerde sleutels.
Het is aan de gebruiker om de structuur van de Data Lake-map en de Azure Synapse Analytics-integratiepijplijnen te maken die nodig zijn om verbinding te maken met de gegevensbronnen.
Implementeer de ARM-sjabloon rechtstreeks door op deze knop te klikken:
Bijdragers
Dit artikel wordt onderhouden door Microsoft. De tekst is oorspronkelijk geschreven door de volgende Inzenders.
Hoofdauteur:
- Kiran Kalyanam | Senior Software Engineer
Volgende stappen
Als u wilt weten hoe u deze aanpak verder kunt ontwikkelen, leert u de basisprincipes van Azure Synapse Analytics door de volgende zelfstudies uit te voeren:
Verwante resources
Raadpleeg deze artikelen bij het plannen en implementeren van oplossingen met behulp van Azure Synapse Analytics:
Gegevensexfiltratiebeveiliging voor Azure Synapse Analytics-werkruimten
Verbinding maken met Azure Synapse Studio via Azure Private Link-hubs
Verbinding maken naar een beveiligd Azure-opslagaccount vanuit uw Synapse-werkruimte
Microsoft Entra-verificatie gebruiken voor verificatie met Synapse SQL