Analyses end-to-end met Azure Synapse

Synapse Analytics
Cosmos DB
Data Factory
Databricks
Functions
Event Hubs

In dit voorbeeldscenario wordt gedemonstreerd hoe u de uitgebreide familie van Azure Data Services gebruikt om een modern gegevensplatform te bouwen dat geschikt is voor de meest voorkomende gegevensuitdagingen in een organisatie.

De oplossing die in dit artikel wordt beschreven, combineert een reeks Azure-services die gegevens en inzichten uit verschillende bronnen (gestructureerd, semi-gestructureerd, ongestructureerd en streaming) opnemen, opslaan, verwerken, verrijken en leveren.

Relevante gebruiksgevallen

Deze aanpak kan ook worden gebruikt voor het volgende:

  • Stel een bedrijfsbrede gegevenshub in die bestaat uit een datawarehouse voor gestructureerde gegevens en een data lake voor semi-gestructureerde en ongestructureerde gegevens. Deze gegevenshub wordt de enige bron van waarheid voor uw rapportagegegevens.
  • Integreer relationele gegevensbronnen met andere ongestructureerde gegevenssets, met het gebruik van big data verwerkingstechnologieën.
  • Gebruik semantische modellering en krachtige visualisatiehulpprogramma's voor eenvoudigere gegevensanalyse.
  • Deel gegevenssets binnen de organisatie of met vertrouwde externe partners.

Architectuur

Architectuur voor een modern gegevensplatform met behulp van Azure-gegevensservices

Notitie

  • De services die onder deze architectuur vallen, zijn slechts een subset van een veel grotere familie Van Azure-services. Vergelijkbare resultaten kunnen worden bereikt met behulp van andere services of functies die niet onder dit ontwerp vallen.
  • Specifieke bedrijfsvereisten voor uw analysegebruikscase kunnen ook vragen om het gebruik van verschillende services of functies die niet in dit ontwerp worden overwogen.

Gebruiksgevallen voor analyse

De analysegebruiksgevallen die in de architectuur worden behandeld, worden geïllustreerd door de verschillende gegevensbronnen aan de linkerkant van het diagram. Gegevens stromen als volgt van onder naar boven door de oplossing:

Azure Data Services, cloudeigen HTAP met Cosmos DB

  1. Azure Synapse Link voor Azure Cosmos DB kunt u bijna realtime analyses uitvoeren voor operationele gegevens in Azure Cosmos DB, met behulp van de twee analyse-engines die beschikbaar zijn in uw Azure Synapse-werkruimte: SQL Serverloze en Spark-pools.

  2. Met behulp van een SQL Serverloze query of een Spark Pool-notebook hebt u toegang tot de analytische opslag van Cosmos DB en kunt u vervolgens gegevenssets uit uw bijna realtime operationele gegevens combineren met gegevens van uw data lake of vanuit uw datawarehouse.

  3. De resulterende gegevenssets van SQL serverloze query's kunnen worden opgeslagen in uw data lake. Als u Spark-notebooks gebruikt,kunnen de resulterende gegevenssets worden opgeslagen in uw data lake of datawarehouse (SQL-pool).

  4. Laad relevante gegevens uit de Azure Synapse SQL pool of data lake in Power BI gegevenssets voor gegevensvisualisatie. Power BI modellen implementeren een semantisch model om de analyse van zakelijke gegevens en relaties te vereenvoudigen.

  5. Bedrijfsanalisten gebruiken Power BI rapporten en dashboards om gegevens te analyseren en zakelijke inzichten af te leiden.

  6. Gegevens kunnen ook veilig worden gedeeld met andere bedrijfseenheden of externe vertrouwde partners met behulp van Azure Data Share.

Relationele databases

  1. Gebruik Azure Synapse pijplijnen om gegevens op te halen uit een groot aantal databases, zowel on-premises als in de cloud. Pijplijnen kunnen worden geactiveerd op basis van een vooraf gedefinieerde planning, als reactie op een gebeurtenis, of expliciet worden aangeroepen via REST API's.

  2. Gebruik vanuit de Azure Synapse-pijplijn een Gegevens kopiëren-activiteit om de gegevens die zijn gekopieerd uit de relationele databases in de onbewerkte zone van uw Azure Data Lake Store Gen 2-data lake. U kunt de gegevens opslaan in tekstindeling met scheidingstekens of gecomprimeerd als Parquet-bestanden.

  3. Gebruik gegevensstromen, SQL serverlozequery's of Spark-notebooks om de gegevenssets te valideren, te transformeren en te verplaatsen naar uw gecureerde zone in uw data lake.

    1. Als onderdeel van uw gegevenstransformaties kunt u modellen machine learning uw SQL-pools aanroepen met behulp van standaard T-SQL of Spark-notebooks. Deze ML kunnen worden gebruikt om uw gegevenssets te verrijken en meer zakelijke inzichten te genereren. Deze machine learning kunnen worden gebruikt vanuit Azure Cognitive Services of aangepaste ML van Azure ML.
  4. U kunt uw uiteindelijke gegevensset rechtstreeks vanuit de gecureerde data lake-zone gebruiken of u kunt Gegevens kopiëren-activiteit gebruiken om de uiteindelijke gegevensset op te nemen in uw SQL-pooltabellen met behulp van de opdracht COPY voor snelle opname.

  5. Laad relevante gegevens uit de Azure Synapse SQL pool of data lake in Power BI gegevenssets voor gegevensvisualisatie. Power BI modellen implementeren een semantisch model om de analyse van zakelijke gegevens en relaties te vereenvoudigen.

  6. Bedrijfsanalisten gebruiken Power BI rapporten en dashboards om gegevens te analyseren en zakelijke inzichten af te leiden.

  7. Gegevens kunnen ook veilig worden gedeeld met andere bedrijfseenheden of externe vertrouwde partners met behulp van Azure Data Share.

Semi-gestructureerde gegevensbronnen

  1. Gebruik Azure Synapse pijplijnen om gegevens op te halen uit een groot aantal semi-gestructureerde gegevensbronnen, zowel on-premises als in de cloud. Bijvoorbeeld:

    • Gegevens opnemen uit bestandsbronnen met CSV- of JSON-bestanden.
    • Verbinding maken op Niet-SQL databases zoals Cosmos DB of Mongo DB.
    • Roep REST API's aan die worden geleverd door SaaS-toepassingen die als uw gegevensbron voor de pijplijn fungeren.
  2. Gebruik vanuit de Azure Synapse-pijplijn een Gegevens kopiëren-activiteit om de gegevens die zijn gekopieerd uit de semi-gestructureerde gegevensbronnen, in de onbewerkte zone van uw Azure Data Lake Store Gen 2-data lake. Sla gegevens op met behoud van de oorspronkelijke indeling, zoals deze zijn verkregen uit de gegevensbronnen.

  3. Gebruik gegevensstromen, SQL serverloze query's of Spark-notebooks om uw gegevenssets te valideren, transformeren en verplaatsen naar uw gecureerde zone in uw data lake. SQL Serverloze query's geven onderliggende CSV-, Parquet- of JSON-bestanden weer als externe tabellen, zodat ze kunnen worden opgevraagd met T-SQL.

    1. Als onderdeel van uw gegevenstransformaties kunt u modellen machine learning uw SQL-pools aanroepen met behulp van standaard T-SQL of Spark-notebooks. Deze ML kunnen worden gebruikt om uw gegevenssets te verrijken en meer zakelijke inzichten te genereren. Deze machine learning kunnen worden gebruikt vanuit Azure Cognitive Services of aangepaste ML van Azure ML.
  4. U kunt uw uiteindelijke gegevensset rechtstreeks vanuit de gecureerde data lake-zone gebruiken of u kunt Gegevens kopiëren-activiteit gebruiken om de uiteindelijke gegevensset op te nemen in uw SQL-pooltabellen met behulp van de opdracht COPY voor snelle opname.

  5. Laad relevante gegevens uit de Azure Synapse SQL pool of data lake in Power BI gegevenssets voor gegevensvisualisatie. Power BI modellen implementeren een semantisch model om de analyse van zakelijke gegevens en relaties te vereenvoudigen.

  6. Bedrijfsanalisten gebruiken Power BI rapporten en dashboards om gegevens te analyseren en zakelijke inzichten af te leiden.

  7. Gegevens kunnen ook veilig worden gedeeld met andere bedrijfseenheden of externe vertrouwde partners met behulp van Azure Data Share.

Niet-gestructureerde gegevensbronnen

  1. Gebruik Azure Synapse pijplijnen om gegevens op te halen uit een groot aantal niet-gestructureerde gegevensbronnen, zowel on-premises als in de cloud. Bijvoorbeeld:

    • Opname van video, afbeelding, audio of vrije tekst uit bronnen op basis van bestanden die de bronbestanden bevatten.
    • Roep REST API's aan die worden geleverd door SaaS-toepassingen die als uw gegevensbron voor de pijplijn fungeren.
  2. Gebruik vanuit de Azure Synapse-pijplijn een Gegevens kopiëren-activiteit om de gegevens die zijn gekopieerd uit de niet-gestructureerde gegevensbronnen in de onbewerkte zone van uw Azure Data Lake Store Gen 2-data lake. Sla gegevens op met behoud van de oorspronkelijke indeling, zoals deze zijn verkregen uit de gegevensbronnen.

  3. Gebruik Spark-notebooks om uw gegevenssets te valideren, transformeren, verrijken en verplaatsen naar uw gecureerde zone in uw data lake.

    1. Als onderdeel van uw gegevenstransformaties kunt u modellen machine learning uw SQL-pools aanroepen met behulp van standaard T-SQL of Spark-notebooks. Deze ML kunnen worden gebruikt om uw gegevenssets te verrijken en meer zakelijke inzichten te genereren. Deze machine learning kunnen worden gebruikt vanuit Azure Cognitive Services of aangepaste ML van Azure ML.
  4. U kunt uw uiteindelijke gegevensset rechtstreeks vanuit de data lake Gecureerde zone verwerken of u kunt Gegevens kopiëren-activiteit gebruiken om de uiteindelijke gegevensset op te nemen in uw datawarehouse-tabellen met behulp van de opdracht COPY voor snelle opname.

  5. Laad relevante gegevens uit de Azure Synapse SQL pool of data lake in Power BI gegevenssets voor gegevensvisualisatie. Power BI modellen implementeren een semantisch model om de analyse van zakelijke gegevens en relaties te vereenvoudigen.

  6. Bedrijfsanalisten gebruiken Power BI rapporten en dashboards om gegevens te analyseren en zakelijke inzichten af te leiden.

  7. Gegevens kunnen ook veilig worden gedeeld met andere bedrijfseenheden of externe vertrouwde partners met behulp van Azure Data Share.

Streaming

  1. Gebruik Azure Event Hubs of Azure IoT Hubs om gegevensstromen op te nemen die zijn gegenereerd door clienttoepassingen of IoT-apparaten. Event Hub of IoT Hub vervolgens streaminggegevens opnemen en opslaan, met behoud van de volgorde van de ontvangen gebeurtenissen. Consumenten kunnen vervolgens verbinding maken met Event Hub of IoT Hub en berichten ophalen voor verwerking.

  2. Configureer Event Hub Capture of IoT Hub Storage-eindpunten om een kopie van de gebeurtenissen op te slaan in de onbewerkte zone van uw Azure Data Lake Store Gen 2-data lake. Met deze functie wordt het 'koude pad' van het lambda-architectuurpatroon geïmplementeerd en kunt u historische en trendanalyses uitvoeren op de stroomgegevens die zijn opgeslagen in uw data lake met behulp van serverloze SQL-query's of Spark-notebooks volgens het patroon voor semi-gestructureerde gegevensbronnen die hierboven worden beschreven.

  3. Gebruik een Stream Analytics om het 'hot path' van het lambda-architectuurpatroon te implementeren en inzichten af te leiden uit de gegevensstroom die onderweg zijn. Definieer ten minste één invoer voor de gegevensstroom die afkomstig is van uw Event Hub of IoT Hub, één query voor het verwerken van de invoergegevensstroom en één Power BI-uitvoer naar waar de queryresultaten naar worden verzonden.

    1. Als onderdeel van uw gegevensverwerking met Stream Analytics kunt u machine learning-modellen aanroepen om uw stroomgegevenssets te verrijken en zakelijke beslissingen te nemen op basis van de gegenereerde voorspellingen. Deze machine learning kunnen worden gebruikt vanuit Azure Cognitive Services of aangepaste ML in Azure Machine Learning.
  4. Bedrijfsanalisten gebruiken vervolgens Power BI realtime gegevenssets en dashboardmogelijkheden voor om de snel veranderende inzichten te visualiseren die door uw query Stream Analytics gegenereerd.

Ontdekken en bepalen

Gegevensgovernance is een veelvoorkomende uitdaging in grote bedrijfsomgevingen. Bedrijfsanalisten moeten aan de ene kant gegevensactiva kunnen ontdekken en begrijpen die hen kunnen helpen bij het oplossen van bedrijfsproblemen. Aan de andere kant willen Chief Data Officers inzicht krijgen in privacy en beveiliging van bedrijfsgegevens.

Azure Purview

  1. Gebruik Azure Purview voor gegevensdetectie en governance-inzichten over uw gegevensactiva, gegevensclassificatie en gevoeligheid voor het hele organisatiegegevenslandschap.

  2. Met Azure Purview kunt u een zakelijke woordenlijst onderhouden met de specifieke zakelijke terminologie die gebruikers nodig hebben om inzicht te krijgen in de semantiek van wat gegevenssets betekenen en hoe ze bedoeld zijn om in de hele organisatie te worden gebruikt.

  3. U kunt al uw gegevensbronnen registreren en regelmatige scans instellen om automatisch relevante metagegevens over gegevensactiva in de organisatie te catalogiseren en bij te werken. Azure Purview kan ook automatisch gegevensgegevens van gegevensgegevens toevoegen op basis van gegevens Azure Data Factory of Azure Synapse pijplijnen.

  4. Gegevensclassificatie- en gevoeligheidslabels voor gegevens kunnen automatisch worden toegevoegd aan uw gegevensactiva op basis van vooraf geconfigureerde regels of regels voor de regels voor regels voor de gevoeligheid van gegevens die worden toegepast tijdens de reguliere scans.

  5. Data governance-professionals kunnen de rapporten en inzichten gebruiken die worden gegenereerd door Azure Purview om controle te houden over het hele gegevenslandschap en de organisatie te beschermen tegen beveiligings- en privacyproblemen.

Platformservices

Als u de kwaliteit van uw Azure-oplossingen wilt verbeteren, volgt u de aanbevelingen en richtlijnen die zijn gedefinieerd in het Azure Well-Architected Framework vijf pijlers van hoogwaardige architectuur: Kostenoptimalisatie, operationele uitmuntendheid, prestatie-efficiëntie, betrouwbaarheid en beveiliging.

Als u deze aanbevelingen volgt, moeten de onderstaande services worden beschouwd als onderdeel van het ontwerp:

  1. Azure Active Directory:identiteitsservices, eendimensionale aanmelding en meervoudige verificatie voor Azure-workloads.
  2. Azure Cost Management:financieel beheer van uw Azure-workloads.
  3. Azure Key Vault:beveiligd referentie- en certificaatbeheer. Met pijplijnen Azure Synapse Azure Synapse Spark-pools en Azure ML bijvoorbeeld referenties en certificaten ophalen van Azure Key Vault die worden gebruikt voor veilige toegang tot gegevensopslag.
  4. Azure Monitor:verzamel, analyseer en werk op telemetriegegevens van uw Azure-resources om proactief problemen te identificeren en de prestaties en betrouwbaarheid te maximaliseren.
  5. Azure Security Center:de beveiligingsstatus van uw Azure-workloads versterken en bewaken.
  6. Azure DevOps & GitHub:Implementeert DevOps-procedures om automatisering en naleving af te dwingen voor uw workloadontwikkelings- en implementatiepijplijnen voor Azure Synapse en Azure ML.
  7. Azure Policy:implementeert organisatiestandaarden en governance voor resourceconsistentie, naleving van regelgeving, beveiliging, kosten en beheer.

Architectuuronderdelen

De volgende Azure-services zijn gebruikt in de architectuur:

  • Azure Synapse Analytics
  • Azure Data Lake Gen2
  • Azure Cosmos DB
  • Azure Cognitive Services
  • Azure Machine Learning
  • Azure Event Hubs
  • Azure IoT Hub
  • Azure Stream Analytics
  • Azure Purview
  • Azure Data Share
  • Microsoft Power BI
  • Azure Active Directory
  • Azure Cost Management
  • Azure Key Vault
  • Azure Monitor
  • Azure Security Center
  • Azure DevOps
  • Azure Policy
  • GitHub

Alternatieven

Overwegingen

De technologieën in deze architectuur zijn gekozen omdat elk ervan de benodigde functionaliteit biedt voor het afhandelen van de meest voorkomende gegevensuitdagingen in een organisatie. Deze services voldoen aan de vereisten voor schaalbaarheid en beschikbaarheid, terwijl ze de kosten onder controle houden. De services die onder deze architectuur vallen, zijn slechts een subset van een veel grotere familie Van Azure-services. Vergelijkbare resultaten kunnen worden bereikt met behulp van andere services of functies die niet onder dit ontwerp vallen.

Specifieke zakelijke vereisten voor uw analysegebruiksgevallen kunnen ook vragen om het gebruik van verschillende services of functies die niet in dit ontwerp worden overwogen.

Vergelijkbare architectuur kan ook worden geïmplementeerd voor preproductieomgevingen waar u uw workloads kunt ontwikkelen en testen. Houd rekening met de specifieke vereisten voor uw workloads en de mogelijkheden van elke service voor een rendabele preproductieomgeving.

Prijzen

Over het algemeen gebruikt u de Azure-prijscalculator om de kosten te schatten. De ideale afzonderlijke prijscategorie en de totale totale kosten van elke service die in de architectuur is opgenomen, zijn afhankelijk van de hoeveelheid gegevens die moet worden verwerkt en opgeslagen en het verwachte acceptabele prestatieniveau. Gebruik de onderstaande handleiding voor meer informatie over de prijs van elke service:

  • Azure Synapse Analytics serverloze architectuur kunt u uw reken- en opslagniveaus onafhankelijk schalen. Rekenbronnen worden in rekening gebracht op basis van gebruik en u kunt deze resources op aanvraag schalen of onderbreken. Storage resources worden gefactureerd per terabyte, zodat uw kosten toenemen naarmate u meer gegevens opneemt.

  • Azure Data Lake Gen 2 wordt in rekening gebracht op basis van de hoeveelheid gegevens die is opgeslagen en op basis van het aantal transacties voor het lezen en schrijven van gegevens.

  • Azure Event Hubs en Azure IoT Hubs worden in rekening gebracht op basis van de hoeveelheid rekenbronnen die nodig zijn voor het verwerken van uw berichtenstromen.

  • Azure Machine Learning kosten zijn afkomstig van de hoeveelheid rekenbronnen die worden gebruikt voor het trainen en implementeren van uw machine learning modellen.

  • Cognitive Services worden in rekening gebracht op basis van het aantal aanroepen dat u naar de service-API's maakt.

  • De prijs van Azure Purview is gebaseerd op het aantal gegevensactiva in de catalogus en de hoeveelheid rekenkracht die nodig is om ze te scannen.

  • Azure Stream Analytics wordt in rekening gebracht op basis van de hoeveelheid rekenkracht die nodig is om uw stroomquery's te verwerken.

  • Power BI verschillende productopties voor verschillende vereisten. Power BI Embedded biedt een op Azure gebaseerde optie voor het insluiten Power BI functionaliteit in uw toepassingen. Een Power BI Embedded is opgenomen in het bovenstaande prijsvoorbeeld.

  • De prijs voor Azure CosmosDB is gebaseerd op de hoeveelheid opslag- en rekenbronnen die uw databases nodig hebben.

Volgende stappen

  • U vindt uitgebreide richtlijnen voor de architectuur van gegevenspijplijnen, datawarehousing, online analytical processing (OLAP) en big data in de Azure Data Architecture Guide (Handleiding voor azure-gegevensarchitectuur).

  • Verken de Data-engineer Learning-paden van Microsoft voor het verder trainen van inhoud en labs over de services die bij deze referentiearchitectuur betrokken zijn.