Modifier

Entrepôt de données logique avec des pools SQL serverless Azure Synapse

Azure Cosmos DB
Azure Data Factory
Azure Data Lake
Azure Synapse Analytics
Power BI

Idées de solution

Cet article présente une idée de solution. Si vous souhaitez nous voir développer le contenu avec d’autres informations, telles que des cas d’usage potentiels, d’autres services, des considérations d’implémentation ou un guide des prix, faites-le-nous savoir avec les Commentaires de GitHub.

Le modèle d’entrepôt de données logique (LDW) place une légère couche relationnelle virtualisée par-dessus les données stockées dans un lac de données ou une base de données. Cette couche de virtualisation fournit un accès à l’entrepôt de données sans avoir besoin de déplacer les données. Cette solution peut combiner des données de traitement transactionnel en ligne (OLTP) avec des données analytiques provenant de lacs de données pour servir des charges de travail décisionnelles (BI) et analytiques avec une faible complexité et une faible latence.

Apache Spark™ est une marque commerciale d’Apache Software Foundation aux États-Unis et/ou dans d’autres pays/régions. L’utilisation de cette marque n’implique aucune approbation d’Apache Software Foundation.

Architecture

Diagramme montrant un flux de données de gauche à droite comme le décrivent les étapes.

Téléchargez un fichier PowerPoint avec tous les diagrammes relatifs à cet article.

Dataflow

  1. Azure Data Factory intègre les données des systèmes sources dans le lac de données d’entreprise.

  2. Les données des appareils et capteurs sont aussi diffusées depuis les périphériques vers le cloud par le biais d’Azure IoT Hub. Azure Stream Analytics traite les données et les envoie au lac de données d’entreprise.

  3. Les pools SQL serverless Azure Synapse définissent un LDW qui a des tables logiques et des vues accessibles par le biais du point de terminaison à la demande du pool SQL serverless de l’espace de travail Azure Synapse.

  4. Azure Synapse Link pour Azure Cosmos DB interroge les données transactionnelles en temps réel par le biais des pools SQL serverless Azure Synapse. Ces données s’associent aux données de traitement par lots à froid et de streaming à chaud issues du lac de données d’entreprise pour créer des vues logiques.

  5. Les applications décisionnelles (BI), de création de rapports et d’analytique accèdent aux données et aux vues LDW à l’aide du point de terminaison SQL serverless de l’espace de travail Azure Synapse.

    Notes

    Le point de terminaison SQL serverless de l’espace de travail Azure Synapse est accessible à partir de tout outil ou service qui prend en charge les connexions TDS (Tabular Data Stream) à SQL Server.

Composants

  • Azure Synapse Analytics est un service d’analytique illimité, qui réunit l’intégration de données, l’entreposage de données d’entreprise et des fonctionnalités analytiques pour le Big Data.
  • Data Factory offre une intégration de données à l’échelle du cloud et une orchestration des flux de données.
  • IoT Hub permet une communication sécurisée et fiable entre les applications et les appareils IoT (Internet des objets).
  • Stream Analytics fournit des pipelines d’analytique de streaming en temps réel serverless.
  • Azure Data Lake Storage offre un stockage cloud évolutif et rentable.
  • Azure Cosmos DB est une base de données NoSQL complètement managée pour développer des applications modernes.

Détails du scénario

En utilisant un LDW avec des pools SQL serverless Azure Synapse, vous pouvez associer des données de traitement par lots à froid, des données de streaming à chaud et des données transactionnelles actives dans une seule requête ou définition de vue T-SQL.

Cette solution évite de déplacer des données par le biais de pipelines d’extraction, transformation et chargement (ETL) complexes, coûteux et sujets à latence. Le concept d’un LDW est similaire à celui d’un data lakehouse, mais un LDW avec Azure Synapse Analytics inclut une prise en charge du traitement transactionnel/analytique hybride (HTAP). HTAP utilise des pools SQL serverless Azure Synapse pour interroger les données OLTP stockées dans Azure Cosmos DB.

Un LDW Azure Synapse Analytics se base sur les pools SQL serverless disponibles avec tous les espaces de travail Azure Synapse. Une version améliorée de la fonction OPENROWSET permet aux pools SQL serverless d’accéder aux données dans Data Lake Storage.

Cet accès aux données permet de créer des objets de base de données relationnelle comme des tables et des vues sur des collections de fichiers de données qui représentent des entités logiques, comme des produits, des clients et des transactions commerciales. Des outils décisionnels qui se connectent à l’aide d’un point de terminaison SQL Server standard peuvent consommer ces entités logiques en tant que dimensions et tables de faits.

Diagramme montrant une comparaison du concept de LDW à côté d’une implémentation d’un LDW avec un pool SQL serverless Azure Synapse.

La capacité à accéder à des magasins de données transactionnels comme Azure Cosmos DB par le biais d’Azure Synapse Link pour Azure Cosmos DB étend ces fonctionnalités. L’accès à des données OLTP à l’aide d’une architecture HTAP fournit des mises à jour instantanées sans interférer avec les transactions actives.

Diagramme montrant le flux de données externes vers la couche de création de rapports à l’aide d’un pool SQL serverless Azure Synapse.

Chaque espace de travail Azure Synapse comprend un point de terminaison SQL à la demande. Le point de terminaison permet aux administrateurs et développeurs SQL Server d’utiliser des environnements familiers pour travailler avec des LDW que des pools SQL serverless Azure Synapse définissent.

La capture d’écran suivante montre SQL Server Management Studio (SSMS) connecté à un pool SQL serverless Azure Synapse.

Capture d’écran montrant SSMS connecté au point de terminaison SQL Server Azure Synapse.

Les pools SQL serverless Azure Synapse prennent en charge les formats de fichiers suivants :

  • Texte délimité, comme CSV, TSV et TXT
  • JSON
  • Parquet

Les pools SQL serverless Azure Synapse prennent également en charge le format Delta Lake. Cette prise en charge permet à des modèles comme Enrichir dans Spark, traiter les requêtes avec SQL, où des services Apache Spark™ comme Azure Databricks ou des pools Apache Spark dans Azure Synapse construisent les données, de créer des jeux de données organisés dans le lac de données. Au lieu de charger ces jeux de données dans un entrepôt de données physique, vous pouvez définir un LDW sur le lac de données pour fournir la couche modèle/service pour la création de rapports.

Diagramme montrant le flux de données externes vers la couche de création de rapports à l’aide d’un pool SQL serverless Azure Synapse.

Le LDW avec des pools SQL serverless Azure Synapse est une implémentation du modèle Data Lakehouse. L’utilisation de Databricks SQL pour implémenter un LDW est une solution alternative. Toutefois, Databricks SQL ne dispose pas de la fonctionnalité HTAP d’Azure Synapse Link pour Cosmos DB.

Cas d’usage potentiels

Ce modèle s’avère utile dans les cas suivants :

  • Entrepôt de données servant une couche pour des cas d’usage décisionnels et analytiques.
  • Exploration ad hoc des données brutes dans un lac de données.
  • Streaming de données rentable dans un lac de données qui n’a pas besoin de ses propres ressources de calcul pour écrire des données. Une table de base de données logique, une vue ou une requête T-SQL ad hoc peuvent accéder instantanément aux données à partir du lac de données.
  • Accès instantané aux données transactionnelles Azure Cosmos DB pour créer des pipelines d’agrégation en temps réel ou associer des données analytiques stockées dans le lac de données.

Contributeurs

Cet article est géré par Microsoft. Il a été écrit à l’origine par les contributeurs suivants.

Auteur principal :

Pour afficher les profils LinkedIn non publics, connectez-vous à LinkedIn.

Étapes suivantes