Utiliser Azure Synapse Analytics avec l’analyse à l’échelle du cloud

Article
10/07/2023

Azure Synapse Analytics est le service d’analyse intégré et provisionné qui accélère la génération d’insights dans les entrepôts de données et les systèmes de Big Data. Azure Synapse Analytics rassemble :

Les meilleures technologies SQL utilisées dans l’entreposage des données d’entreprise.
Les technologies Spark utilisées pour le Big Data.
Des pipelines pour l’application des données (alignée à la source) et l’extraction, la transformation et le chargement (ETL) ou l’extraction, le chargement et la transformation (ELT).

Azure Synapse Studio est un outil dans Azure Synapse qui offre une expérience unifiée pour la gestion, la supervision, le codage et la sécurité. Synapse Studio offre une intégration profonde avec d’autres services Azure, comme Power BI, Azure Cosmos DB et Azure Machine Learning.

Remarque

Cette section vise à décrire les configurations prescrites qui sont spécifiques à l’analyse à l’échelle du cloud. Elle complète la documentation Azure Synapse Analytics officielle.

Vue d’ensemble

Lors de la configuration initiale d’une zone d’atterrissage des données, vous pouvez déployer un seul espace de travail Azure Synapse Analytics qui sera utilisé par tous les analystes et scientifiques de données. Vous pouvez créer davantage d’espaces de travail pour des intégrations de données ou des produits de données spécifiques.

Vous aurez peut-être besoin d’espaces de travail Azure Synapse Analytics supplémentaires si votre produit de données doit fournir un accès aux données standardisées avec une sécurité au niveau des lignes et des colonnes. Vous pouvez fournir ces espaces de travail avec les pools Azure synapse. Les équipes de produits de données auront peut-être besoin de leur propre espace de travail pour la création de produits de données et un espace de travail distinct destiné uniquement aux équipes de produits avec un accès de développement étendu.

Configuration d’Azure Synapse Analytics

La première étape du déploiement d’Azure Synapse Analytics consiste à configurer un espace de travail Azure Synapse, qui est connecté à un compte Azure Purview.

Mise en réseau Azure Synapse Analytics

Une zone d’atterrissage des données crée des espaces de travail avec un réseau virtuel managé Azure Synapse Analytics. La communication avec Azure Synapse s’effectue via les trois points de terminaison qu’il expose : pool SQL, SQL à la demande et le point de terminaison de développement.

Au niveau du réseau, l’analyse à l’échelle du cloud utilise des points de terminaison privés managés Synapse. Ces points de terminaison garantissent que l’ensemble du trafic entre le réseau virtuel de la zone d’atterrissage des données et les espaces de travail Azure Synapse passe intégralement par le réseau principal de Microsoft.

Contrôle d’accès aux données Azure Synapse

Utilisez des listes de contrôle d’accès avec la méthode Pass-through de Microsoft Entra dans Azure Synapse Analytics pour gérer l’accès aux fichiers dans le lac de données.

Pour les données pour lesquelles vous devez restreindre les colonnes et les lignes retournées, nous recommandons une sécurité au niveau des lignes et des colonnes pour limiter l’accès aux données sur les tables dans le pool dédié ou serverless Azure Synapse SQL. La sécurité au niveau des lignes et des colonnes est implémentée au niveau de la base de données, en plus des rôles de base de données.

Par exemple, la sécurité au niveau des lignes garantit que les utilisateurs d’une application de données (alignée à la source) ou d’un produit de données spécifique ne voient que leurs propres données. même si la table contient des données pour l’ensemble de l’entreprise.

Vous pouvez combiner la sécurité au niveau des lignes avec la sécurité au niveau des colonnes pour limiter l’accès aux colonnes contenant des données sensibles. De cette façon, la sécurité au niveau des lignes et la sécurité au niveau des colonnes appliquent toutes les deux la logique de restriction d’accès au niveau de la base de données plutôt qu’au niveau de l’application. L’autorisation est évaluée chaque fois qu’un niveau tente d’accéder aux données.

Remarque

Le pool SQL serverless Azure Synapse prend en charge la sécurité au niveau des colonnes pour les vues et non pour les tables externes. Dans le cas de tables externes, vous pouvez créer une vue logique en haut de la table externe, puis appliquer la sécurité au niveau des colonnes. Dans le cas de la sécurité au niveau des lignes, les vues personnalisées peuvent être utilisées comme solution de contournement.

Pour plus d’informations, consultez Contrôle d’accès aux données Azure Synapse Analytics.

Contrôle d’accès aux données Azure Synapse dans Azure Data Lake

Quand vous déployez un espace de travail Azure Synapse Analytics, vous avez besoin d’un compte Azure Data Lake Storage provenant de l’abonnement ou de l’utilisation manuelle de l’URL du compte de stockage. Le compte de stockage spécifié est défini comme principal pour l’espace de travail Azure Synapse déployé afin de stocker ses données. Azure Synapse stocke les données dans un conteneur qui inclut des tables Apache Spark et les journaux de l’application Spark dans un dossier nommé /synapse/{workspaceName} . Il possède également un conteneur pour la gestion des bibliothèques que vous choisissez d’installer.

Conseil

Nous vous recommandons d’utiliser un conteneur dédié sur la couche de développement ou sur le compte Data Lake 3. Ce conteneur est utilisé comme stockage principal pour les métadonnées Spark.

Reportez-vous à Contrôle d’accès aux données Azure Synapse Analytics pour obtenir des recommandations sur la configuration de l’accès aux données.

Étapes suivantes

Liste de contrôle de préparation Azure Purview pour l’analyse à l’échelle du cloud

Share via