Modifier

Gestion des données dans Azure Data Lake avec Microsoft Purview

Azure Data Factory
Microsoft Purview
Azure Data Lake Storage
Azure Synapse Analytics
Power BI

Idées de solution

Cet article présente une idée de solution. Si vous souhaitez que nous développions le contenu avec d’autres informations, telles que des cas d’usage potentiels, d’autres services, des considérations d’implémentation ou un guide des prix, adressez-nous vos commentaires GitHub.

Cet article décrit une solution qui utilise Azure Purview pour générer une base de gestion et de gouvernance des données capable de produire et de fournir des données de haute qualité et fiables.

Architecture

Architecture diagram that shows how Azure Purview scans and classifies data.

Diagramme qui montre comment Azure Purview analyse et classifie les données. Data Lake Storage se connecte à Azure Purview via une plateforme de données moderne. Azure Purview se connecte également à Power BI. Le diagramme montre également l’intégration entre ces services et Microsoft Entra ID, Azure Monitor et Azure Key Vault.

Téléchargez un fichier Visio de cette architecture.

Dataflow

Azure Purview fournit un service unique de gestion unifiée des données pour les données issues de toutes les sources, dans le lac de données et les outils de création de rapports finaux.

Scénarios de connexion d’Azure Purview aux services Data Lake :

  1. Azure Purview fournit une connexion à la sécurité améliorée à vos pipelines d’ingestion des lacs de données, de stockage et d’analytique pour cataloguer automatiquement les ressources de données. Le service fournit également la traçabilité entre ces services. Les services Azure spécifiques incluent Data Factory, Data Lake Storage et Azure Synapse Analytics.

  2. Azure Purview se connecte en mode natif avec Power BI et d’autres outils de création de rapports et de visualisation. Il montre la traçabilité des données utilisées dans les rapports finaux. Il partage également les informations de sensibilité des ressources Power BI pour empêcher l’utilisation incorrecte des données.

Important

Les informations transférées depuis les sources vers Azure Purview sont des métadonnées qui décrivent les données dans les sources analysées. Aucune donnée réelle n’est transférée des sources vers Azure Purview.

Fonctionnalités

  • Catalogue. L’Azure Purview Data Catalog peut automatiquement capturer et décrire les principales caractéristiques des données à la source, notamment le schéma, les propriétés techniques et l’emplacement. Le glossaire Azure Purview permet de superposer une définition des données adaptée aux entreprises, afin d’améliorer la recherche et la découverte.

  • Classification. Azure Purview classe automatiquement les jeux de données et les éléments de données avec 100 classifications de données sensibles prédéfinies. Il vous permet également de définir vos propres schémas de classification personnalisés que vous pouvez appliquer manuellement et automatiquement.

  • Traçabilité. Azure Purview visualise par diagramme la traçabilité entre Data Factory, Azure Synapse Analytics et les pipelines Power BI. Ces visualisations affichent le flux de bout en bout des données à un niveau granulaire.

  • Contrôle d’accès. La stratégie de contrôle d’accès Azure Purview vous permet de définir et d’accorder l’accès aux ressources de données à partir du catalogue, directement sur les sources sous-jacentes.

  • Propriété. Azure Purview vous permet d’appliquer la propriété et la coordination des données aux ressources de données et aux éléments de glossaire dans le catalogue.

  • Insight. Les insights dans Azure Purview fournissent plusieurs rapports prédéfinis pour permettre aux responsables des données, aux professionnels des données et aux professionnels de la gouvernance des données d’acquérir une connaissance approfondie du paysage des données.

Composants

  • Azure Purview est un catalogue de données unifié qui gère les données locales, multicloud et SaaS (Software as a service). Ce service de gouvernance des données gère les cartographies de paysage des données. Les fonctionnalités incluent la découverte automatisée des données, la classification des données sensibles et la traçabilité des données.

  • Data Factory est un service d’intégration de données serverless complètement managé qui vous permet de construire des processus ETL et ELT.

  • Data Lake Storage offre un stockage cloud extrêmement évolutif, hautement sécurisé et économique pour les charges de travail d’analytique hautes performances.

  • Azure Synapse Analytics est un service d’analytique illimité, qui réunit l’intégration de données, l’entreposage de données d’entreprise et des fonctionnalités analytiques pour le Big Data.

  • Power BI est une collection de services logiciels et d’applications. Ces services créent et partagent des rapports qui se connectent et visualisent plusieurs sources de données. Lorsque vous utilisez Power BI avec Azure Purview, le service peut cataloguer et classer vos données, et fournir une traçabilité granulaire illustrée de bout en bout.

  • Azure Private Link fournit une connectivité privée entre un réseau virtuel et les services Azure PaaS (Platform As A Service), les services qui vous appartiennent ou des services partenaires Microsoft.

  • Azure Key Vault stocke et contrôle l’accès aux secrets tels que les jetons, mots de passe et clés API. Key Vault crée et contrôle également des clés de chiffrement et gère les certificats de sécurité.

  • Microsoft Entra ID offre des services de gestion des identités et des accès basé sur le cloud. Ces fonctionnalités permettent aux utilisateurs de se connecter et d’accéder aux ressources.

  • Azure Monitor collecte et analyse des données dans les environnements et ressources Azure. Ces données incluent la télémétrie des applications telles que les métriques de performances et les journaux d’activité.

Détails du scénario

À mesure que vous chargez des données dans Azure, la nécessité de gouverner et de gérer correctement ces données pour l’ensemble des sources de données et des consommateurs de données augmente également.

Si vous n’avez pas de données de haute qualité dans votre patrimoine de données Azure, la valeur commerciale d’Azure est diminuée. La solution consiste à créer une base pour la gouvernance et la gestion des données capable de produire et de fournir des données de haute qualité et fiables.

Les données doivent être gérées à grande échelle dans le stockage local, cloud et multicloud pour garantir leur conformité aux exigences de sécurité, de confidentialité et d’utilisation. Les données bien gérées peuvent également améliorer la découverte automatique, le partage des données et la qualité des données, ce qui améliore l’utilisation des données dans les applications et l’analytique.

Azure Purview fournit une solution de gouvernance pour la recherche, la classification, la définition et l’application des stratégies et normes au sein des données. Vous pouvez l’utiliser pour appliquer les définitions, les classifications et les processus de gouvernance uniformément au sein des données. Le service catalogue toutes les sources de données, identifie les informations sensibles et définit la traçabilité des données. Il fournit une plateforme centrale via laquelle vous pouvez appliquer des définitions et la propriété aux données. Grâce à un affichage unique des rapports et informations analytiques, il peut vous aider à générer les normes de gestion des données qui doivent être appliquées à vos données.

En collaboration avec d’autres services Azure, Azure Purview peut automatiquement découvrir, cataloguer, classer et gérer les données au sein des offres Azure Data Lake et des services partenaires.

Cas d’usage potentiels

La configuration requise pour la gestion des données diffère selon le secteur d’activité. Pour tous les secteurs d’activité, la nécessité de gouverner les données à grande échelle s’est développée à mesure que la taille et la complexité des données et architectures de données ont pris de l’ampleur. Cela convient aux organisations qui pourraient profiter des avantages suivants que procurent des données bien gouvernées :

  • Détection automatique des données pour accélérer l’adoption du cloud.
  • Sécurité améliorée des données pour la conformité avec les lois et réglementations en matière de gestion des données.
  • Amélioration de l’accès, de la découverte et de la qualité des données gérées pour améliorer l’analytique.

Contributeurs

Cet article est géré par Microsoft. Il a été écrit à l’origine par les contributeurs suivants.

Auteur principal :

Étapes suivantes