Modifier

Share via


Gestion des données de référence avec Profisee et Azure Data Factory

Azure Data Factory
Azure Databricks
Azure Data Lake

Ce modèle architectural montre comment vous pouvez incorporer Gestion des données de référence dans l’écosystème des services de données Azure pour améliorer la qualité des données utilisées pour l’analytique et la prise de décisions opérationnelles. Gestion des données de référence résout plusieurs défis courants, notamment :

  • Identification et gestion des données en double (correspondance et fusion).
  • Marquage et résolution des problèmes de qualité des données.
  • Normalisation et enrichissement des données.
  • Autorisation accordée aux administrateurs de données de gérer et d’améliorer les données de manière proactive.

Ce modèle présente une approche moderne de la gestion des données de référence. Toutes les technologies peuvent être déployées en mode natif dans Azure, y compris Profisee, que vous pouvez déployer via des conteneurs et gérer avec Azure Kubernetes Service.

Architecture

Diagram showing the master data management Profisee data flow.

Téléchargez un fichier Visio des diagrammes utilisés dans cette architecture.

Dataflow

Le flux de données suivant correspond au diagramme précédent :

  1. Chargement des données sources : Les données sources des applications métier sont copiées dans Azure Data Lake et stockées avant d’être à nouveau transformées puis utilisées en aval à des fins analytiques. Les données sources appartiennent généralement à l’une des trois catégories suivantes :

    • Données de référence structurées – Informations qui décrivent les clients, les produits, les lieux, etc. Les données de référence ont un faible volume, une complexité élevée et changent lentement au fil du temps. Il s’agit souvent des données avec lesquelles les organisations rencontrent le plus de difficultés en matière de qualité des données.
    • Données transactionnelles structurées – Événements métier qui se produisent à un moment précis dans le temps. Il peut s’agir par exemple d’une commande, d’une facture ou d’une interaction. Les transactions incluent les métriques y afférentes (comme le prix de vente) et des références aux données de référence (comme le produit et le client impliqués dans un achat). Les données transactionnelles sont généralement nombreuses, peu complexes et ne changent pas au fil du temps.
    • Données non structurées : données pouvant prendre la forme de documents, d’images, de vidéos, de contenu de réseaux sociaux et de contenu audio. Les plateformes d’analytique modernes savent de mieux en mieux utiliser les données non structurées pour obtenir de nouveaux insights. Les données non structurées sont souvent associées à des données de référence. Par exemple, un client est associé à un compte de réseau social ou un produit à une image.
  2. Chargement des données de référence source : les données de référence des applications métier sources sont chargées dans l’application de gestion des données de référence « telles quelles », avec des informations de traçabilité complètes et des transformations minimales.

  3. Traitement de gestion des données de référence automatisé : La solution de gestion des données de référence utilise des processus automatisés pour normaliser, vérifier et enrichir des données, telles que les données d’adresse. La solution identifie également les problèmes de qualité des données, regroupe les enregistrements en double (par exemple, les clients en double), et génère des enregistrements de référence, aussi appelés « enregistrements dorés ».

  4. Gestion des données : Si nécessaire, les administrateurs des données peuvent :

    • Vérifier et gérer des groupes d’enregistrements correspondants
    • Créer et gérer des relations de données
    • Renseigner les informations manquantes
    • Résoudre des problèmes de qualité des données.

    Les administrateurs de données peuvent gérer plusieurs cumuls hiérarchiques alternatifs si nécessaire, tels que les hiérarchies de produits.

  5. Chargement géré des données de référence – Les données de référence de grande qualité sont transmises à des solutions d’analytique en aval. Cette action simplifie le processus, car les intégrations de données ne demandent plus de transformations de la qualité des données.

  6. Chargement des données transactionnelles et non structurées : les données transactionnelles et non structurées sont chargées dans la solution d’analytique en aval, où elles sont combinées avec des données de référence de haute qualité.

  7. Visualisation et analyse – Les données sont modélisées et mises à la disposition des utilisateurs professionnels à des fins d’analyse. Les données de référence de haute qualité éliminent les problèmes courants de qualité des données, ce qui a pour conséquence d’améliorer les insights.

Composants

  • Azure Data Factory est un service d’intégration de données hybride qui vous permet de créer, de planifier et d’orchestrer vos workflows ETL et ELT.

  • Azure Data Lake fournit un stockage illimité pour les données analytiques.

  • Profisee est une plateforme de gestion des données de référence évolutive conçue pour s’intégrer facilement à l’écosystème Microsoft.

  • Azure Synapse Analytics est un entrepôt de données cloud rapide, flexible et fiable qui vous permet de mettre à l'échelle, de calculer et de stocker des données de manière élastique et indépendante, avec une architecture de traitement massivement parallèle.

  • Power BI est une suite d’outils d’analytique métier qui fournit des insights à l’échelle de votre organisation. Connectez-vous à des centaines de sources de données, simplifiez la préparation des données et facilitez les analyses improvisées. Créez de superbes rapports, puis publiez-les pour que votre organisation les utilise sur le web et sur des appareils mobiles.

Autres solutions

En l’absence d’une application de gestion des données de référence spécialisée, vous pouvez trouver dans l’écosystème Azure certaines des fonctionnalités techniques nécessaires à l’élaboration d’une solution de gestion des données de référence.

  • Qualité des données :lors du chargement d’une plateforme d’analytique, vous pouvez renforcer la qualité des données dans les processus d’intégration. Par exemple, appliquez des transformations de la qualité des données dans un pipeline Azure Data Factory avec des scripts codés en dur.
  • Normalisation et enrichissement des données : Azure Maps aide à la vérification et la normalisation des données d’adresse, que vous pouvez utiliser dans Azure Functions et Azure Data Factory. La normalisation des autres données peut exiger le développement de scripts codés en dur.
  • Gestion des données en double : vous pouvez utiliser Azure Data Factory pour dédupliquer les lignes quand il existe suffisamment d’identificateurs disponibles pour obtenir une correspondance exacte. Dans ce cas, la logique de fusion des correspondances avec une survivance appropriée peut nécessiter des scripts codés en dur personnalisés.
  • Coordination des données: utilisez Power Apps pour développer rapidement des solutions de coordination des données simples en vue de gérer les données dans Azure, avec des interfaces utilisateur appropriées pour l’examen, le workflow, les alertes et les validations.

Détails du scénario

De nombreux programmes de transformation numérique utilisent Azure comme noyau. Cependant, cela dépend de la qualité et de la cohérence des données provenant de plusieurs sources, telles que des applications métier, des bases de données,des flux de données, etc. Il offre également de la valeur grâce à la business intelligence, à l’analytique, au Machine Learning et bien plus encore. La solution de gestion des données de référence (MDM) de Profisee vient compléter le patrimoine de données Azure avec une méthode pratique qui permet « d’aligner et de combiner » les données issues de plusieurs sources. Pour ce faire, elle applique des standards de données cohérents sur les données sources, telles que la correspondance, la fusion, la normalisation, la vérification et la correction. L’intégration native avec Azure Data Factory et d’autres services de données Azure simplifie un peu plus ce processus et permet de bénéficier plus rapidement des avantages métier Azure.

L’un des principaux aspects du fonctionnement des solutions MDM est qu’elles combinent les données issues de plusieurs sources pour créer une « matrice d’enregistrements de référence » qui contient les données les mieux connues et les plus fiables de chaque enregistrement. Cette structure est créée domaine par domaine en fonction des exigences, mais elle repose presque toujours sur plusieurs domaines. Les domaines courants sont le client, le produit et l’emplacement. Cependant, les domaines peuvent aussi représenter d’autres choses, notamment des données de référence, des contrats ou encore des noms de médicaments. En général, pour être efficace, un domaine doit offrir la meilleure couverture possible par rapport aux exigences des données considérables d’Azure.

Pipeline d’intégration MDM

Image that shows the master data management Profisee integration pipeline.

Téléchargez un fichier Visio de cette architecture.

L’image précédente montre les détails de l’intégration de la solution MDM Profisee. Notez qu’Azure Data Factory et Profisee incluent une prise en charge native de l’intégration REST, assurant ainsi une intégration légère et moderne.

  1. Chargement des données sources dans la solution de gestion des données de référence : Azure Data Factory extrait des données du lac de données, les transforme selon le modèle de données de référence et les diffuse dans le référentiel de gestion des données de référence via un récepteur REST.

  2. Traitement MDM – La plateforme MDM traite les données de référence sources par une succession d’activités qui visent à vérifier, standardiser et enrichir les données, puis à exécuter des processus d’amélioration de la qualité des données. Enfin, la gestion des données de référence effectue la mise en correspondance et la survivance pour identifier et regrouper les enregistrements en double et créer des enregistrements de référence. Si vous le souhaitez, les administrateurs de données peuvent effectuer des tâches qui aboutissent à un ensemble de données de référence à utiliser dans l’analytique en aval.

  3. Chargement des données de référence à des fins analytiques – Azure Data Factory utilise sa source REST pour transmettre en continu les données de référence de Profisee vers Azure Synapse Analytics.

Modèles Azure Data Factory pour Profisee

En collaboration avec Microsoft, Profisee a développé un ensemble de modèles Azure Data Factory qui simplifient et accélèrent l’intégration de Profisee dans l’écosystème Azure Data Services. Ces modèles utilisent une source de données et un récepteur de données REST Azure Data Factory pour lire et écrire les données à partir de l’API de passerelle REST de Profisee. Ils fournissent des modèles aussi bien pour la lecture que pour l’écriture dans Profisee.

Screenshot that shows MDM Profisee and the Azure Data Factory template.

Exemple de modèle Data Factory : JSON vers Profisee via REST

Les captures d’écran suivantes montrent un modèle Azure Data Factory qui copie les données d’un fichier JSON d’Azure Data Lake dans Profisee via REST.

Le modèle copie les données JSON sources :

Screenshot that shows the source JSON data.

Ensuite, les données sont synchronisées dans Profisee via REST :

Screenshot that shows REST sync to Profisee.

Pour plus d’informations, consultez Modèles Azure Data Factory pour Profisee.

Traitement MDM

Dans un cas d’usage de gestion des données de référence analytique, les données sont souvent traitées automatiquement via la solution de gestion des données de référence pour charger les données pour l’analytique. Les sections suivantes montrent un processus classique pour les données client dans ce contexte.

1. Chargement des données sources

Les données sources sont chargées dans la solution de gestion des données de référence à partir de systèmes sources, avec des informations de traçabilité. Dans ce cas, deux enregistrements sources sont obtenus, l’un du CRM et l’autre de l’application ERP. Lors la vérification visuelle, les deux enregistrements semblent représenter la même personne.

Nom de la source Adresse de la source État de la source Numéro de téléphone de la source ID de la source Adresse standard État standard Nom standard Numéro de téléphone standard Similarité
Alana Bosh 123 Main Street GA 7708434125 CRM-100
Bosch, Alana 123 Main St. Géorgie 404-854-7736 CRM-121
Alana Bosch (404) 854-7736 ERP-988

2. Vérification et standardisation des données

Les règles et les services de vérification et de standardisation aident à standardiser et vérifier les informations d’adresse, de nom et de numéro de téléphone.

Nom de la source Adresse de la source État de la source Numéro de téléphone de la source ID de la source Adresse standard État standard Nom standard Numéro de téléphone standard Similarité
Alana Bosh 123 Main Street GA 7708434125 CRM-100 123 Main St. GA Alana Bosh 770 843 4125
Bosch, Alana 123 Main St. Géorgie 404-854-7736 CRM-121 123 Main St. GA Alana Bosch 404 854 7736
Alana Bosch (404) 854-7736 ERP-988 Alana Bosch 404 854 7736

3. Correspondance

Une fois les données standardisées, une mise en correspondance est effectuée pour identifier les similarités entre les enregistrements du groupe. Dans ce scénario, deux enregistrements présentent des correspondances exactes sur le nom et le numéro de téléphone, et les autres présentent des correspondances approximatives sur le nom et l’adresse.

Nom de la source Adresse de la source État de la source Numéro de téléphone de la source ID de la source Adresse standard État standard Nom standard Numéro de téléphone standard Similarité
Alana Bosh 123 Main Street GA 7708434125 CRM-100 123 Main St. GA Alana Bosh 770 843 4125 0.9
Bosch, Alana 123 Main St. Géorgie 404-854-7736 CRM-121 123 Main St. GA Alana Bosch 404 854 7736 1.0
Alana Bosch (404) 854-7736 ERP-988 Alana Bosch 404 854 7736 1.0

4. Survivance

Une fois le groupe formé, la survivance crée et renseigne un enregistrement de référence (également appelé « enregistrement doré ») pour représenter le groupe.

Nom de la source Adresse de la source État de la source Numéro de téléphone de la source ID de la source Adresse standard État standard Nom standard Numéro de téléphone standard Similarité
Alana Bosh 123 Main Street GA 7708434125 CRM-100 123 Main St. GA Alana Bosh 770 843 4125 0.9
Bosch, Alana 123 Main St. Géorgie 404-854-7736 CRM-121 123 Main St. GA Alana Bosch 404 854 7736 1.0
Alana Bosch (404) 854-7736 ERP-988 Alana Bosch 404 854 7736 1.0
Enregistrement de référence : 123 Main St. GA Alana Bosch 404 854 7736

Cet enregistrement de référence, de même que les données sources améliorées et les informations de traçabilité, est chargé dans la solution d’analytique en aval, où il est relié aux données transactionnelles.

Cet exemple illustre un traitement de gestion des données de référence automatisé de base. Vous pouvez aussi utiliser des règles de qualité des données pour calculer et mettre à jour automatiquement les valeurs et signaler celles qui manquent ou qui ne sont pas valides, permettant ainsi aux administrateurs des données de les résoudre. Les administrateurs des données aident également à gérer les données, notamment les cumuls hiérarchiques de données.

Impact de la solution MDM sur la complexité de l’intégration

Comme illustré précédemment, la solution de gestion des données de référence fait face à plusieurs difficultés courantes rencontrées lors de l’intégration de données dans une solution d’analytique. En effet, elle corrige les problèmes de qualité des données, standardise et enrichit les données et rationalise les données en double. En incorporant la solution de gestion des données de référence dans votre architecture d’analytique, vous changez fondamentalement le flux de données : la logique codée en dur dans le processus d’intégration est abandonnée au profit de la solution de gestion des données de référence, ce qui simplifie considérablement les intégrations. Le tableau suivant présente quelques-unes des différences courantes qui existent dans le processus d’intégration, selon qu’une solution de gestion des données de référence est utilisée ou non.

Fonctionnalité Sans solution MDM Avec une solution MDM
Qualité des données Les processus d’intégration incluent des règles de qualité et des transformations qui aident à réparer et à corriger les données à mesure qu’elles se déplacent. Cela demande des ressources techniques à la fois pour l’implémentation initiale et pour la maintenance continue de ces règles, ce qui rend les processus d’intégration de données compliqués et coûteux à développer et à maintenir. La solution de gestion des données de référence configure et applique la logique et les règles de qualité des données. Les processus d’intégration n’opèrent aucune transformation de la qualité des données, déplaçant ainsi les données « telles quelles » dans la solution MDM. Les processus d’intégration de données sont simples et économiques à développer et à maintenir.
Standardisation et enrichissement des données Les processus d’intégration incluent une logique pour standardiser et aligner des données de référence. Développez des intégrations avec des services tiers pour assurer la standardisation des données d’adresse, de nom, d’e-mail et de téléphone. En utilisant les règles intégrées et les intégrations prêtes à l’emploi avec des services de données tiers, vous pouvez standardiser les données dans la solution MDM, ce qui simplifie l’intégration.
Gestion des données en double Le processus d’intégration identifie et regroupe les enregistrements en double qui existent dans et entre les applications en fonction d’identificateurs uniques existants. Ce processus partage des identificateurs entre les systèmes (par exemple, SSN ou e-mail), et lorsqu’ils sont identiques uniquement, il les met en correspondance et les regroupe. Il existe des approches plus sophistiquées qui demandent des investissements importants en matière d’ingénierie d’intégration. Les capacités intégrées de mise en correspondance du Machine Learning identifient les enregistrements en double dans et entre les systèmes et génèrent un enregistrement doré pour représenter le groupe. Ce processus permet de regrouper les enregistrements similaires, mais pas parfaitement identiques, avec des résultats explicables. Il gère les groupes dans les scénarios où le moteur de ML ne peut pas former de groupe avec un haut niveau de confiance.
Coordination des données Les activités de gestion des données mettent uniquement à jour les données dans les applications sources, comme dans les ERP ou les CRM. Généralement, elles découvrent des problèmes, tels que des données manquantes, incomplètes ou incorrectes, lors de l’analyse. Elles corrigent les problèmes dans l’application source, puis ces corrections sont appliquées dans la solution d’analytique à l’occasion de la mise à jour suivante. Les nouvelles informations à gérer sont ajoutées aux applications sources, ce qui prend du temps et est coûteux. Les solutions de gestion des données de référence intègrent des fonctionnalités d’administration des données qui permettent aux utilisateurs d’accéder aux données et de les gérer. Dans l’idéal, le système signale les problèmes et inviter les administrateurs des données à les corriger. Configurez rapidement de nouvelles informations ou des hiérarchies dans la solution afin que les administrateurs de données les gèrent.

Cas d’usage MDM

Alors qu’il existe un grand nombre de cas d’usage pour les solutions de gestion des données de référence, un petit nombre d’entre eux couvrent à eux seuls la plupart des implémentations de gestion des données de référence réelles. Bien que ces cas d'usage soient centrés sur un domaine unique, ils sont peu susceptibles d’être élaborés à partir de ce même domaine. Autrement dit, même ces cas d’usage ciblés incluent très probablement plusieurs domaines de données de référence.

Vue à 360° du client

La consolidation des données client à des fins analytiques est le cas d’usage MDM le plus courant. Les organisations capturent les données client sur un nombre croissant d’applications, ce qui a pour effet de créer des doublons dans et entre les applications avec des incohérences et des différences. Ces données client de qualité médiocre ne permettent pas d’exploiter le potentiel des solutions d’analytique modernes. Les symptômes sont les suivants :

  • Difficultés à répondre à des questions simples telles que « Qui sont nos principaux clients ? » et « Combien de nouveaux clients avons-nous ? », ce qui demande beaucoup de traitements manuels.
  • Informations client manquantes et peu précises, ce qui rend difficile le regroupement ou l’exploration des données.
  • Impossibilité d’analyser les données client sur les systèmes ou dans les unités commerciales en raison d’une incapacité à identifier de manière unique un client au-delà des limites de l’organisation et du système.
  • Mauvaise qualité des insights issus de l’intelligence artificielle et du machine learning en raison de la qualité médiocre des données d’entrée.

Vue à 360° des produits

Les données produit sont souvent disséminées dans plusieurs applications d’entreprise, par exemple ERP, PLM ou e-commerce. Le résultat est que le catalogue complet de produits est difficilement exploitable dans la mesure où le nom, la description et les caractéristiques des produits présentent des incohérences. De plus, les différentes définitions des données de référence compliquent davantage cette situation. Les symptômes sont les suivants :

  • Impossibilité de prendre en charge différents chemins de regroupement hiérarchique et d’exploration pour l’analytique des produits.
  • Difficultés à identifier avec précision les produits en stock, les fournisseurs auprès desquels vous achetez vos produits et les produits en double, ce qui aboutit à un stock excédentaire, aussi bien pour les produits finis que pour les matériaux.
  • Difficultés à rationaliser les produits en raison de définitions contradictoires, ce qui se traduit par des informations manquantes ou peu précises dans l’analytique.

Vue à 360° des données de référence

Dans le contexte de l’analytique, les données de référence sont constituées de nombreuses listes de données qui permettent de décrire d’autres jeux de données de référence. Les données de référence incluent des listes de pays et de régions, de devises, de couleurs, de tailles et d’unités de mesure. La présence d’incohérences dans les données de référence conduit à des erreurs évidentes dans l’analytique en aval. Les symptômes sont les suivants :

  • Plusieurs représentations d’une même chose. Par exemple, l’État de Géorgie est représenté par « GA » et « Georgia », ce qui ne facilite pas l’agrégation et l’exploration cohérentes des données.
  • Difficultés à agréger les données des différentes applications du fait de l’impossibilité d’établir des correspondances entre les valeurs des données de référence des différents systèmes. Par exemple, la couleur rouge est représentée par la lettre « R » dans le système ERP et par « Rouge » dans le système PLM.
  • Difficultés à faire correspondre les valeurs des données de référence des différentes organisations en raison de méthodes de catégorisation des données disparates.

Vue à 360° des aspects financiers

Les organisations financières dépendent fortement des données pour les activités essentielles que sont notamment la génération de rapports mensuels, trimestriels et annuels. Certaines organisations utilisent plusieurs logiciels de finance et de comptabilité. Il est alors fréquent que les données financières se trouvent dans plusieurs livres comptables. Elles les fusionnent pour produire les rapports financiers. Une solution de gestion des données de référence peut fournir un emplacement centralisé permettant de mapper et de gérer les comptes, les centres de coûts, les entités métier et d’autres jeux de données financiers dans une même vue unifiée. Les symptômes sont les suivants :

  • Difficultés à agréger les données financières des différents systèmes dans une même vue unifiée
  • Absence de processus permettant d’ajouter et de mapper les nouveaux éléments de données dans les systèmes financiers
  • Retards dans la production des rapports financiers de fin de période.

Considérations

Ces considérations implémentent les piliers d’Azure Well-Architected Framework qui est un ensemble de principes directeurs qui permettent d’améliorer la qualité d’une charge de travail. Pour plus d’informations, consultez Microsoft Azure Well-Architected Framework.

Fiabilité

La fiabilité permet de s’assurer que votre application tient vos engagements auprès de vos clients. Pour plus d’informations, consultez la page Vue d’ensemble du pilier de fiabilité.

Profisee s’exécute en mode natif sur Azure Kubernetes Service et Azure SQL Database. Les deux services offrent des fonctionnalités prêtes à l’emploi pour prendre en charge la haute disponibilité.

Efficacité des performances

L’efficacité des performances est la capacité de votre charge de travail à s’adapter à la demande des utilisateurs de façon efficace. Pour plus d’informations, consultez Vue d’ensemble du pilier d’efficacité des performances.

Profisee s’exécute en mode natif sur Azure Kubernetes Service et Azure SQL Database. Vous pouvez configurer Azure Kubernetes Service pour effectuer le scale-up ou le scale-out de Profisee, selon les besoins. Vous pouvez déployer Azure SQL Database dans plusieurs configurations différentes pour équilibrer les performances, la scalabilité et les coûts.

Sécurité

La sécurité fournit des garanties contre les attaques délibérées, et contre l’utilisation abusive de vos données et systèmes importants. Pour plus d’informations, consultez Vue d’ensemble du pilier Sécurité.

Profisee authentifie les utilisateurs par le biais d’OpenID Connect, qui implémente un flux d’authentification OAuth 2.0. La plupart des organisations configurent Profisee pour authentifier les utilisateurs auprès de Microsoft Entra ID. Ce processus garantit l’application et le respect des stratégies d’entreprise pour l’authentification.

Optimisation des coûts

L’optimisation des coûts consiste à examiner les moyens de réduire les dépenses inutiles et d’améliorer l’efficacité opérationnelle. Pour plus d’informations, consultez Vue d’ensemble du pilier d’optimisation des coûts.

Les coûts d’exécution se composent d’une licence logicielle et de la consommation Azure. Pour plus d’informations, contactez Profisee.

Déployer ce scénario

Pour déployer ce scénario :

  1. Déployez Profisee dans Azure à l’aide d’un modèle ARM.
  2. Créez une fabrique Azure Data Factory.
  3. Configurez votre fabrique Azure Data Factory pour qu’elle se connecte à un dépôt Git.
  4. Ajoutez les modèles Azure Data Factory de Profisee à votre référentiel Azure Data Factory Git.
  5. Créez un pipeline Azure Data Factory à l’aide d’un modèle.

Contributeurs

Cet article est géré par Microsoft. Il a été écrit à l’origine par les contributeurs suivants.

Auteur principal :

Pour afficher les profils LinkedIn non publics, connectez-vous à LinkedIn.

Étapes suivantes

Guides d’architecture

Architectures de référence