Gestion des données de référence avec Azure et CluedIn

Azure Data Factory

Azure SQL Database

Azure Synapse Analytics

Azure Monitor

Cette architecture CluedIn fournit aux entreprises des métriques sur la qualité des données ingérées, en détectant intelligemment les données non fiables (les données « sales ») et en les préparant pour leur nettoyage par les ingénieurs et gestionnaires de données. Les algorithmes de machine learning de logique approximative propriétaires aident les utilisateurs et les conservateurs à étiqueter les données, et à apprendre au système à identifier, corriger et éviter les problèmes de qualité des données au fil du temps.

Architecture

Diagram showing CluedIn architectural structure and data flow.

Téléchargez un fichier Visio de cette architecture.

Dataflow

La solution CluedIn est constituée de plusieurs couches fonctionnelles qui s’exécutent dans un cluster Kubernetes dans Azure Kubernetes Service (AKS). Une combinaison d’applications de microservices .NET Core gère des fonctions distinctes telles que l’ingestion des données, le traitement des données de streaming, la mise en file d’attente et l’interface utilisateur.

La couche d’analyse de CluedIn ingère les données provenant de sources cloud clientes (par exemple, de bases de données Azure SQL DB, Azure Cosmos DB, PostgreSQL et Salesforce) par le biais de connecteurs Azure Data Factory.

CluedIn reçoit aussi en entrée des données de systèmes locaux accessibles, comme SAP, Oracle, IBM et Hadoop. Par ailleurs, il peut utiliser des agents locaux pour analyser des données non publiques.
Le bus des services d’entreprise se connecte via les ports 5672 et 15672 pour les points de terminaison d’administration. Les analyseurs envoient les données au bus, et la couche de traitement consomme les données du bus, sur le port 5672.
La couche du journal des transactions reçoit les résultats de la couche de traitement.
Dans la couche de persistance, les bases de données consomment les données du journal des transactions et les conservent pour assurer la cohérence à terme entre les différents magasins de données. Tous les magasins s’exécutent en mode haute disponibilité (HA).

Contrairement à la virtualisation des données, la couche de persistance de CluedIn ingère des parties des données sources et préserve une version très fidèle des données et de leur structure. Grâce à cette haute fidélité, la fabrique de données CluedIn peut répondre aux demandes de données des entreprises, dans n’importe quel format ou modèle de données.
La couche d’abstraction des données se connecte aux différents magasins de données via les ports associés à chaque magasin.
L’accès aux données s’effectue par des appels GraphQL, REST et WebSocket sur le port 443. GraphQL et REST utilisent un modèle de type pull, alors que WebSocket utilise un modèle de type push.

CluedIn protège l’accès aux données au moyen de la limitation de bande passante et de la prévention des falsifications de requêtes intersites (CSRF).
L’application web ASP.NET Core de CluedIn communique par le biais d’une combinaison d’appels REST et GraphQL sur le port 443.

Toutes les communications du navigateur vers l’application utilisent un ensemble de définitions d’entrée, qui ont besoin d’une seule adresse IP publique. Dans un environnement de production, toutes les communications s’effectuent sur SSL (Secure Socket Layer).
L’application CluedIn fournit des données nettoyées et traitées à des services d’analytique comme Power BI et Azure Synapse Analytics en vue de la génération d’insights. Le système sauvegarde et stocke toutes les données dans des bases de données SQL ou Redis.

Components

CluedIn s’exécute sur Azure Kubernetes Service (AKS), service Kubernetes sécurisé, complètement managé et hautement disponible qui permet de déployer et de gérer des applications conteneurisées. AKS offre une solution Kubernetes serverless d’intégration et de livraison continues (CI/CD), qui offre une sécurité et une gouvernance à l’échelle de l’entreprise.

CluedIn utilise et prend en charge de nombreux services et sources de base de données, notamment les suivants :

Azure SQL Database : service de base de données cloud relationnelle managée qui est toujours à jour et peut automatiquement mettre à l’échelle les ressources à la demande.
Azure SQL Managed Instance : garantit une grande compatibilité du moteur SQL Server avec les applications SQL Server existantes. SQL Managed Instance fournit des infrastructures de base de données locale tout en offrant des avantages du cloud Azure comme la mise à l’échelle élastique, la gestion unifiée et un modèle de facturation cloud.
Azure Cosmos DB : base de données NoSQL serverless non relationnelle et complètement managée pour le développement d’applications modernes.
Azure Data Lake : service scalable d’analytique et de stockage des données.
Azure Data Factory : solution d’intégration de données serverless et complètement managée pour l’ingestion, la préparation et la transformation des données à grande échelle. CluedIn utilise plus de 90 connecteurs Data Factory intégrés pour obtenir des données de diverses sources (par exemple, Amazon Redshift, Google BigQuery, HDFS, Oracle Exadata, Teradata, Salesforce, Marketo, ServiceNow) et de tous les services de données Azure.

CluedIn fournit des données traitées et régies à de nombreux services et applications d’analytique, dont les suivants :

Azure Databricks : service d’analytique rapide, simple et collaboratif basé sur Apache Spark.
Azure Synapse Analytics : service d’analytique illimité qui combine l’entreposage des données d’entreprise et l’analytique des Big Data.
Log Analytics : outil du portail Azure qui permet de modifier, d’exécuter et d’analyser des requêtes à partir des données de journal Azure Monitor.
Azure Cognitive Services : famille complète de services IA et d’API cognitives qui permettent de créer des applications intelligentes.
Power BI : service Microsoft d’analytique d’entreprise qui combine des visuels interactifs et la business intelligence dans une interface de création de rapports simple d’emploi.

Détails du scénario

Dans les entreprises modernes, la plupart des processus et projets sont basés sur des données, mais les données brutes doivent être préparées en vue de leur consommation. Quels que soient les cas d’usage des données, de l’analytique avancée au machine learning, tous nécessitent des processus de préparation des données et une attention similaires.

Les projets de données commencent par l’étape de découverte des données, qui détermine où se trouvent les données et quels systèmes elles utilisent.
Ensuite, l’étape d’intégration des données regroupe les différentes sources de données dans un jeu de données unifié ou connecté.
L’étape suivante consiste à normaliser, standardiser, harmoniser et nettoyer les données afin que les machines puissent les traiter de manière uniforme, cohérente et fidèle.
Enfin, les données doivent être rendues facilement et rapidement disponibles pour les besoins de l’entreprise.

Au cours de ces processus, la gouvernance doit garantir le contrôle des données et la protection des données personnelles au moyen d’une propriété clairement établie, d’une traçabilité complète, et d’une piste d’audit des sources, du traitement et de l’usage des données.

La plateforme CluedIn encapsule ces processus et piliers de la gestion des données dans une solution de gestion des données de référence (GPM) de bout en bout, uniforme et cohérente. CluedIn utilise une technique d’intégration des données appelée connectivité à terme, qui donne de meilleurs résultats que les modèles classiques ETL (extraction, transformation et chargement) ou ELT (extraction, chargement et transformation) . La connectivité à terme se sert de requêtes GraphQL pour fusionner les données issues de multiples sources de données en silo.

Avec la connectivité à terme, les données ne sont pas jointes ni fusionnées à leur entrée ou chargement dans d’autres systèmes. Au lieu de cela, CluedIn charge les données en l’état et étiquette les enregistrements avec des métadonnées. À terme, il fusionne les enregistrements qui ont les mêmes étiquettes ou il établit des relations entre eux dans le graphique.

Cette technique sophistiquée de fusion des données constitue le fondement des solutions basées sur des données. La fabrique de données CluedIn intègre des données dans un pipeline qui nettoie, prépare, modélise, régit, enrichit, déduplique et catalogue les données afin de les rendre facilement disponibles et accessibles pour les besoins de l’entreprise.

CluedIn fournit aux entreprises des métriques sur la qualité des données qu’il ingère, en détectant intelligemment les données non fiables (les données « sales ») et en les préparant pour leur nettoyage par les ingénieurs et gestionnaires de données. Les algorithmes de machine learning de logique approximative propriétaires aident les utilisateurs et les conservateurs à étiqueter les données, et à apprendre au système à identifier, corriger et éviter les problèmes de qualité des données au fil du temps.

CluedIn fournit une gouvernance à l’échelle de l’entreprise, qui vous garantit de pouvoir utiliser vos données en toute sécurité et en toute confiance. CluedIn peut transmettre les données régies qui ont été nettoyées directement vers des systèmes d’analytique comme Power BI, Azure Databricks, Azure Synapse Analytics ou Azure Cognitive Services pour les rendre facilement accessibles au reste de l’entreprise. La prise en charge native de la mise à l’échelle automatique s’appuie sur la puissance d’Azure et offre un environnement scalable pour les charges de travail de données les plus volumineuses.

Cas d’usage potentiels

Génération d’une vue de données unique

Grâce à la modélisation sémantique de CluedIn, la création d’une vue unique de vos données de référence est beaucoup plus facile à réaliser qu’en suivant les approches traditionnelles. Les clients de CluedIn utilisent CluedIn pour créer une vue connectée, historique et de haute qualité de leurs données métier les plus critiques. CluedIn prend en charge non seulement la maîtrise des principaux domaines classiques, tels que les personnes, les entreprises, les fournisseurs et les produits, mais aussi un nombre infini de domaines différents, ainsi que des domaines non structurés tels que les fichiers, le courrier électronique, les événements et bien plus encore. Si vous avez besoin d’un référentiel centralisé de données de référence qui soit propre, riche, régi, contrôlé sur le plan de la qualité et catalogué, CluedIn est adapté à vos cas d’usage.

Fabrique de données

CluedIn a été désigné comme Gartner Cool Vendor en 2020, en raison de sa capacité à orchestrer des données provenant de dizaines, de centaines, voire de milliers de sources de données différentes et complexes dans un hub de données unifiées. Si vous avez besoin de gérer facilement des données provenant d’un grand nombre de sources différentes, vous pouvez utiliser CluedIn en tant que fabrique de données pour y parvenir. Cette solution peut fournir une infrastructure de diffusion en continu pour vos données, qui peut également nettoyer et maîtriser de manière proactive les données qui circulent vers les consommateurs en aval.

Fusion et liaison sophistiquées des données de référence

L’approche unique de la modélisation des données adoptée par CluedIn consiste à utiliser une base de données orientée graphe qui permet de fusionner et lier des données complexes en toute simplicité. Contrairement aux approches traditionnelles, pour relever ce défi, CluedIn ajoute de l’apprentissage automatique et de l’analytique graphique pour fusionner, associer et lier des enregistrements avec une très grande précision.

Considérations

Ces considérations implémentent les piliers d’Azure Well-Architected Framework qui est un ensemble de principes directeurs qui permettent d’améliorer la qualité d’une charge de travail. Pour plus d’informations, consultez Microsoft Azure Well-Architected Framework.

Fiabilité

La fiabilité permet de s’assurer que votre application tient vos engagements auprès de vos clients. Pour plus d’informations, consultez la page Vue d’ensemble du pilier de fiabilité.

CluedIn sauvegarde automatiquement les bases de données chaque jour et conserve les sauvegardes dans un stockage à long terme pendant 30 jours par défaut. Toute la plateforme repose sur des piles à tolérance de panne redondantes qui conservent les sauvegardes pour tous les sous-systèmes. Des systèmes de supervision en continu s’assurent que les services sont le moins affectés possible. CluedIn suit les pratiques standard de l’industrie en matière de redondance de l’infrastructure.
CluedIn expose et stocke uniquement une représentation de vos données, et non la version d’origine. Si CluedIn détecte une intrusion destructrice dans les données, il peut effacer temporairement les données CluedIn de vos serveurs. Une fois l’intrusion contenue, CluedIn rassemble les données pour les remettre à leur état d’origine.
Tous les magasins de données s’exécutent en mode haute disponibilité.

Scalabilité

CluedIn s’exécute dans des conteneurs Docker et utilise Kubernetes pour héberger et orchestrer les différentes parties de l’application. Grâce à cette architecture, CluedIn fonctionne parfaitement dans des environnements élastiques et peut être mis à l’échelle automatiquement en fonction de la taille et de l’infrastructure nécessaires.
La prise en charge native de la mise à l’échelle automatique s’appuie sur la puissance d’Azure et offre un environnement scalable pour les charges de travail de données les plus volumineuses.
La modélisation graphique sans schéma déduit automatiquement un modèle de données à partir des données sources. Les nouvelles sources de données se connectent automatiquement à toutes les autres sources de données au lieu d’être explicitement intégrées. Le nombre de sources de données est ajustable à l’infini sans que cela complique l’intégration.

Sécurité

La sécurité fournit des garanties contre les attaques délibérées, et contre l’utilisation abusive de vos données et systèmes importants. Pour plus d’informations, consultez Vue d’ensemble du pilier Sécurité.

La sécurité CluedIn accorde des autorisations et des contrôles d’accès aux différents services à l’aide de rôles RBAC Azure, du contrôle des clés de sécurité Azure Key Vault ainsi que du suivi et de la journalisation des accès Azure Monitor.
En plus des comptes d’utilisateurs authentifiés, CluedIn prend en charge l’authentification unique (SSO) et les frameworks d’identité. Les requêtes envoyées à l’application CluedIn utilisent des jetons d’accès chiffrés qui n’ont aucune corrélation avec l’identité de l’utilisateur.
CluedIn gère les représentations des données stockées derrière plusieurs couches de pare-feu et de proxy, et il les authentifie avec un ensemble de clés uniques.
CluedIn stocke toutes les données sources en appliquant le chiffrement AES 256 bits, qui est un chiffrement supérieur ou équivalent au niveau de chiffrement des sources de données prises en charge.
La limitation de bande passante et la prévention des falsifications de requête intersites (CSRF) protègent l’accès aux données.

DevOps

CluedIn utilise des pipelines d’intégration continue et de livraison continue (CI/CD) Azure Pipelines dans le cadre des déploiements et des mises à jour propagées sur l’environnement AKS.
CluedIn prend en charge les tests unitaires, d’intégration et fonctionnels pour s’assurer que les données sont transformées comme prévu. Les pipelines de traitement virtualisé peuvent s’exécuter en mémoire pour les tests bac à sable (sandbox). Les assertions dans l’environnement de production peuvent faciliter le débogage et la correction des problèmes liés aux données.
Pour les environnements de test et de production, CluedIn fournit un graphique du gestionnaire de package Helm qui permet d’installer CluedIn rapidement dans un cluster Kubernetes. Les processus de déploiement entièrement basés sur des scripts facilitent l’installation, le test et le déploiement.

Optimisation des coûts

L’optimisation des coûts consiste à examiner les moyens de réduire les dépenses inutiles et d’améliorer l’efficacité opérationnelle. Pour plus d’informations, consultez Vue d’ensemble du pilier d’optimisation des coûts.

La tarification de CluedIn est ouverte et transparente. Pour la voir, visitez leur site web.

Dimensionnement d’Azure et démarrage d’une évaluation

Vous pouvez démarrer une évaluation de 7 jours de CluedIn sur leur site web. Cela peut également vous aider à mesurer vos coûts d’hébergement Azure avec des estimations Azure prédéfinies pour des environnements de différentes tailles.

Déployer ce scénario

Pour déployer CluedIn à des fins de développement et d’évaluation en utilisant Docker, consultez CluedIn avec Docker.
Pour installer CluedIn rapidement dans un cluster Kubernetes, consultez CluedIn avec Kubernetes. Le graphique Helm installe le serveur, le site web et les autres services requis de CluedIn, tels que le stockage et les files d’attente.

Étapes suivantes

Pour plus d’informations sur CluedIn, accédez au site web CluedIn.
Consultez la documentation de CluedIn.

Pour obtenir un exemple de plateforme de données Azure de bout en bout, consultez Plateforme de données Azure de bout en bout.

Gestion des données de référence avec Azure et CluedIn

Architecture

Dataflow

Components

Détails du scénario

Cas d’usage potentiels

Génération d’une vue de données unique

Fabrique de données

Fusion et liaison sophistiquées des données de référence

Considérations

Fiabilité

Scalabilité

Sécurité

DevOps

Optimisation des coûts

Dimensionnement d’Azure et démarrage d’une évaluation

Déployer ce scénario

Étapes suivantes

Commentaires

Commentaires

Ressources supplémentaires

Gestion des données de référence avec Azure et CluedIn

Architecture

Dataflow

Components

Détails du scénario

Cas d’usage potentiels

Génération d’une vue de données unique

Fabrique de données

Fusion et liaison sophistiquées des données de référence

Considérations

Fiabilité

Scalabilité

Sécurité

DevOps

Optimisation des coûts

Dimensionnement d’Azure et démarrage d’une évaluation

Déployer ce scénario

Étapes suivantes

Ressources associées

Commentaires

Commentaires

Ressources supplémentaires