Zones de données multiples pour l’analytique à l’échelle du cloud dans Azure

Article
07/11/2023

Cette architecture de référence s’adresse aux organisations qui ont implémenté une version de base de l’analytique à l’échelle du cloud et qui sont maintenant prêtes à héberger de nouvelles unités commerciales pour les aider à moderniser leurs opérations d’analytique. Ce scénario plus complexe utilise plusieurs zones d’atterrissage, applications de données et produits de données.

Apache Hive et le logo Hive sont des marques déposées ou des marques commerciales d’Apache Software Foundation aux États-Unis et/ou dans d’autres pays. L’utilisation de ces marques n’implique aucune approbation de l’Apache Software Foundation.

Définition du problème

Relecloud, la société fictive dans cet exemple, est un fournisseur de cloud privé qui offre des ressources de calcul et de stockage partagées à des organisations mondiales. Bien que Relecloud fournisse des ressources de calcul, elle ne souhaite pas surcharger sa plateforme avec ses propres opérations internes. Ainsi, le fournisseur s’appuie sur Microsoft Azure pour ses besoins en informatique interne.

Les analystes de données du groupe des opérations utilisent les données de télémétrie des services cloud pour comprendre comment leurs clients utilisent la plateforme. Une équipe distincte d’analystes du groupe de facturation étudie les données de facturation pour obtenir des insights sur les services qui génèrent le plus de revenus.

Au cours du dernier trimestre, l’équipe des opérations a modernisé sa plateforme d’analytique en la migrant vers Azure. L’un des objectifs de l’implémentation de l’analytique à l’échelle du cloud était d’optimiser le potentiel de mise à l’échelle de la plateforme et d’ajout de nouvelles charges de travail organisationnelles.

Aujourd’hui, la solution d’analyse actuelle ne suffit plus au groupe de facturation. Le volume de factures à analyser est trop important pour son serveur local. L’équipe décide d’emboîter le pas au groupe des opérations et de moderniser sa plateforme d’analytique données dans Azure.

Les analystes du groupe de facturation présentent des compétences différentes de celles des analystes du groupe des opérations. Les analystes de facturation n’entendent pas devoir utiliser les mêmes outils que ceux du groupe des opérations. Le groupe de facturation occupe une position différente dans l’organisation et souhaite disposer de la flexibilité nécessaire à l’implémentation de stratégies et de procédures répondant à ses besoins.

Solution architecturale

Relecloud met à l’échelle sa plateforme d’analytique en ajoutant une nouvelle zone d’atterrissage pour le groupe de facturation. Cette zone d’atterrissage fournit au groupe de facturation un espace de travail virtuel dans lequel il peut implémenter les solutions d’analytique qui répondent à ses besoins métier. En créant une zone d’atterrissage distincte des autres ressources de l’organisation, le groupe de facturation peut implémenter ses propres stratégies d’accès et prendre en compte les coûts de ses services.

Le diagramme suivant ne représente pas tous les services Azure. Le diagramme est simplifié pour mettre en évidence les concepts de base inhérents à l’organisation des ressources au sein de l’architecture.

Zone d'atterrissage de gestion de données

Une zone d’atterrissage de gestion des données est une exigence clé pour l’implémentation de l’analytique à l’échelle du cloud. Cet abonnement contient des ressources qui sont partagées entre toutes les zones d’atterrissage, notamment des composants réseau partagés comme un pare-feu ou des zones DNS privées. La zone d’atterrissage de gestion des données comprend également des ressources pour la gouvernance des données et du cloud, comme Azure Policy et Azure Purview.

Relecloud a créé une zone d’atterrissage de gestion des données lors du déploiement de la solution d’analytique données pour le groupe des opérations. Quand le groupe de facturation rejoint la plateforme, il utilise la même zone d’atterrissage de gestion des données pour partager des ressources communes avec le groupe des opérations.

Zone d’atterrissage des données liées aux opérations

Le groupe des opérations dispose des solutions suivantes dans sa zone d’atterrissage des données.

Applications de données d’opérations

L’équipe a créé une application de données alignée sur la source qui utilise des tâches Apache Spark dans Azure Databricks pour ingérer les données de télémétrie du service et les stocker dans un compte Azure Data Lake Storage.

Ce processus copie les données en l’état provenant du système source, sans les transformer. Les analystes peuvent utiliser les données copiées dans la plateforme d’analytique sans surcharger le système source. Plutôt que de créer un déploiement dédié pour cette application de données, l’équipe des opérations utilise l’espace de travail Databricks dans le groupe de ressources Ingestion et traitement partagé.

Les clients Relecloud peuvent créer des comptes cloud pour gérer les ressources et la facturation dans leurs clouds privés. Chaque client peut disposer de plusieurs comptes. L’équipe d’analytique a créé une application de données pour importer les données de compte cloud. Le volume et la fréquence des données étant nettement inférieurs aux données de télémétrie, l’équipe n’a pas besoin d’utiliser de tâches Spark. Au lieu de cela, elle a créé des pipelines Azure Data Factory pour copier les données.

Azure Database pour MySQL agit comme le metastore Hive, et Azure SQL Database est le metastore Azure Data Factory.

Produits de données des opérations

Les analystes Relecloud tirent parti des données dans les applications de données alignées sur la source en créant des applications de données alignées sur le consommateur. Une de ces applications de données alignées sur le consommateur est un modèle Recommandation de service cloud. Les scientifiques des données Relecloud ont utilisé Azure Machine Learning pour créer un modèle qui examine les services consommés par un compte cloud et suggère des services connexes qui peuvent s’avérer utiles. L’équipe déploie ce modèle sur un cluster Azure Kubernetes Service (AKS) exécuté dans la zone d’atterrissage et géré par Azure Machine Learning. Les applications qui s’exécutent en dehors de l’analytique à l’échelle du cloud peuvent appeler le point de terminaison AKS pour obtenir des recommandations.

Une fois que l’équipe de facturation a créé sa zone d’atterrissage, l’équipe des opérations crée un produit de données demandé par son équipe de direction. L’équipe de direction souhaite connaître le chiffre d’affaires généré par l’application de données Recommandation de service cloud. Le nouveau produit de données Recommandation du chiffre d’affaires utilise Azure Synapse Analytics pour combiner les données de Recommandation de service cloud et de Chiffre d’affaires par service dans un nouveau produit de données. Les analystes d’entreprise peuvent se connecter à Azure Synapse avec Microsoft Power BI pour rechercher et signaler des insights à partir de ce nouveau produit de données.

Zone d'atterrissage des données de facturation

Le groupe de facturation utilise un système local pour alimenter l’analytique. Toutefois, le volume de données et la dépendance de l’entreprise vis-à-vis de ses activités ont augmenté de telle manière que le système ne peut plus suivre. Le groupe modernise sa plateforme en passant au cloud.

Le groupe de facturation ne partage pas de zone d’atterrissage avec le groupe des opérations, mais obtient sa propre zone d’atterrissage au sein de laquelle il peut créer la plateforme la mieux adaptée à ses besoins. La nouvelle zone d’atterrissage est connectée à la zone d’atterrissage de gestion des données ainsi qu’à toutes les autres zones d’atterrissage des données à l’aide de l’appairage de réseaux virtuels. Ce mécanisme permet de partager les données de manière sécurisée par le biais du réseau interne Azure.

Applications de données de facturation

Pour déplacer les données des systèmes existants vers la plateforme d’analytique, le groupe de facturation génère deux applications de données. La première application ingère les données client, notamment la liste complète des clients et toutes les données connexes (adresses des clients, emplacements, affectations des représentants, etc.). La seconde application importe l’historique des factures de l’entreprise, qui comprend tous les frais de facturation des clients ainsi que les données de paiement qui s’y rapportent.

Ces deux applications sont alimentées par des pipelines dans l’espace de travail Azure Synapse partagé. Chaque application dispose d’un pool de calcul dédié afin de faciliter le contrôle de gestion et les limites de sécurité. Ces applications pouvant être intégralement implémentées avec des ressources partagées, le groupe de facturation n’est pas tenu de créer un déploiement pour ces applications de données.

Produit de données de facturation

Les analystes de facturation créent un produit appelé Chiffre d’affaires par service qui analyse le chiffre d’affaires généré par chaque service cloud pour Relecloud. Ce produit s’appuie sur les données de l’ingestion des factures. Le produit se connecte également à la zone d’atterrissage des opérations et lit les données d’utilisation du service. Comme les applications de données, le produit de données s’appuie également sur l’espace de travail Azure Synapse partagé.

Modèles de déploiement

Pour déployer les architectures, utilisez la zone d’atterrissage de gestion des données et les modèles d’implémentation de référence de la zone d’atterrissage des données suivants :

Utilisez les modèles suivants pour déployer les autres applications de données et produits de données dans les zones d’atterrissage des données de facturation et d’opérations Relecloud :

Nom	Zone d’atterrissage de données	Type	Modèle
Comptes cloud	Opérations	Application des données	Modèle de lot de produit de données
Recommandation revenus	Opérations	Produit de données	Modèle de lot de produit de données
Recommandation service cloud	Opérations	Application des données	Modèle d’analyse de produit de données
Chiffre d’affaires par service	Facturation	Produit de données	Modèle de lot de produit de données

Important

Relecloud n’a pas besoin de déployer tout ce qui se trouve dans les modèles d’implémentation de référence précédents pour répondre à ses besoins. Les modèles nécessitent un certain niveau de personnalisation. Supprimez des modèles les services dont vous n’avez pas besoin avant le déploiement.

Étapes suivantes

Poursuivez avec le scénario Lamna Healthcare pour une analytique sécurisée à l’échelle du cloud dans Azure.

Pour plus d’informations, consultez les articles suivants :