Consortium des données d’intégrité sur Azure

Azure Data Factory

Azure Data Lake Storage

Azure Data Share

Azure Databricks

Azure SQL Database

Cette solution de consortium de données utilise des composants Azure. Elle répond aux objectifs suivants :

Elle permet à plusieurs organisations de partager des données.
Elle centralise les efforts d’orchestration des données.
Elle contribue à la sécurité des données.
Elle garantit la protection des données personnelles des patients.
Elle renforce l’interopérabilité des données.
Elle offre des options de personnalisation pour répondre à des besoins spécifiques des organisations.

Architecture

Téléchargez un fichier Visio de cette architecture.

Dataflow

Les données brutes proviennent de sources locales et tierces. Les membres du consortium chargent ces données dans l’un des services de stockage suivants d’Azure Data Share :
Le consortium demande aux membres de partager les données. En tant que producteurs de données, les membres peuvent partager des captures instantanées ou utiliser un partage sur place.
En tant que consommateur de données, le consortium reçoit les données que les membres partagent. Ces données entrent dans un référentiel Data Lake Storage inclus dans le partage de données du consortium en vue de leur transformation.
Azure Data Factory et Azure Databricks nettoient les données des membres et les convertissent dans un format commun.
Le consortium combine les données des membres et les stocke dans un service. La structure et le volume des données déterminent le type de service de stockage le plus approprié. Les possibilités sont les suivantes :
- Azure Synapse Analytics
- Azure SQL Database
- Azure Data Lake Storage
- Explorateur de données Azure
En tant que producteur de partage de données, le consortium invite les membres à recevoir des données. Les membres peuvent accepter des données sous forme de capture instantanée ou de partage sur place.
En tant que consommateurs de données, les membres reçoivent les données partagées. Les données entrent dans les banques de données des membres à des fins de recherche et d’analyse.

Dans tout le système :

Microsoft Entra ID, Azure Key Vault et Microsoft Defender pour le cloud gèrent les accès et fournissent la sécurité.
Azure Pipelines, un service de la suite de produits Azure DevOps, génère, teste et publie du code.

Components

Cette solution utilise les composants suivants :

Plateformes de soins de santé

Les dossiers médicaux électroniques sont des versions numériques des informations en temps réel sur les patients.
FHIR (Fast Healthcare Interoperability Resources) est une norme d’échange de données de santé publiée par l’organisation Health Level Seven International (HL7) .
L’IoMT (Internet of Medical Things, Internet des objets médicaux) est une collection d’appareils et d’applications médicaux qui se connectent à des systèmes informatiques via des réseaux informatiques en ligne.
Les données génomiques fournissent des informations sur la façon dont les gènes interagissent entre eux et avec l’environnement.
Les données d’imagerie sont les images que génèrent divers appareils de radiologie, de cardiologie, de radiothérapie et autres.
Les systèmes de gestion des relations avec la clientèle (CRM), de facturation et autres systèmes tiers fournissent des données sur les patients.

Composants Azure

Azure Data Share permet à plusieurs organisations de partager des données de façon sécurisée. Grâce à ce service, les fournisseurs de données gardent le contrôle des données qu’ils partagent. Il facilite la gestion et la surveillance de qui partage quelles données à quel moment. Le service Data Share facilite également l’enrichissement de scénarios d’analyse et d’intelligence artificielle en combinant les données de différents membres.
Azure Synapse Analytics est un service d’analytique conçu pour les entrepôts de données et les systèmes de Big Data. Ce produit vous permet d’interroger des données à l’aide de ressources sans serveur à la demande, ou à l’aide de ressources approvisionnées. Le service Azure Synapse Analytics fonctionne bien avec un volume important de données structurées.
Azure SQL Database est un moteur de base de données PaaS complètement managé. Avec les fonctionnalités automatisées et optimisées pour l’intelligence artificielle, SQL Database gère les fonctions de gestion de base de données telles que la mise à niveau, la mise à jour corrective, les sauvegardes et la surveillance. Ce service convient bien pour des données structurées.
Le référentiel Data Lake Storage est un lac de données éminemment évolutif et sécurisé pour vos charges de travail d’analytique hautes performances. Il peut traiter plusieurs pétaoctets d’informations tout en maintenant un débit de plusieurs centaines de gigabits. Et il permet de stocker des données structurées et non structurées à partir de plusieurs membres dans un même emplacement.
Azure Data Explorer est un service d’analytique données rapide et complètement managé. Vous pouvez l’utiliser pour analyser en temps réel de grands volumes de données. Le service Azure Data Explorer peut gérer divers flux de données provenant d’applications, de sites web, d’appareils IoT et d’autres sources. Il convient bien pour un partage sur place de données de télémétrie et de journalisation en continu.
Azure Data Factory est un service d’intégration de données hybride. Vous pouvez utiliser cette solution sans serveur complètement managée pour des flux de travail d’intégration et de transformation des données. Le service Data Factory offre une interface utilisateur sans code et un panneau de surveillance convivial. Dans cette solution, Data Factory canalise des données provenant de partages de données de membres disparates.
Azure Databricks est une plateforme d’analytique des données. Basée sur le dernier système distribué de traitement de données du projet Apache Spark, la plateforme Azure Databricks prend en charge l’intégration transparente avec des bibliothèques open source. Cette solution utilise des blocs-notes Azure Databricks pour convertir toutes les données de membres dans un format commun.
Microsoft Entra ID est un service de gestion multilocataire des identités et des accès basé sur le cloud.
La solution Azure Key Vault stocke de manière sécurisée des secrets, tels que des clés API, des mots de passe, des certificats et des clés de chiffrement, et contrôle étroitement l’accès à ceux-ci. Ce service cloud gère également les certificats de sécurité.
La solution Azure Pipelines génère et teste automatiquement des projets de code. Ce service Azure DevOps combine l’intégration continue (CI) et la livraison continue (CD). Sur la base de ces pratiques, le service Azure Pipelines teste et génère constamment et systématiquement du code qu’il envoie à n’importe quelle cible.
Defender pour le cloud fournit une gestion unifiée de la sécurité et une protection avancée contre les menaces dans les charges de travail cloud hybrides.

Autres solutions

À côté de Data Share, il existe de nombreuses alternatives pour le stockage des données. Le choix du service dépend de votre méthode de partage, ainsi que du volume et du type de vos données :

Pour le partage de capture instantanée de données par lots, utilisez l’un des services suivants :
- Azure Synapse Analytics
- Base de données SQL
- Data Lake Storage
- Stockage Blob Azure
Pour plus d’informations sur la combinaison de différents types de données, consultez Architecture d’entrepôt de données moderne.
Pour le partage sur place de données de télémétrie et de journalisation en continu, utilisez Azure Data Explorer. Pour plus d’informations sur l’analyse de données de sources diverses, consultez Analytique interactive avec Azure Data Explorer.
Certains jeux de données sont volumineux ou non relationnels. Certains contiennent des données de formats non normalisés. Pour ces types de jeux de données, les services Stockage Blob ou Azure Data Lake Storage fonctionnent mieux qu’Azure Synapse Analytics et SQL Database pour l’échange de données avec le service Data Share. Pour plus d’informations sur le stockage efficace de données médicales, consultez Solutions de stockage de données médicales.

Si le service Data Share n’est pas une option, envisagez un réseau privé virtuel (VPN) à la place. Vous pouvez utiliser un VPN site à site pour transférer des données entre des banques de données de membres et de consortium.

Détails du scénario

Les essais cliniques traditionnels peuvent être complexes, longs et coûteux. Pour résoudre ces problèmes, un nombre croissant d’organismes de soins de santé s’associent afin de constituer des consortiums de données dans le cadre de la conduite d’essais cliniques.

Les consortiums de données présentent plusieurs avantages pour les soins de santé :

Ils rendent les données de recherche disponibles.
Ils génèrent de nouveaux flux de revenus.
Ils conduisent à des décisions réglementaires rentables en fournissant un accès rapide aux données.
Ils contribuent à améliorer la sécurité et la santé des patients en accélérant l’innovation.

Cas d’usage potentiels

Bon nombre de professionnels de la santé peuvent tirer avantage de cette solution :

Des organisations exploitant des données d’observation du monde réel, telles que l’état de santé des patients, pour orienter les traitements.
Des médecins spécialisés en médecine personnalisée ou de précision.
Des prestataires de télémédecine nécessitant un accès facile aux données des patients.
Des chercheurs utilisant des données génomiques.

Considérations

Ces considérations implémentent les piliers d’Azure Well-Architected Framework qui est un ensemble de principes directeurs qui permettent d’améliorer la qualité d’une charge de travail. Pour plus d’informations, consultez Microsoft Azure Well-Architected Framework.

Les technologies de cette solution répondent aux exigences de la plupart des entreprises en matière de sécurité, de scalabilité et de disponibilité.

Sécurité

La sécurité fournit des garanties contre les attaques délibérées, et contre l’utilisation abusive de vos données et systèmes importants. Pour plus d’informations, consultez Vue d’ensemble du pilier Sécurité.

En raison de la sensibilité des informations médicales, plusieurs composants interviennent dans la sécurisation des données :

Les fonctionnalités de sécurité du service Data Share protègent les données comme suit :
- en chiffrant les données au repos quand la banque de données sous-jacente le permet ;
- en chiffrant les données en transit à l’aide du protocole TLS (Transport Layer Security) 1.2 ;
- en chiffrant les métadonnées relatives à un partage de données au repos et en transit ;
- en ne stockant pas le contenu de données client partagées.
Le service Azure Synapse Analytics offre un modèle de sécurité complet. Vous pouvez utiliser ses contrôles fins pour sécuriser vos données à tous les niveaux, des simples cellules aux bases de données entières.
SQL Database utilise une approche en plusieurs couches pour protéger les données client. La stratégie couvre les domaines suivants :
- Sécurité du réseau
- Gestion de l’accès
- Protection contre les menaces
- Information Protection
Le référentiel Data Lake Storage assure le contrôle des accès. Le modèle prend en charge les types de contrôles suivants :
- Contrôle d’accès en fonction du rôle Azure (RBAC)
- Listes de contrôle d’accès (ACL) de POSIX (Portable Operating System Interface)
Le service Azure Data Explorer protège les données comme suit :
- Utilise les identités managées par Microsoft Entra ID pour les ressources Azure.
- Il utilise un contrôle d’accès en fonction du rôle (RBAC) pour répartir les tâches et limiter l’accès.
- Il bloque le trafic provenant de segments réseau extérieurs au service Azure Data Explorer.
- Il protège les données et vous aide à respecter les engagements à l’aide du service Azure Disk Encryption. Ce service effectue un chiffrement de volume pour les disques de données de machine virtuelle et le système d’exploitation. Le service Azure Disk Encryption s’intègre également avec la solution de sécurité Key Vault qui chiffre les secrets avec des clés gérées par Microsoft ou par le client.

Disponibilité

Cette solution utilise un déploiement dans une seule région. Certains scénarios nécessitent un déploiement dans plusieurs régions pour des raisons de haute disponibilité, de récupération d’urgence ou de proximité. Dans ces cas, les services suivants proposent des régions Azure couplées pour la haute disponibilité :

Le service Azure Synapse Analytics offre une haute disponibilité d’entrepôt grâce à des captures instantanées de base de données.
L’architecture haute disponibilité de SQL Database offre une garantie de disponibilité à 99,99 %.
Le service Azure Data Explorer offre une haute disponibilité grâce à une couche de persistance, une couche de calcul et à une configuration « leader-suiveur ».

Optimisation des coûts

L’optimisation des coûts consiste à examiner les moyens de réduire les dépenses inutiles et d’améliorer l’efficacité opérationnelle. Pour plus d’informations, consultez Vue d’ensemble du pilier d’optimisation des coûts.

La tarification de cette solution dépend de plusieurs facteurs :

les services que vous choisissez ;
la capacité et le débit de votre système ;
le transformations que vous utilisez sur les données ;
le niveau de continuité de votre activité ;
votre niveau de récupération d’urgence.

Pour plus d’informations, consultez la rubrique Détails tarifaires .

Contributeurs

Cet article est géré par Microsoft. Il a été écrit à l’origine par les contributeurs suivants.

Auteurs principaux :

Matt Hansen | Senior Cloud Solution Architect
Aruna Ranganathan | Responsable principale de l’ingénierie client

Pour afficher les profils LinkedIn non publics, connectez-vous à LinkedIn.

Étapes suivantes

Déterminez comment personnaliser la solution en clarifiant les points suivants :

sources de données disponibles ;
emplacement de chaque source de données ;
services Azure que les membres peuvent pour recevoir des données sources ;
données que les membres peuvent partager avec le consortium ;
manière dont les membres peuvent partager des données, par lots en tant que captures instantanées, ou en tant que flux de données avec un partage sur place ;
services Azure que le consortium peut utiliser pour recevoir des données partagées ;
format des données de membres, et nécessité ou non de le nettoyer ou de le convertir ;
données que le consortium peut partager avec les membres.

Documentation du produit :

Share via

Consortium des données d’intégrité sur Azure

Architecture

Dataflow

Components

Plateformes de soins de santé

Composants Azure

Autres solutions

Détails du scénario

Cas d’usage potentiels

Considérations

Sécurité

Disponibilité

Optimisation des coûts

Contributeurs

Étapes suivantes

Commentaires

Commentaires

Ressources supplémentaires

Share via

Consortium des données d’intégrité sur Azure

Architecture

Dataflow

Components

Plateformes de soins de santé

Composants Azure

Autres solutions

Détails du scénario

Cas d’usage potentiels

Considérations

Sécurité

Disponibilité

Optimisation des coûts

Contributeurs

Étapes suivantes

Ressources associées

Commentaires

Commentaires

Ressources supplémentaires