Environnement de recherche sécurisé pour les données réglementées

Azure Data Science Virtual Machines

Azure Machine Learning

Azure Data Factory

Cette architecture présente un environnement de recherche sécurisé destiné à permettre aux chercheurs d’accéder à des données sensibles avec un niveau de contrôle et de protection des données plus élevé. Cet article s’applique aux organisations soumises à une conformité réglementaire ou à d’autres exigences strictes en matière de sécurité.

Architecture

Téléchargez un fichier Visio de cette architecture.

Dataflow

Les propriétaires de données chargent les jeux de données dans un compte de stockage d’objets Blob public. Les données sont chiffrées avec des clés managées par Microsoft.
Azure Data Factory utilise un déclencheur qui commence à copier le jeu de données chargé vers un emplacement spécifique (chemin d’importation) sur un autre compte de stockage avec des contrôles de sécurité. Ce compte de stockage peut uniquement être contacté via un point de terminaison privé. En outre, il aussi est accessible par un principal de service avec des autorisations limitées. Data Factory supprime la copie d’origine, ce qui rend le jeu de données immuable.
Les chercheurs accèdent à l’environnement sécurisé par le biais d’une application de diffusion en continu à l’aide d’Azure Virtual Desktop en tant que connexion privilégiée.
Le jeu de données dans le compte de stockage sécurisé est présenté aux machines virtuelles de science des données approvisionnées dans un environnement réseau sécurisé destiné aux travaux de recherche. La majeure partie de la préparation des données est effectuée sur ces machines virtuelles.
L’environnement sécurisé dispose d’une capacité de calcul Azure Machine Learning qui peut accéder au jeu de données par le biais d’un point de terminaison privé pour les utilisateurs avec Azure Machine Learning, par exemple l’apprentissage, le déploiement, l’automatisation et la gestion des modèles d’apprentissage automatique. À ce stade, les modèles sont créés et satisfont aux directives réglementaires. Toutes les données du modèle sont désidentifiées en supprimant les informations personnelles.
Les modèles ou les données désidentifiées sont enregistrés à un emplacement distinct sur le stockage sécurisé (chemin d’exportation). Quand de nouvelles données sont ajoutées au chemin d’exportation, une application logique est déclenchée. Dans cette architecture, l’application logique se trouve en dehors de l’environnement sécurisé, car aucune donnée n’est envoyée à l’application logique. Sa seule fonction est d’envoyer une notification et de démarrer le processus d’approbation manuelle.

L’application démarre un processus d’approbation demandant une révision des données mises en file d’attente pour l’exportation. Les réviseurs manuels garantissent qu’aucune donnée sensible n’est exportée. Après le processus de révision, les données sont approuvées ou refusées.

Notes

Si une étape d’approbation n’est pas requise lors de l’exfiltration, l’étape de l’application logique peut être omise.
Si les données désidentifiées sont approuvées, elles sont envoyées à l’instance Data Factory.
Data Factory déplace les données vers le compte de stockage public dans un conteneur distinct pour permettre aux chercheurs externes d’accéder à leurs données et aux modèles exportés. Vous pouvez également approvisionner un autre compte de stockage dans un environnement avec un niveau de sécurité inférieur.

Composants

Cette architecture est constituée de plusieurs services Azure qui redimensionnent les ressources en fonction des besoins. Les services et leurs rôles sont décrits ci-dessous. Pour obtenir des liens vers la documentation du produit afin de commencer à utiliser ces services, consultez les étapes suivantes.

Composants de la charge de travail principale

Voici les principaux composants qui déplacent et traitent les données de recherche.

Azure Data Science Virtual Machine (DSVM) : machine virtuelle configurée avec des outils pour l’analytique de données et l’apprentissage automatique.
Azure Machine Learning : utilisé pour l’apprentissage, le déploiement, l’automatisation et la gestion des modèles d’apprentissage automatique, ainsi que la gestion de l’allocation et de l’utilisation des ressources de calcul Machine Learning.
Capacité de calcul Azure Machine Learning : cluster de nœuds utilisés pour former et tester les modèles d’apprentissage automatique et d’intelligence artificielle. Cette capacité est allouée à la demande, en fonction d’une option de mise à l’échelle automatique.
Stockage Blob Azure : deux instances. L’instance publique est utilisée pour stocker temporairement les données chargées par les propriétaires de données. En outre, elle stocke les données désidentifiées après la modélisation dans un conteneur distinct. La deuxième instance est privée. Elle reçoit les jeux de données d’apprentissage et de test de l’apprentissage automatique qui sont utilisés par les scripts d’apprentissage. Le stockage est monté en tant que lecteur virtuel sur chaque nœud d’un cluster Capacité de calcul Machine Learning.
Azure Data Factory : déplace automatiquement les données entre les comptes de stockage de différents niveaux de sécurité pour garantir la séparation des tâches.
Azure Virtual Desktop est utilisé comme connexion pour accéder aux ressources de l’environnement sécurisé avec des applications de streaming et un ordinateur complet si nécessaire. Vous pouvez aussi utiliser Azure Bastion. Mais vous devez bien comprendre les différences de contrôle de sécurité entre les deux options. Virtual Desktop présente certains avantages :
- Possibilité de diffuser une application comme Microsoft Visual Studio Code pour exécuter des notebooks sur les ressources de calcul d’apprentissage automatique.
- Possibilité de limiter la copie, le collage et les captures d’écran.
- Prise en charge de l’authentification de Microsoft Entra à DSVM.
Azure Logic Apps fournit un flux de travail automatisé à faible code pour développer les parties déclencheur et publication du processus d’approbation manuelle.

Composants de gestion de la posture

Ces composants surveillent en permanence la posture de la charge de travail et de son environnement. L’objectif est de détecter et de limiter les risques dès qu’ils sont découverts.

Microsoft Defender pour le cloud est utilisé pour évaluer la position de sécurité globale de l’implémentation et fournir un mécanisme d’attestation pour la conformité réglementaire. Les problèmes détectés lors des audits ou des évaluations peuvent être découverts plus tôt. Utilisez ces fonctionnalités pour suivre la progression, comme le score de sécurité et le score de conformité.
Microsoft Sentinel est une solution de gestion des informations et des événements de sécurité (SIEM) et d’orchestration, d’automatisation et de réponse aux incidents dans le domaine de la sécurité (SOAR). Vous pouvez consulter de façon centralisée les journaux et alertes de différentes sources et tirer parti des fonctionnalités d’intelligence artificielle et d’analyse de sécurité avancées pour détecter, rechercher, prévenir et réagir face aux menaces.
Azure Monitor fournit une observabilité dans l’ensemble de votre environnement. Consultez les métriques, les journaux d’activité et les journaux de diagnostic de la plupart de vos ressources Azure sans aucune autre configuration. Les outils de gestion, tels que ceux de Microsoft Defender pour le Cloud, transmettent également les données du journal à Azure Monitor.

Composants de gouvernance

Azure Policy aide à appliquer les normes organisationnelles et à évaluer la conformité à grande échelle.

Autres solutions

Cette solution utilise Data Factory pour déplacer les données vers le compte de stockage public dans un conteneur distinct afin de permettre aux chercheurs externes d’accéder à leurs données et aux modèles exportés. Vous pouvez également approvisionner un autre compte de stockage dans un environnement avec un niveau de sécurité inférieur.
Cette solution utilise Azure Virtual Desktop comme connexion pour accéder aux ressources de l’environnement sécurisé avec des applications de streaming et un ordinateur complet. Vous pouvez aussi utiliser Azure Bastion. Toutefois, Virtual Desktop présente certains avantages, notamment la possibilité de diffuser une application, de limiter le copier/coller et les captures d’écran, et de prendre en charge l’authentification AAC. Vous pouvez également envisager de configurer le VPN de point à site pour l’entraînement local hors connexion. Ceci permet également de réduire les coûts liés à l’utilisation de plusieurs machines virtuelles pour des stations de travail.
Pour assurer la sécurité des données au repos, cette solution chiffre tous les stockages Azure avec des clés managées de Microsoft, avec chiffrement fort. Vous pouvez également utiliser des clés gérées par le client. Ces clés doivent être stockées dans un magasin de clés managé.

Détails du scénario

Cas d’usage potentiels

Cette architecture a été créée à l’origine pour les établissements de recherche d’enseignement supérieur soumis aux exigences de la loi américaine sur l’assurance maladie (HIPAA, Health Insurance Portability and Accountability Act). Toutefois, cette conception peut être utilisée dans n’importe quel secteur qui requiert l’isolation des données dans le cadre de la recherche. Voici quelques exemples :

Secteurs qui traitent les données régulées conformément aux exigences du National Institute of Standards and Technology (NIST)
Centres médicaux collaborant avec des chercheurs internes ou externes
Banque et finances

En suivant ces conseils, vous pouvez garder un contrôle total sur vos données de recherche, séparer les tâches et respecter des normes strictes de conformité, tout en assurant la collaboration entre les rôles habituellement impliqués dans les charges de travail axées sur la recherche, par exemple les propriétaires des données, les chercheurs et les approbateurs.

Considérations

Ces considérations implémentent les piliers d’Azure Well-Architected Framework qui est un ensemble de principes directeurs qui permettent d’améliorer la qualité d’une charge de travail. Pour plus d'informations, consultez Microsoft Azure Well-Architected Framework.

Sécurité

La sécurité fournit des garanties contre les attaques délibérées, et contre l’utilisation abusive de vos données et systèmes importants. Pour plus d’informations, consultez Vue d’ensemble du pilier Sécurité.

L’objectif principal de cette architecture est d’offrir un environnement de recherche sécurisé et de confiance qui limite strictement l’exfiltration des données hors de la zone sécurisée.

Sécurité du réseau

Les ressources Azure utilisées pour stocker, tester et former les jeux de données de recherche sont approvisionnées dans un environnement sécurisé. Cet environnement est un réseau virtuel Azure qui respecte des règles de groupe de sécurité réseau (NSG) pour restreindre l’accès, principalement :

L’accès entrant et sortant à l’Internet public et au sein du réseau virtuel.
L’accès via certains services et ports. Par exemple, cette architecture bloque toutes les plages de ports, à l’exception de celles qui sont requises pour les services Azure (par exemple Azure Monitor). Vous trouverez une liste complète des balises de service et des services correspondants dans Balises de service du réseau virtuel.

En outre, l’accès à partir du réseau virtuel avec Azure Virtual Desktop (AVD) sur les ports limités aux méthodes d’accès approuvées est accepté, et tout autre type de trafic est rejeté. Par rapport à cet environnement, l’autre réseau virtuel (avec AVD) est relativement ouvert.

Le stockage Blob principal dans l’environnement sécurisé se trouve en dehors de l’Internet public. Il est uniquement accessible dans le réseau virtuel via des connexions de point de terminaison privées et des pare-feu de stockage Azure. Il est utilisé pour limiter les réseaux à partir desquels les clients peuvent se connecter aux partages de fichiers Azure.

Cette architecture utilise l’authentification basée sur des informations d’identification pour le magasin de données principal qui se trouve dans l’environnement sécurisé. Dans ce cas, les informations de connexion comme l’ID d’abonnement et l’autorisation du jeton sont stockées dans un coffre de clés. Une autre option est de créer un accès aux données basé sur l’identité, où votre compte Azure est utilisé pour vérifier si vous avez accès au service Stockage. Dans un scénario d’accès aux données basé sur l’identité, aucune information d’authentification n’est enregistrée. Pour plus d’informations sur l’utilisation de l’accès aux données basé sur l’identité, consultez Se connecter au stockage en utilisant un accès aux données basé sur l’identité.

Le cluster de calcul peut communiquer seulement au sein du réseau virtuel, en utilisant l’écosystème Azure Private Link et des points de terminaison de service/privés, au lieu d’utiliser une adresse IP publique pour la communication. Veillez à activer Aucune adresse IP publique. Pour plus d’informations sur cette fonctionnalité, qui est actuellement en préversion (à la date du 7/03/2022), consultez Pas d’adresse IP publique pour les instances de calcul.

Cet environnement sécurisé utilise un composant Azure Machine Learning pour accéder au jeu de données via un point de terminaison privé. En outre, le Pare-feu Azure peut être utilisé pour contrôler l’accès sortant provenant de la capacité de calcul Azure Machine Learning. Pour en savoir plus sur la configuration du Pare-feu Azure pour contrôler l’accès à la capacité de calcul Azure Machine Learning qui se trouve dans un espace de travail Machine Learning, consultez Configurer le trafic réseau entrant et sortant.

Pour en savoir plus sur un des moyens de sécuriser un environnement Azure Machine Learning, consultez le billet de blog Secure Azure Machine Learning Service (AMLS) Environment.

Pour les services Azure qui ne peuvent pas être configurés efficacement avec des points de terminaison privés ou pour fournir une inspection des paquets avec état, envisagez d’utiliser le Pare-feu Azure ou une appliance virtuelle réseau de tiers.

Gestion des identités

L’accès au stockage d’objets Blob s’effectue via les contrôles d’accès en fonction du rôle Azure.

Azure Virtual Desktop prend en charge l’authentification Microsoft Entra à DSVM.

Data Factory utilise l’identité managée pour accéder aux données du stockage d’objets Blob. Les DSVM utilisent également les identités managées pour les tâches de correction.

Sécurité des données

Pour assure la sécurité des données au repos, tous les stockage Azure sont chiffrés avec des clés managées de Microsoft, avec chiffrement fort.

Vous pouvez également utiliser des clés gérées par le client. Ces clés doivent être stockées dans un magasin de clés managé. Dans cette architecture, Azure Key Vault est déployé dans l’environnement sécurisé pour stocker les secrets tels que les clés de chiffrement et les certificats. Key Vault est accessible par les ressources du réseau virtuel sécurisé via un point de terminaison privé.

Considérations sur la gouvernance

Activer Azure Policy pour appliquer des normes et fournir une correction automatisée pour mettre en conformité les ressources en fonction de stratégies spécifiques. Ces stratégies peuvent être appliquées à un abonnement de projet ou au niveau d’un groupe d’administration en tant que stratégie unique ou dans le cadre d’une initiative réglementaire.

Par exemple, dans cette architecture Azure Policy Guest Configuration a été appliquée à toutes les machines virtuelles concernées. Cette stratégie peut auditer les systèmes d’exploitation et la configuration des machines pour les DSVM.

Image de machine virtuelle

Les machines virtuelles de science des données exécutent des images de base personnalisées. Pour créer cette image de base, nous vous recommandons vivement les technologies comme Azure image Builder. De cette façon, vous pouvez créer une image réutilisable qui peut être déployée dès que nécessaire.

Cette image de base peut nécessiter des mises à jour, par exemple des fichiers binaires supplémentaires. Ces fichiers binaires doivent être téléchargés dans le stockage d’objets Blob public et passer par l’environnement sécurisé, tout comme les jeux de données qui sont chargés par les propriétaires de données.

Autres éléments à prendre en compte

La plupart des solutions de recherche sont des charges de travail temporaires et n’ont pas besoin d’être disponibles pendant très longtemps. Cette architecture est conçue comme un déploiement sur une seule région avec des zones de disponibilité. Si les besoins exigent une plus haute disponibilité, répliquez cette architecture dans plusieurs régions. Vous aurez besoin d’autres composants, par exemple l’équilibrage de charge global et un serveur de distribution pour acheminer le trafic vers toutes ces régions. Dans le cadre de votre stratégie de récupération après sinistre, la capture et la création de copies de l’image de base personnalisée avec Azure image Builder sont fortement recommandées.

La taille et le type des machines virtuelles de science des données doivent être adaptés au style de travail à effectuer. Cette architecture est conçue pour un seul projet de recherche et l’évolutivité s’appuie sur l’ajustement de la taille et du type des machines virtuelles et sur les choix effectués pour les ressources de calcul disponibles pour Azure Machine Learning.

Optimisation des coûts

L’optimisation des coûts consiste à examiner les moyens de réduire les dépenses inutiles et d’améliorer l’efficacité opérationnelle. Pour plus d’informations, consultez Vue d’ensemble du pilier d’optimisation des coûts.

Le coût des DSVM dépend du choix de la gamme de machines virtuelles sous-jacentes. Étant donné que la charge de travail est temporaire, le plan de consommation est recommandé pour la ressource d’application logique. Utilisez la calculatrice de prix Azure pour estimer les coûts en fonction du dimensionnement estimé des ressources nécessaires.

Contributeurs

Cet article est géré par Microsoft. Il a été écrit à l’origine par les contributeurs suivants.

Auteur principal :

Clayton Barlow | Spécialiste Azure senior

Environnement de recherche sécurisé pour les données réglementées

Architecture

Dataflow

Composants

Composants de la charge de travail principale

Composants de gestion de la posture

Composants de gouvernance

Autres solutions

Détails du scénario

Cas d’usage potentiels

Considérations

Sécurité

Sécurité du réseau

Gestion des identités

Sécurité des données

Considérations sur la gouvernance

Image de machine virtuelle

Autres éléments à prendre en compte

Optimisation des coûts

Contributeurs

Étapes suivantes

Commentaires

Commentaires

Ressources supplémentaires

Environnement de recherche sécurisé pour les données réglementées

Architecture

Dataflow

Composants

Composants de la charge de travail principale

Composants de gestion de la posture

Composants de gouvernance

Autres solutions

Détails du scénario

Cas d’usage potentiels

Considérations

Sécurité

Sécurité du réseau

Gestion des identités

Sécurité des données

Considérations sur la gouvernance

Image de machine virtuelle

Autres éléments à prendre en compte

Optimisation des coûts

Contributeurs

Étapes suivantes

Ressources associées

Commentaires

Commentaires

Ressources supplémentaires