Administration des données

Article
05/09/2024

Découvrez comment gérer l’accès aux données, et comment vous authentifier dans Azure Machine Learning.

S’APPLIQUE À :Extension Azure CLI v2 (actuelle)Kit de développement logiciel (SDK) Python azure-ai-ml v2 (version actuelle)

Important

Cet article est destiné aux administrateurs Azure qui souhaitent créer l’infrastructure requise pour une solution Azure Machine Learning.

Authentification des données basée sur les informations d’identification

En général, l’authentification des données basée sur les informations d’identification implique ces vérifications :

L’utilisateur qui accède aux données du magasin de données basé sur les informations d’identification s’est-il vu attribuer un rôle dans le cadre du contrôle d’accès en fonction du rôle (RBAC) contenant Microsoft.MachineLearningServices/workspaces/datastores/listsecrets/action ?
- Cette autorisation est nécessaire pour récupérer les informations d’identification de l’utilisateur dans le magasin de données.
- Les rôles intégrés qui contiennent déjà cette autorisation sont Contributeur, Développeur Azure AI ou Scientifique des données Azure Machine Learning. Dans le cas contraire, si un rôle personnalisé est appliqué, vous devez vérifier que cette autorisation est ajoutée à ce rôle personnalisé.
- Vous devez savoir quel utilisateur spécifique tente d’accéder aux données. Il peut s’agir d’un utilisateur réel avec une identité d’utilisateur, ou d’un ordinateur avec une identité managée de calcul (MSI). Consultez la section Scénarios et options d’authentification afin d’identifier l’identité pour laquelle vous devez ajouter une autorisation.
Les informations d’identification stockées (principal de service, clé de compte ou jeton de signature d’accès partagé) ont-elles accès à la ressource de données ?

Authentification des données basée sur l’identité

En général, l’authentification des données basée sur l’identité implique ces vérifications :

Quel utilisateur souhaite accéder aux ressources ?
- Selon le contexte d’accès aux données, différents types d’authentifications sont disponibles, par exemple :
  - Identité de l’utilisateur
  - Identité managée de calcul
  - Identité managée de l’espace de travail
- Les travaux, notamment l’option Generate Profile du jeu de données, s’exécutent sur une ressource de calcul de votre abonnement, et accèdent aux données à partir de cet emplacement. L’identité managée de calcul, et non l’identité de l’utilisateur qui a soumis le travail, a besoin d’une autorisation d’accès à la ressource de stockage.
- Pour l’authentification basée sur une identité utilisateur, vous devez savoir quel utilisateur spécifique a essayé d’accéder à la ressource de stockage. Pour plus d’informations sur l’authentification utilisateur, consultez Authentification pour Azure Machine Learning. Pour plus d’informations sur l’authentification au niveau du service, consultez Configurer l’authentification entre Azure Machine Learning et d’autres services.
Cet utilisateur dispose-t-il de l’autorisation de lecture nécessaire ?
- L’identité de l’utilisateur ou l’identité managée de calcul dispose-t-elle des autorisations nécessaires pour cette ressource de stockage ? Les autorisations sont octroyées à l’aide du contrôle RBAC Azure.
- Le Lecteur du compte de stockage lit les métadonnées de stockage.
- Le Lecteur des données Blob du stockage lit et liste les conteneurs et les objets blob du stockage.
- Pour plus d’informations, consultez Rôles intégrés Azure pour le stockage.
Cet utilisateur dispose-t-il de l’autorisation d’écriture nécessaire ?
- L’identité de l’utilisateur ou l’identité managée de calcul dispose-t-elle des autorisations nécessaires pour cette ressource de stockage ? Les autorisations sont octroyées à l’aide du contrôle RBAC Azure.
- Le Lecteur du compte de stockage lit les métadonnées de stockage.
- Le Contributeur aux données Blob du stockage lit, écrit et supprime des conteneurs et objets blob du stockage Azure.
- Pour plus d’informations, consultez Rôles intégrés Azure pour le stockage.

Autres vérifications générales pour l’authentification

D’où provient l’accès ?
- Utilisateur : l’adresse IP du client se trouve-t-elle dans la plage de réseau/sous-réseau virtuel ?
- Espace de travail : l’espace de travail est-il public, ou a-t-il un point de terminaison privé dans un réseau/sous-réseau virtuel ?
- Stockage : le stockage autorise-t-il un accès public, ou limite-t-il l’accès via un point de terminaison de service ou un point de terminaison privé ?
Quelle sera l’opération effectuée ?
- Azure Machine Learning gère les opérations de création, lecture, mise à jour et suppression (CRUD) sur un magasin de données/jeu de données.
- Les opérations d’archivage sur les ressources de données dans Azure Machine Learning studio nécessitent l’opération RBAC suivante : Microsoft.MachineLearningServices/workspaces/datasets/registered/delete
- Les appels d’accès aux données (par exemple aperçu ou schéma) accèdent au stockage sous-jacent, et nécessitent des autorisations supplémentaires.
Cette opération va-t-elle s’exécuter dans les ressources de calcul de votre abonnement Azure ou dans les ressources hébergées au sein d’un abonnement Microsoft ?
- Tous les appels aux services de jeu de données et de magasin de données (à l’exception de l’option Generate Profile) utilisent des ressources hébergées dans un abonnement Microsoft pour exécuter les opérations.
- Les travaux, notamment l’option Generate Profile du jeu de données, s’exécutent sur une ressource de calcul de votre abonnement, et accèdent aux données à partir de cet emplacement. L’identité de calcul, et non l’identité de l’utilisateur qui a soumis le travail, a besoin d’une autorisation d’accès à la ressource de stockage.

Ce schéma illustre le déroulement général d’un appel d’accès aux données. Ici, un utilisateur tente d’effectuer un appel d’accès aux données via un espace de travail Machine Learning, sans utiliser de ressource de calcul.

Diagramme montrant le flux logique au moment de l’accès aux données.

Scénarios et options d’authentification

Ce tableau liste les identités à utiliser pour des scénarios spécifiques.

Configuration	Machine virtuelle locale/de notebooks du kit SDK	Travail	Aperçu du jeu de données	Parcours du magasin de données
Informations d’identification + MSI d’espace de travail	Informations d'identification	Informations d'identification	MSI d’espace de travail	Informations d’identification (uniquement clé de compte et jeton de signature d’accès partagé)
Aucune information d’identification + MSI d’espace de travail	MSI de calcul/identité de l’utilisateur	MSI de calcul/identité de l’utilisateur	MSI d’espace de travail	Identité de l’utilisateur
Informations d’identification + Aucune MSI d’espace de travail	Informations d'identification	Informations d'identification	Informations d’identification (non prises en charge pour l’aperçu du jeu de données dans le cadre d’un réseau privé)	Informations d’identification (uniquement clé de compte et jeton de signature d’accès partagé)
Aucune information d’identification + Aucune MSI d’espace de travail	MSI de calcul/identité de l’utilisateur	MSI de calcul/identité de l’utilisateur	Identité de l’utilisateur	Identité de l’utilisateur

Pour le kit SDK V1, l’authentification des données dans un travail utilise toujours une identité MSI de calcul. Pour le kit SDK V2, l’authentification des données dans un travail dépend de la configuration du travail. Il peut s’agir d’une identité d’utilisateur ou d’une identité MSI de calcul basée sur votre configuration.

Conseil

Pour accéder aux données externes à Machine Learning, par exemple avec l’Explorateur Stockage Azure, cet accès repose probablement sur l’identité de l’utilisateur. Pour obtenir des informations spécifiques, consultez la documentation relative à l’outil ou au service que vous utilisez. Pour plus d’informations sur le fonctionnement de Machine Learning avec les données, consultez Configurer l’authentification entre Azure Machine Learning et d’autres services.

Exigences spécifiques aux réseaux virtuels

Les informations suivantes vous aident à configurer l’authentification des données pour accéder aux données derrière un réseau virtuel à partir d’un espace de travail Machine Learning.

Ajouter les autorisations d’un compte de stockage à une identité managée d’espace de travail Machine Learning

Quand vous utilisez un compte de stockage à partir du studio, si vous souhaitez voir l’aperçu du jeu de données, vous devez activer Utiliser l’identité managée d’espace de travail pour afficher un aperçu des données et les profiler dans Azure Machine Learning studio dans la configuration du magasin de données. Ajoutez ensuite les rôles RBAC Azure suivants du compte de stockage à l’identité managée d’espace de travail :

Lecteur de données blob
Si le compte de stockage utilise un point de terminaison privé pour se connecter au réseau virtuel, vous devez octroyer le rôle Lecteur pour le point de terminaison privé du compte de stockage à l’identité managée.

Pour plus d’informations, consultez Utiliser Azure Machine Learning Studio dans un réseau virtuel Azure.

Les sections suivantes expliquent les limitations liées à l’utilisation d’un compte de stockage, avec votre espace de travail, dans un réseau virtuel.

Sécuriser la communication avec un compte de stockage

Si vous souhaitez sécuriser la communication entre Machine Learning et les comptes de stockage, configurez le stockage pour octroyer l’accès aux services Azure approuvés.

Pare-feu de Stockage Azure

Quand un compte de stockage se trouve derrière un réseau virtuel, le pare-feu du stockage peut normalement être utilisé pour permettre à votre client de se connecter directement via Internet. Toutefois, quand vous utilisez le studio, votre client ne se connecte pas au compte de stockage. Machine Learning service, qui effectue la requête, se connecte au compte de stockage. L’adresse IP du service n’est pas documentée, et elle change fréquemment. L’activation du pare-feu de stockage ne permet pas au studio d’accéder au compte de stockage dans une configuration de réseau virtuel.

Type de point de terminaison de Stockage Azure

Si l’espace de travail utilise un point de terminaison privé, et que le compte de stockage se trouve également dans le réseau virtuel, des validations supplémentaires s’imposent quand vous utilisez le studio :

Si le compte de stockage utilise un point de terminaison de service, le point de terminaison privé de l’espace de travail et le point de terminaison de service du stockage doivent se trouver dans le même sous-réseau du réseau virtuel.
Si le compte de stockage utilise un point de terminaison privé, le point de terminaison privé de l’espace de travail et le point de terminaison privé du stockage doivent se trouver dans le même réseau virtuel. Dans ce cas, ils peuvent se trouver dans des sous-réseaux différents.

Azure Data Lake Storage Gen1

Quand vous utilisez Azure Data Lake Storage Gen1 en tant que magasin de données, vous pouvez uniquement utiliser des listes de contrôle d’accès de type POSIX. Vous pouvez accorder à l’identité managée de l’espace de travail l’accès aux ressources, comme pour tout autre principal de sécurité. Pour plus d’informations, consultez Contrôle d’accès dans Azure Data Lake Storage Gen1.

Azure Data Lake Storage Gen2

Quand vous utilisez Azure Data Lake Storage Gen2 en tant que magasin de données, vous pouvez utiliser à la fois RBAC Azure et les listes ACL (listes de contrôle d’accès) de type POSIX pour contrôler l’accès aux données au sein d’un réseau virtuel.

Pour utiliser le contrôle RBAC Azure : suivez les étapes décrites dans Magasin de données : compte Stockage Azure. Data Lake Storage Gen2 est basé sur le service Stockage Azure. Les mêmes étapes s’appliquent donc quand vous utilisez le contrôle RBAC Azure.
Pour utiliser des listes ACL : vous pouvez accorder l’accès à l’identité managée de l’espace de travail comme pour tout autre principal de sécurité. Pour plus d’informations, consultez Listes de contrôle d’accès sur les fichiers et répertoires.

Étapes suivantes

Pour plus d’informations sur l’activation du studio dans un réseau, consultez Utiliser Azure Machine Learning studio dans un réseau virtuel Azure.

Share via