Se connecter aux données avec Azure Machine Learning Studio

Dans cet article, découvrez comment accéder à vos données avec Azure Machine Learning Studio. Connectez-vous à vos données dans les services de stockage sur Azure avec les magasins de données Azure Machine Learning, puis empaquetez ces données de tâches dans vos workflows ML avec les jeux de données Azure Machine Learning.

Le tableau suivant définit et récapitule les avantages liés aux magasins de données et jeux de données.

Object Description Avantages
Magasins de données Connectez-vous en toute sécurité à votre service de stockage sur Azure, en stockant vos informations de connexion, comme votre ID d’abonnement et votre autorisation de jeton, dans votre coffre de clés associé à l’espace de travail. Vos données étant stockées de manière sécurisée, vous :

  • Ne mettez pas les informations d’identification ou sources de données d’origine en danger.
  • N’avez plus besoin de les coder en dur dans vos scripts.
  • Groupes de données En créant un jeu de données, vous créez une référence à l’emplacement de la source de données, ainsi qu’une copie de ses métadonnées. Avec les jeux de données, vous pouvez :

  • Accéder aux données pendant la formation de modèle.
  • Partager des données et collaborer avec d’autres utilisateurs.
  • Utiliser les bibliothèques open source, telles que Pandas, pour l’exploration des données.
  • Étant donné que les jeux de données sont évalués tardivement et que les données restent à leur emplacement existant :

  • Vous conservez une seule copie des données dans votre stockage.
  • Vous n’engagez aucun coût de stockage supplémentaire.
  • Vous ne risquez pas de modifier involontairement vos sources de données d’origine.
  • Vous améliorez les performances des workflows de ML.
  • Pour comprendre où figurent les magasins de données et les jeux de données dans le flux de travail global d’accès aux données d’Azure Machine Learning, consultez l’article Sécuriser l’accès aux données.

    Pour une première expérience de code, consultez les articles suivants pour utiliser le kit de développement logiciel (SDK) Azure Machine Learning Python pour :

    Prérequis

    • Un abonnement Azure. Si vous n’avez pas d’abonnement Azure, créez un compte gratuit avant de commencer. Essayez la version gratuite ou payante d’Azure Machine Learning.

    • Accédez au studio Azure Machine Learning.

    • Un espace de travail Azure Machine Learning. Créer des ressources d’espace de travail.

      • Quand vous créez un espace de travail, un conteneur d’objets blob Azure et un partage de fichiers Azure sont inscrits automatiquement comme magasins de données dans l’espace de travail. sous les noms workspaceblobstore et workspacefilestore respectivement. Si le stockage blob répond à vos besoins, workspaceblobstore est défini en tant que magasin de stockage par défaut et déjà configuré pour être utilisé. Dans le cas contraire, vous avez besoin d’un compte de stockage sur Azure avec un type de stockage pris en charge.

    Créer des magasins de données

    Vous pouvez créer des magasins de données à partir de ces solutions de stockage Azure. Pour les solutions de stockage non prises en charge, et pour réduire le coût de sortie des données pendant les expériences de Machine Learning, vous devez déplacer vos données vers une solution de stockage Azure prise en charge. Apprenez-en davantage sur les magasins de données.

    Vous pouvez créer des magasins de données avec un accès basé sur les informations d’identification ou un accès basé sur l’identité.

    Créez un magasin de données en quelques étapes avec Azure Machine Learning Studio.

    Important

    Si votre compte de stockage de données se trouve sur un réseau virtuel, des étapes de configuration supplémentaires sont nécessaires pour s’assurer que Studio a accès à vos données. Pour vous assurer que les étapes de configuration appropriées sont appliquées, consultez Isolement réseau et confidentialité.

    1. Connectez-vous à Azure Machine Learning Studio.
    2. Dans le volet gauche, sous Ressources, sélectionnez Données.
    3. En haut, sélectionnez Magasins de données.
    4. Sélectionnez +Créer.
    5. Complétez le formulaire pour créer et inscrire un nouveau magasin de données. Le formulaire est mis à jour intelligemment en fonction du type de stockage Azure et du type d’authentification que vous sélectionnez. Pour savoir où trouver les informations d’authentification requises pour remplir ce formulaire, consultez la section accès au stockage et autorisations.

    L’exemple suivant montre à quoi ressemble le formulaire quand vous créez un magasin de données d’objets blob Azure :

    Form for a new datastore

    Créer des ressources de données

    Après avoir créé un magasin de données, créez un jeu de données pour interagir avec vos données. Les jeux de données intègrent vos données dans un objet consommable évalué tardivement pour les tâches de Machine Learning, comme la formation. En savoir plus sur les jeux de données.

    Il existe deux types de jeux de données, FileDataset et TabularDataset. FileDataset crée des références à des fichiers uniques ou multiples, ou URL publiques. TabularDataset représente vos données dans un format tabulaire. Vous pouvez créer un objet TabularDatasets à partir de fichiers .csv, .tsv, .parquet et .jsonl, et à partir de résultats de requête SQL.

    Les étapes suivantes montrent comment créer un jeu de données dans Azure Machine Learning Studio.

    Notes

    Les jeux de données créés via Azure Machine Learning Studio sont automatiquement inscrits auprès de l’espace de travail.

    1. Accédez à Azure Machine Learning Studio

    2. Sous Ressources dans le volet de navigation gauche, sélectionnez Données. Sous l’onglet Ressources de données, sélectionnez Créer This screenshot highlights Create in the Data assets tab.

    3. Attribuez un nom et une description facultative à votre ressource de données. Puis, sous Type, sélectionnez le type de jeu de données Fichier ou Tabulaire. This screenshot shows set the name, description, and type of the data asset.

    4. Vous disposez de plusieurs options pour votre ressource de données. Si vos données sont déjà stockées dans Azure, choisissez « À partir du stockage Azure ». Si vous souhaitez charger des données à partir de votre lecteur local, choisissez « À partir de fichiers locaux ». Si vos données sont stockées à un emplacement web public, choisissez « À partir de fichiers web ». Vous pouvez également créer une ressource de données à partir d’une base de données SQL ou d’Azure Open Datasets.

    5. Pour l’étape de sélection des fichiers, sélectionnez l’emplacement où vous souhaitez stocker vos données dans Azure et les fichiers de données que vous souhaitez utiliser.

      1. Vous pouvez choisir d’ignorer la validation si vos données se trouvent dans un réseau virtuel. En savoir plus sur l’isolement et la confidentialité des réseaux virtuels.
    6. Suivez les étapes pour définir les paramètres d’analyse des données et le schéma de votre ressource de données. Les paramètres sont pré-renseignés en fonction du type de fichier et vous pouvez poursuivre la configuration de vos paramètres avant de créer la ressource de données.

    7. Une fois que vous avez atteint l’étape Révision, cliquez sur Créer sur la dernière page.

    Aperçu et profil des données

    Après avoir créé votre jeu de données, vérifiez que vous pouvez visualiser l’aperçu et le profil dans le studio en procédant comme suit :

    1. Connectez-vous à Azure Machine Learning Studio.
    2. Dans le volet de navigation gauche, sous Ressources, sélectionnez Données. Screenshot highlights Create in the Data assets tab.
    3. Sélectionnez le nom du jeu de données que vous souhaitez afficher.
    4. Sélectionnez l’onglet Explorer .
    5. Sélectionnez l’onglet Aperçu. Screenshot shows a preview of a dataset.
    6. Sélectionnez l’onglet Profil. Screenshot shows dataset column metadata in the Profile tab.

    Vous pouvez obtenir un vaste éventail de statistiques de synthèse dans votre jeu de données afin de vérifier si ce dernier est prêt pour le Machine Learning. Les colonnes non numériques incluent uniquement des statistiques de base telles que min, max et nombre d’erreurs. Les colonnes numériques vous permettent également de consulter les statistiques et quantiles estimés.

    Plus précisément, le profil des données du jeu de données Azure Machine Learning comprend :

    Notes

    Les entrées vides apparaissent pour les fonctionnalités avec types non pertinents.

    Statistique Description
    Fonctionnalité Nom de la colonne en cours de synthèse.
    Profil Visualisation en ligne en fonction du type déduit. Par exemple, les chaînes, valeurs booléennes et dates incluront des nombres de valeurs, et les décimales (valeurs numériques) des histogrammes approximatifs. Cela vous permet de vous faire une idée rapide de la distribution des données.
    Distribution des types Nombre de valeurs en ligne de types au sein d’une colonne. Les valeurs Null ont un type propre et dès lors, cette visualisation est utile pour détecter les valeurs impaires ou manquantes.
    Type Type déduit de la colonne. Les valeurs possibles incluent : chaînes, valeurs booléennes, dates et décimales.
    Min Valeur minimale de la colonne. Les entrées vides apparaissent pour les fonctionnalités dont le type n’a pas d'ordre inhérent (valeurs booléennes, par exemple).
    Max Valeur maximale de la colonne.
    Count Nombre total d’entrées manquantes et non manquantes de la colonne.
    Non manquant Nombre d’entrées dans la colonne qui ne sont pas manquantes. Les chaînes vides et les erreurs sont traitées en tant que valeurs et donc n’entrent pas dans « Non manquant ».
    Quantiles Valeurs approximatives à chaque quantile pour donner une idée de la distribution des données.
    Moyenne Moyenne arithmétique ou moyenne de la colonne.
    Écart standard Mesure de la dispersion ou de la variation des données de cette colonne.
    Variance Mesure jusqu’où les données de cette colonne sont déployées par rapport à leur valeur moyenne.
    Asymétrie Mesure de la différence entre les données de cette colonne et une distribution normale.
    Kurtosis Mesure de la latéralité des données de cette colonne par rapport à une distribution normale.

    Accès et autorisations pour le stockage

    Pour s’assurer que vous vous connectez en toute sécurité à votre service de stockage Azure, Azure Machine Learning exige que vous ayez l’autorisation d’accéder au stockage de données correspondant. Cet accès dépend des informations d’authentification utilisées pour inscrire le magasin de données.

    Réseau virtuel

    Si votre compte de stockage de données se trouve sur un réseau virtuel, des étapes de configuration supplémentaires sont nécessaires pour s’assurer qu’Azure Machine Learning a accès à vos données. Pour vous assurer que les étapes de configuration appropriées sont appliquées lors de la création et de l’enregistrement de votre magasin de données, consultez Utiliser le studio Azure Machine Learning dans un réseau virtuel.

    Validation de l’accès

    Avertissement

    L’accès inter-clients aux comptes de stockage n’est pas pris en charge. Si vous avez besoin d’un accès inter-clients pour votre scénario, contactez l’alias de l’équipe de support des données Azure Machine Learning à l’adresse amldatasupport@microsoft.com pour obtenir de l’aide sur une solution de code personnalisée.

    Dans le cadre du processus de création et d’inscription du magasin de données initial, Azure Machine Learning vérifie automatiquement que le service de stockage sous-jacent existe et que le principal fourni par l’utilisateur (nom d’utilisateur, principal de service ou jeton SAS) a accès au stockage spécifié.

    Après la création du magasin de données, cette validation est effectuée uniquement pour les méthodes qui requièrent l’accès au conteneur de stockage sous-jacent, et non chaque fois que des objets du magasin de données sont récupérés. Par exemple, la validation se produit si vous souhaitez télécharger des fichiers à partir de votre magasin de données ; mais si vous souhaitez simplement modifier votre magasin de données par défaut, la validation ne se produit pas.

    Pour authentifier votre accès au service de stockage sous-jacent, vous pouvez fournir votre clé de compte, des jetons de signature d’accès partagé (SAS) ou le principal de service selon le type de magasin de données que vous souhaitez créer. La matrice de types de stockage répertorie les types d’authentification pris en charge qui correspondent à chaque type de magasin de données.

    Vous trouverez des informations sur la clé de compte, le jeton SAS et le principal de service sur votre portail Azure.

    • Si vous envisagez d’utiliser une clé de compte ou un jeton SAP pour l’authentification, sélectionnez Comptes de stockage dans le volet gauche, puis choisissez le compte de stockage que vous souhaitez inscrire.

      • La page Vue d’ensemble fournit des informations telles que le nom du compte, le conteneur et le nom du partage de fichiers.
        1. Pour les clés de compte, accédez à Clés d’accès dans le volet Paramètres.
        2. Pour les jetons SAP, accédez à Signatures d’accès partagé dans le volet Paramètres.
    • Si vous envisagez d’utiliser un principal de service pour l’authentification, accédez à vos Inscriptions d’applications, puis sélectionnez l’application que vous souhaitez utiliser.

      • La page Vue d’ensemble correspondante contient des informations requises comme l’ID de locataire et l’ID de client.

    Important

    • Si vous avez besoin de modifier vos clés d’accès pour un compte de stockage Azure (clé de compte ou jeton SAP), veillez à synchroniser les nouvelles informations d’identification avec votre espace de travail et les magasins de données qui y sont connectés. Découvrez comment synchroniser vos informations d’identification mises à jour.

    • Si vous désinscrivez puis réinscrivez un magasin de données portant le même nom et que l’opération échoue, le compte Azure Key Vault de votre espace de travail peut ne pas être doté de la suppression réversible. Par défaut, la suppression réversible est activée pour l’instance de coffre de clés créée par votre espace de travail, mais elle peut ne pas l’être si vous avez utilisé un coffre de clés existant ou si votre espace de travail a été créé avant octobre 2020. Pour plus d’informations sur l’activation de la suppression réversible, consultez Activer la suppression réversible pour un coffre de clés existant.

    Autorisations

    Pour le conteneur de blobs Azure et le stockage Azure Data Lake Gen2, assurez-vous que vos informations d’authentification vous donnent un accès Lecteur des données blob du stockage. En savoir plus sur le Lecteur des données blob du stockage. Par défaut, le jeton SAS d'un compte ne dispose d'aucune autorisation.

    • Pour l’accès en lecture aux données, vos informations d’authentification doivent au minimum disposer d’autorisations de liste et de lecture pour les conteneurs et les objets.

    • Pour l’accès en écriture aux données, des autorisations d’écriture et d’ajout sont également requises.

    Entraîner avec des jeux de données

    Utilisez vos jeux de données dans vos expériences d’apprentissage automatique pour la formation de modèles ML. Découvrez-en plus sur l’entraînement avec des jeux de données.

    Étapes suivantes