Données dans Azure Machine Learning v1

Article
03/06/2024

S’APPLIQUE À :extension Azure CLI ml v1

Azure Machine Learning facilite la connexion à vos données dans le cloud. Il fournit une couche d’abstraction sur le service de stockage sous-jacent, ce qui vous permet d’accéder de manière sécurisée à vos données et de les utiliser sans avoir à écrire du code propre à votre type de stockage. Azure Machine Learning propose également ces fonctionnalités de données :

Interopérabilité avec les DataFrames Pandas et Spark
Gestion de versions et suivi de la traçabilité des données
Étiquetage des données
Supervision de la dérive des données

Workflow de données

Pour utiliser les données dans votre solution de stockage cloud, nous vous recommandons ce workflow de livraison de données. Ce workflow suppose que vous avez un compte de stockage Azure, et des données dans un service de stockage cloud Azure.

Créez un magasin de données Azure Machine Learning pour stocker les informations de connexion de votre stockage Azure
À partir de ce magasin de données, créez un jeu de données Azure Machine Learning pour qu’il pointe vers un ou des fichiers spécifiques dans votre stockage sous-jacent
Pour utiliser ce jeu de données dans votre expérience de Machine Learning, vous pouvez
- Monter le jeu de données sur la cible de calcul de votre expérience, pour l’entraînement du modèle
  
  OU
- Consommer le jeu de données directement dans des solutions Azure Machine Learning, par exemple, des exécutions d’expérience de Machine Learning automatisé (ML automatisé), des pipelines de Machine Learning ou le Concepteur Azure Machine Learning.
Créez des moniteurs de jeu de données pour le jeu de données de sortie de votre modèle afin de détecter une dérive de données
Si une dérive de données est détectée, mettez à jour votre jeu de données d’entrée et réentraînez votre modèle en conséquence

Cette capture d’écran montre le workflow recommandé :

Se connecter au stockage avec des magasins de données

Les magasins de données Azure Machine Learning hébergent de manière sécurisée les informations de connexion de votre stockage de données sur Azure et vous n’avez pas besoin de les placer dans vos scripts. Pour plus d’informations sur la connexion à un compte de stockage et l’accès aux données dans votre service de stockage sous-jacent, consultez Inscrire et créer un magasin de données.

Ces services de stockage cloud Azure pris en charge peuvent être inscrits sous forme de magasins de données :

Conteneur d’objets blob Azure
Partage de fichiers Azure
Azure Data Lake
Azure Data Lake Gen2
Azure SQL Database
Azure Database pour PostgreSQL
Système de fichiers Databricks
Azure Database pour MySQL

Conseil

Vous pouvez créer des magasins de données avec une authentification basée sur des informations d’identification pour accéder aux services de stockage, par exemple, un principal de service ou un jeton de signature d’accès partagé (SAS). Les utilisateurs avec un accès Lecteur sur l’espace de travail peuvent accéder à ces informations d’identification.

Si cela pose problème, visitez Créer un magasin de données qui utilise l’accès aux données basé sur une identité pour plus d’informations sur les connexions aux services de stockage.

Référencer des données dans le stockage avec des jeux de données

Les jeux de données Azure Machine Learning ne sont pas des copies de vos données. Le simple fait de créer un jeu de données crée une référence aux données dans son service de stockage, ainsi qu'une copie de ses métadonnées.

Étant donné que les jeux de données sont évalués tardivement et que les données restent à leur emplacement existant :

Vous n’engagez aucun coût de stockage supplémentaire.
Vous ne risquez pas de changer involontairement vos sources de données d’origine
Vous améliorez les performances des workflows de ML

Pour interagir avec vos données dans le stockage, créez un jeu de données afin d’empaqueter vos données dans un objet consommable pour les tâches de machine learning. Inscrivez le jeu de données dans votre espace de travail pour le partager et le réutiliser dans différentes expériences sans la complexité liée à l’ingestion des données.

Vous pouvez créer des jeux de données à partir de fichiers locaux, d’URL publiques, d’Azure Open Datasets ou de services de stockage Azure avec des magasins de données.

Il existe deux types de datasets :

Un FileDataset fait référence à des fichiers uniques ou multiples dans vos magasins de données ou vos URL publiques. Si vos données sont déjà nettoyées et prêtes pour des expériences d’entraînement, vous pouvez télécharger ou monter des fichiers référencés par FileDatasets dans votre cible de calcul
Un TabularDataset représente les données sous forme de tableau en analysant le fichier ou la liste de fichiers fournis. Vous pouvez charger un TabularDataset dans une trame de données Pandas ou Spark afin d’effectuer une autre manipulation et un nettoyage. Pour obtenir la liste complète des formats de données à partir desquels vous pouvez créer des TabularDatasets, consultez la classe TabularDatasetFactory

Ces ressources offrent plus d’informations sur les fonctionnalités du jeu de données :

Versionner et suivre la traçabilité du jeu de données
Monitorer votre jeu de données pour faciliter la détection de la dérive de données

Travailler avec vos données

Avec les jeux de données, vous pouvez effectuer des tâches de Machine Learning grâce à une intégration fluide aux fonctionnalités Azure Machine Learning.

Créer un projet d’étiquetage des données
Entraînez des modèles Machine Learning :
Accédez aux jeux de données pour le scoring avec l’inférence par lots dans des pipelines de Machine Learning
Configurez un moniteur de jeu de données pour la détection de la dérive de données

Étiqueter des données avec des projets d’étiquetage des données

L’étiquetage de grands volumes de données dans les projets de Machine Learning peut être fastidieux. Les projets qui impliquent un composant de vision par ordinateur, comme la classification d’images ou la détection d’objets, nécessitent souvent des milliers d’images et d’étiquettes correspondantes.

Azure Machine Learning fournit un emplacement central pour créer, gérer et monitorer les projets d’étiquetage. Les projets d’étiquetage aident à coordonner les données, les étiquettes et les membres d’équipe, pour vous permettre de gérer plus efficacement les tâches d’étiquetage. Les tâches actuellement prises en charge sont la classification d’images, multi-étiquette ou multiclasse, et l’identification des objets avec des zones délimitées.

Créez un projet d’étiquetage d’image ou un projet d’étiquetage de texte et générez un jeu de données à utiliser dans des expériences Machine Learning.

Surveiller les performances du modèle grâce à la dérive des données

Dans le contexte du Machine Learning, la dérive de données implique un changement des données d’entrée du modèle, ce qui entraîne une détérioration des performances du modèle. C’est l’une des principales raisons pour lesquelles l’exactitude du modèle se détériore au fil du temps, et le monitoring de dérive des données permet de détecter les problèmes de performance du modèle.

Pour plus d’informations, consultez Créer un moniteur de jeu de données pour savoir comment détecter une dérive de données sur les nouvelles données d’un jeu de données, et comment alerter.

Étapes suivantes

Créer un jeu de données dans Azure Machine Learning Studio ou avec le SDK Python
Essayez des exemples d’entraînement de jeu de données avec nos exemples de notebooks