Créer des jeux de données Azure Machine Learning à partir de Azure Open Datasets

Attention

Cet article fait référence à CentOS, une distribution Linux proche de l’état EOL (End Of Life). Faites le point sur votre utilisation afin de vous organiser en conséquence. Pour plus d’informations, consultez les Conseils sur la fin de vie CentOS.

Dans cet article, vous allez apprendre à intégrer des données d’enrichissement organisées dans vos expériences d’apprentissage automatique locales ou distantes grâce à des jeux de données Azure Machine Learning et Azure Open Datasets.

En créant un jeu de données Azure Machine Learning, vous créez une référence à l’emplacement de la source de données, ainsi qu’une copie de ses métadonnées. Étant donné que les jeux de données sont évalués tardivement et que les données restent à leur emplacement existant :

  • Vous n’engagez aucun coût de stockage supplémentaire.
  • Vous ne risquez pas de modifier involontairement vos sources de données d’origine.
  • Vous améliorez les performances des workflows de ML.

Pour comprendre où figurent les jeux de données dans le flux de travail global d’accès aux données d’Azure Machine Learning, consultez l’article Sécuriser l’accès aux données.

Les jeux de données Azure Open Datasets sont des jeux de données publics organisés que vous pouvez utiliser pour ajouter des fonctionnalités spécifiques à des scénarios afin d’enrichir vos solutions prédictives et d’améliorer leur précision. Reportez-vous au catalogue Open Datasets pour obtenir des données du domaine public qui peuvent vous aider à effectuer l’apprentissage de modèles Machine Learning, par exemple :

Les jeux de données ouverts se trouvent dans le Cloud sur Microsoft Azure et sont inclus à la fois dans le kit de développement logiciel (SDK) Python Azure Machine Learning et dans le studio Azure Machine Learning.

Prérequis

Pour cet article, vous avez besoin des éléments suivants :

Notes

Certaines classes de jeu de données ont des dépendances avec le package azureml-dataprep, qui n’est compatible qu’avec Python 64 bits. Pour les utilisateurs Linux, ces classes sont uniquement prises en charge dans les distributions suivantes : Red Hat Enterprise Linux (7, 8), Ubuntu (14.04, 16.04, 18.04), Fedora (27, 28), Debian (8, 9) et CentOS (7).

Créer des jeux de données avec le kit de développement logiciel (SDK)

Pour créer des jeux de données Azure Machine Learning à l’aide des classes Azure Open Datasets dans le Kit de développement logiciel (SDK) Python, assurez-vous d’avoir installé le package avec pip install azureml-opendatasets. Chaque jeu de données discret est représenté par sa propre classe dans le SDK, et certaines classes sont disponibles en tant que TabularDataset ou FileDataset Azure Machine Learning, ou les deux. Pour obtenir la liste complète des classes opendatasets, consultez la documentation de référence.

Vous pouvez récupérer certaines classes opendatasets en tant que TabularDataset ou FileDataset, ce qui vous permet de manipuler et/ou de télécharger les fichiers directement. D’autres classes peuvent obtenir un jeu de données seulement à l’aide des fonctions get_tabular_dataset() ou get_file_dataset() de la classe Dataset dans le SDK Python.

Le code suivant montre que la classe opendatasets MNIST peut retourner TabularDataset ou FileDataset.

from azureml.core import Dataset
from azureml.opendatasets import MNIST

# MNIST class can return either TabularDataset or FileDataset
tabular_dataset = MNIST.get_tabular_dataset()
file_dataset = MNIST.get_file_dataset()

Dans cet exemple, la classe opendatasets Diabète n’est disponible qu’en tant que TabularDataset, d’où l’utilisation de get_tabular_dataset().


from azureml.opendatasets import Diabetes
from azureml.core import Dataset

# Diabetes class can return ONLY TabularDataset and must be called from the static function
diabetes_tabular = Diabetes.get_tabular_dataset()

Inscrire des jeux de données

Inscrivez un jeu de données Azure Machine Learning auprès de votre espace de travail afin de pouvoir les partager avec d’autres personnes et les réutiliser dans des expériences dans votre espace de travail. Lorsque vous inscrivez un jeu de données Azure Machine Learning créé à partir d’Open Datasets, aucune donnée n’est immédiatement téléchargée, mais les données seront accessibles ultérieurement à la demande (pour la formation, par exemple) à partir d’un emplacement de stockage central.

Pour inscrire vos jeux de données auprès d’un espace de travail, utilisez la méthode register().

titanic_ds = titanic_ds.register(workspace=workspace,
                                 name='titanic_ds',
                                 description='titanic training data')

Créer des jeux de données avec le studio

Vous pouvez également créer des jeux de données Azure Machine Learning à partir d’Azure Open Datasets à l’aide d’Azure Machine Learning Studio, une interface web centralisée qui comprend des outils d’apprentissage automatique permettant de mettre en œuvre des scénarios de science des données pour des utilisateurs de science des données de tous niveaux de compétence.

Notes

Les jeux de données créés via Azure Machine Learning Studio sont automatiquement inscrits auprès de l’espace de travail.

  1. Dans votre espace de travail, sélectionnez l’onglet Jeux de données sous Ressources. Dans le menu déroulant Créer un jeu de données, sélectionnez À partir d’Open Datasets.

    Ouvrir un jeu de données avec l’interface utilisateur

  2. Choisissez un jeu de données en sélectionnant sa vignette. (Vous avez la possibilité de filtrer en utilisant la barre de recherche.) Sélectionnez Suivant.

    Choisir un jeu de données

  3. Choisissez ensuite un nom sous lequel inscrire le jeu de données, puis filtrez éventuellement les données en utilisant les filtres disponibles. Dans cet exemple, pour le jeu de données des jours fériés, vous filtrez la période sur une année et le code pays sur États-Unis seulement. Pour plus d’informations sur les données, telles que les descriptions de champ et les plages de dates, consultez le catalogue Azure Open Datasets. Sélectionnez Create (Créer).

    Définir les paramètres du jeu de données et créer le jeu de données

    Le jeu de données est maintenant disponible dans votre espace de travail sous Jeux de données. Vous pouvez l’utiliser de la même façon que les autres jeux de données que vous avez créés.

Accédez aux jeux de données pour vos expériences

Utilisez vos jeux de données dans vos expériences d’apprentissage automatique pour la formation de modèles ML. Découvrez-en plus sur l’entraînement avec des jeux de données.

Exemples de notebooks

Pour des exemples et des démonstrations des fonctionnalités d’Open Datasets, consultez ces exemples de notebooks.

Étapes suivantes